Size: a a a

2020 October 15

SS

Sergey Sheremeta in Data Engineers
Dmitry Zuev
Какая задача?
1) на входе имею некоторую схему данных в виде json (список столбцов с типами и признаками является ли столбец первичным ключем)
2) по этой схеме формирую датафрейм, где заполнены только столбцы - первичные ключе
3) теперь мне нужно обогатить датафрейм всеми остальными столбцами - для этого в mapPartitions создаю jdbcConnection и дергаю БД

и вот как бы мне сделать это для произвольной схемы данных?
источник

SS

Sergey Shushkov in Data Engineers
А кейс класс зачем? Нужен парсер который бы приобразовывал схему в пончтный спарку набор полей, и потом с ней уже играться
источник

SS

Sergey Sheremeta in Data Engineers
Sergey Shushkov
А кейс класс зачем? Нужен парсер который бы приобразовывал схему в пончтный спарку набор полей, и потом с ней уже играться
что вы понимаете под "понятным спарку набором полей"?
источник

SS

Sergey Shushkov in Data Engineers
Можно через StructType сделать
источник

DZ

Dmitry Zuev in Data Engineers
Ну кароч тут надо забыть про Спарк. И программировать как обычно
источник

SS

Sergey Sheremeta in Data Engineers
проблема в том, что я вообще не программист ((
знать бы еще как "обычно программируют"
источник

SS

Sergey Shushkov in Data Engineers
Sergey Sheremeta
проблема в том, что я вообще не программист ((
знать бы еще как "обычно программируют"
Ну начать нужно с парсинга джейсона, а там само пойдет 😁
источник

DZ

Dmitry Zuev in Data Engineers
Записывайте контакт
источник

DZ

Dmitry Zuev in Data Engineers
Пока не удалил
источник

SO

Simon Osipov in Data Engineers
У кого тут проблемы с документацией?
источник

SO

Simon Osipov in Data Engineers
😂😂
источник

AV

Alexandr Vladimirovi... in Data Engineers
Всем привет, можете подсказать плиз по Ignite, сейчас тестим его для онлайн отчетов, запихнули недельный датасет в память, запускаем запросы, а они дико тормозят (относительно других OLAP БД)
добавили индекс по полям, по которым делаем выборку, но скорости это не прибавило
по плану запроса видим что индекс используется
скажите, никто не сталкивался с таким? Неужели Ignite такой медленный если выборка идет не по PK ?
источник

SS

Sergey Shushkov in Data Engineers
Я бы начал с проверки сети между мастером и нодами.
источник

AZ

Anton Zadorozhniy in Data Engineers
Alexandr Vladimirovich
Всем привет, можете подсказать плиз по Ignite, сейчас тестим его для онлайн отчетов, запихнули недельный датасет в память, запускаем запросы, а они дико тормозят (относительно других OLAP БД)
добавили индекс по полям, по которым делаем выборку, но скорости это не прибавило
по плану запроса видим что индекс используется
скажите, никто не сталкивался с таким? Неужели Ignite такой медленный если выборка идет не по PK ?
индексы в OLAP работают только по сильно селективным полям, вы лучше план покажите
источник

AV

Alexandr Vladimirovi... in Data Engineers
у нас индекс по времени
источник

AZ

Anton Zadorozhniy in Data Engineers
я не большой эксперт в игнайте, но кмк индекс не сильно поможет
источник

AV

Alexandr Vladimirovi... in Data Engineers
вначале без него было, с ним не лучше
источник

AZ

Anton Zadorozhniy in Data Engineers
в игнайте же индексы В+ деревья?
источник

AV

Alexandr Vladimirovi... in Data Engineers
я хз почему inmemory БД работает медленнее чем тот же GP или Clickhouse
источник

AV

Alexandr Vladimirovi... in Data Engineers
Anton Zadorozhniy
в игнайте же индексы В+ деревья?
+
источник