Size: a a a

2020 October 15

AZ

Anton Zadorozhniy in Data Engineers
Grigory Pomadchin
ну я думаю больше в сторону стримов всяких и что бы не надо было никогда ни описывать эти етлы ни ранить;
декомпозировать их
стримы же описывать и ранить не надо
источник

ME

Max Efremov in Data Engineers
Хм, а есть коалы наоборот? Чтобы писать на спарк апи, а под капотом были панды?)
источник

ME

Max Efremov in Data Engineers
А то у меня тут данных кот наплакал, но спарковский код уже есть)
источник

AZ

Anton Zadorozhniy in Data Engineers
Max Efremov
Хм, а есть коалы наоборот? Чтобы писать на спарк апи, а под капотом были панды?)
—master local[*]
источник

AZ

Anton Zadorozhniy in Data Engineers
если на датабриксе - у них появилась прекрасная фича https://docs.databricks.com/clusters/single-node.html
источник

ME

Max Efremov in Data Engineers
Anton Zadorozhniy
—master local[*]
наверное так и попробую сделать. Оно не медленнее панд будет на одной машинке?
источник

ME

Max Efremov in Data Engineers
Мне кажется, там оверхеда много
источник

AZ

Anton Zadorozhniy in Data Engineers
если данных кот наплакал то вам не все равно?
источник

ME

Max Efremov in Data Engineers
справедливо)
источник

SB

Sergey Boytsov in Data Engineers
Привет, записываю из spark приложения в postgres данные просто каr dataframe.write.jdbc
Вопрос:
хочется добавить индексы к записанным данным, как бы вы это организовали:
через jdbc прямо из джобы вызывали соответсвующий sql?
писали триггеры внутри postgresql?
хитрая оркестрация через airflow?
источник

ME

Max Efremov in Data Engineers
А просто в базе нельзя индексы включить?
источник

ME

Max Efremov in Data Engineers
Или это нужно часто делать?
источник

ME

Mikhail Epikhin in Data Engineers
но ведь индексы задаются на этапе DDL, в момент когда вы делаете insert into они автоматически строятся
источник

ME

Mikhail Epikhin in Data Engineers
или вы каждый раз таблицу целиком пересоздаете?
источник

SB

Sergey Boytsov in Data Engineers
это не то что бы отработанная схема работы
поэтому пока там была история каждый раз создавать таблицу

вероятно самый правильный способ был бы сначала сделать корректный ddl в котором описать все индексы, а уже после него запускать spark job
источник

AS

Andrey Smirnov in Data Engineers
Mikhail Epikhin
но ведь индексы задаются на этапе DDL, в момент когда вы делаете insert into они автоматически строятся
Если грузится один большой батч, то лучше отключить индекс, записать, потом подключить обратно
источник

ME

Mikhail Epikhin in Data Engineers
Andrey Smirnov
Если грузится один большой батч, то лучше отключить индекс, записать, потом подключить обратно
Да, в таком случае лучше сначала create table без индексов описать, залить и потом построить
источник

ME

Mikhail Epikhin in Data Engineers
Andrey Smirnov
Если грузится один большой батч, то лучше отключить индекс, записать, потом подключить обратно
тут правда скорее, не если грузится "большой батч", а если создаем новую таблицу
источник

ME

Mikhail Epikhin in Data Engineers
потому что "большой батч" может быть меньше тех данных что уже лежат
источник

SB

Sergey Boytsov in Data Engineers
> Да, в таком случае лучше сначала create table без индексов описать, залить и потом построить
и как в таком плане лучше орагнизовать вызов такого create index sql
неужели вызывать при помощи любого jdbc коннектора прямо из spark джобы?
источник