Телеграмм чат группы hadoopusers страница 2711

Старшие товарищи , нужен совет . Есть задача читать данные (пока что .csv) в pd.DataFrame там преобразовывать и из DataFrame отправлять в хранилище . Но отправлять не бакетом, а построчный insert. Сейчас псевдостриминг организован через цикл отправляющий каждую строку в хранилище . Эта штука мягко говоря не внушает доверия в плане производительности . Собственно вопрос : как можно без привлечения элементов spark/Hadoop стэка организовать нормальный стриминг из pandas?

источник

18:06пожаловаться #8

ПБ

Повелитель Бури... in Data Engineers

я парсил бекап из телеге парсил в базу чтобы инфа не терялась

источник

18:06пожаловаться #9

ПБ

Повелитель Бури... in Data Engineers

Toemik Mnemonic

Старшие товарищи , нужен совет . Есть задача читать данные (пока что .csv) в pd.DataFrame там преобразовывать и из DataFrame отправлять в хранилище . Но отправлять не бакетом, а построчный insert. Сейчас псевдостриминг организован через цикл отправляющий каждую строку в хранилище . Эта штука мягко говоря не внушает доверия в плане производительности . Собственно вопрос : как можно без привлечения элементов spark/Hadoop стэка организовать нормальный стриминг из pandas?

я такую штуку сделал через nifi )

источник

18:07пожаловаться #10

AS

Andrey Smirnov in Data Engineers

Alex

И чтобы посмотреть просит в браузере запустить клиента

но сообщение полностью показывает

источник

18:08пожаловаться #11

TM

Toemik Mnemonic in Data Engineers

Повелитель Бури

я такую штуку сделал через nifi )

Ну вот да , первое что приходит в голову ))

источник

18:08пожаловаться #12

ПБ

Повелитель Бури... in Data Engineers

Toemik Mnemonic

Ну вот да , первое что приходит в голову ))

берите не пожалеете ну или airflow )

источник

18:09пожаловаться #13

TM

Toemik Mnemonic in Data Engineers

Повелитель Бури

берите не пожалеете ну или airflow )

Вас понял , услышал ))

источник

18:17пожаловаться #14

D

Dima in Data Engineers

Чет на форуме пост мне кажется избыточно ради уточнения писать.

WHERE выполняется перед GROUP BY или после?)

источник

18:19пожаловаться #15

AZ

Anton Zadorozhniy in Data Engineers

Dima

Чет на форуме пост мне кажется избыточно ради уточнения писать.

WHERE выполняется перед GROUP BY или после?)

Одновременно)

источник

18:20пожаловаться #16

А

Алексей in Data Engineers

Dima

Чет на форуме пост мне кажется избыточно ради уточнения писать.

WHERE выполняется перед GROUP BY или после?)

а вам как хотелось бы?

источник

18:21пожаловаться #17

DZ

Dmitry Zuev in Data Engineers

Повелитель Бури

берите не пожалеете ну или airflow )

при чем тут это всё?

источник

18:21пожаловаться #18

D

Dima in Data Engineers

Алексей

а вам как хотелось бы?

Я просто хочу без джоинов обойтись,
select uid from table where name!=signal1 group by uid. в больном воображении запрос должен отсеять все записи где name равен сигналу, при условии что uid на самом деле встречается с name равным условно signal1 и signal2 и signal3.

источник

18:24пожаловаться #19

D

Dima in Data Engineers

Если груп срабатывает до where то отсеять должен

источник

18:25пожаловаться #20