Телеграмм чат группы hadoopusers страница 2823

Опять works on my machine, вроде проходили все это

01:52пожаловаться #1

Но если работает - то наверное лучше не трогать)

01:52пожаловаться #2

El-Yaz in Data Engineers

Привет!
Ищу парт-тайм, на 20-30 часов в неделю.
Успешный опыт подобной работы, параллельно с основной, уже есть. Работал через тайм-трекинг систему toggl.
Что могу, с чем работал?
Писал вебсервисы на пайтон с Flask, sql alchemy/pymssql, elastic search client, pandas. Настраивал CI/CD.
Языки программирования: python, Java.
Бд: sql, elastic search, mongodb.
Docker, kubernetes. Kafka(pure consumer/producer, streams, connector, sink-connector), spark.
Работал с облаком Google cloud services, работа с unix-системами.
В пет-проекте настроивал себе prometheus+grafana, понимаю что такое Redis, но нет коммерческого опыта - прошел курсы на Redis University. Есть опыт с Airflow настраивал джобы в пет-проекте
Git, jira, confluence - все по классике.
Работал на фрилансе как заявленным для заказчика, так и под кредами другого разработчика.
Ищу проект связанный с построением пайплайном, обработкой данных, но так же открыт и к бекенду на пайтоне

11:54пожаловаться #3

Дамы и господа,тут же много пользователей Кликхауза? Вы даете сатанистам с ним работать? Какие библиотеки есть, какие-то реализации датафрейма с пушдауном?

14:28пожаловаться #4

Rodion in Data Engineers

Всем привет, почему может возникать такая ошибка, при том, что я выдаю на каждый экзекьютор по 16гб ?

Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: ShuffleMapStage 54 (insertInto at tpСhanges.scala:269) has failed the maximum allowable number of times: 4. Most recent failure reason: org.apache.spark.shuffle.FetchFailedException: Too large frame: 5572827554

14:32пожаловаться #5

Anton Zadorozhniy

всмысле чтобы пандовские трансформации как-то преобразовывались в SQL клика?

14:47пожаловаться #6

всмысле чтобы пандовские трансформации как-то преобразовывались в SQL клика?

да

14:47пожаловаться #7

ну как спарковые датафреймы, ленивые пока не дошло до экшена, потом .toPandas и получаешь нормальный в памяти уже

14:48пожаловаться #8

Pandas interface for Clickhouse database. Contribute to kszucs/pandahouse development by creating an account on GitHub.

лично не трогал, слышал про такое

https://github.com/kszucs/pandahouse

GitHub

kszucs/pandahouse

14:49пожаловаться #9

Pandas interface for Clickhouse database. Contribute to kszucs/pandahouse development by creating an account on GitHub.

лично не трогал, слышал про такое

https://github.com/kszucs/pandahouse

GitHub

kszucs/pandahouse

это все равно что read_sql, но спасибо

14:51пожаловаться #10

Так а чем плох-то писпарк?

14:54пожаловаться #11

это спарк, нужен кластер или локальный экзекьютор

Андрей Жуков... in Data Engineers

14:55пожаловаться #12

АЖ

Anton Zadorozhniy

это все равно что read_sql, но спасибо

А ты хочешь умный пушдаун?

14:55пожаловаться #13

Андрей Жуков

А ты хочешь умный пушдаун?

для начала какой-нибудь

14:56пожаловаться #14

так основной консерн в ленивости или в том, чтобы вычисления перенести в КХ?

14:58пожаловаться #15

так основной консерн в ленивости или в том, чтобы вычисления перенести в КХ?

Второе, но без ленивости это как сделать, делать промежуточную таблицу на каждый фильтр или что там?

15:01пожаловаться #16

Anton Zadorozhniy

Второе, но без ленивости это как сделать, делать промежуточную таблицу на каждый фильтр или что там?

ну типа при новой трансформации кидать новый «фрейм» в стек SQL-селектов

15:17пожаловаться #17

df = teradandas.read.clickhouse(t) транслируется в select * from t
потом df = df.groupBy(x).select(y) транслируется в select y from (select * from t) group by x
потом filter в select * from (select y from (select * from t) group by x) where ololo=1111
потом приходит экшон и весь стек исполняет в КХ

15:21пожаловаться #18

Я такое и имею в виду, ну и не прогонять запрос пока не попросил результат

15:24пожаловаться #19

Rodion in Data Engineers

Всем ку.
Посоветуйте, какую бы вы выбрали бд для 1тб очень связанных данных (многие ко многим, некоторые таблички сильно иерархичны)
На что смотреть? Как выбирать?
Селф-хостед, без облака, есть небольшой бюджет на покупку платного решения. На место пофиг, прирост данных небольшой, важна скорость запросов (условно куча джоинов)