Size: a a a

2020 October 01

AZ

Anton Zadorozhniy in Data Engineers
Опять works on my machine, вроде проходили все это
источник

AZ

Anton Zadorozhniy in Data Engineers
Но если работает - то наверное лучше не трогать)
источник

E

El-Yaz in Data Engineers
Привет!
Ищу парт-тайм, на 20-30 часов в неделю.
Успешный опыт подобной работы, параллельно с основной, уже есть. Работал через тайм-трекинг систему toggl.
Что могу, с чем работал?
Писал вебсервисы на пайтон с Flask, sql alchemy/pymssql, elastic search client, pandas. Настраивал CI/CD.
Языки программирования: python, Java.
Бд: sql, elastic search, mongodb.
Docker, kubernetes. Kafka(pure consumer/producer, streams, connector, sink-connector), spark.
Работал с облаком Google cloud services, работа с unix-системами.
В пет-проекте настроивал себе prometheus+grafana, понимаю что такое Redis, но нет коммерческого опыта - прошел курсы на Redis University. Есть опыт с Airflow настраивал джобы в пет-проекте
Git, jira, confluence - все по классике.
Работал на фрилансе как заявленным для заказчика, так и под кредами другого разработчика.
Ищу проект связанный с построением пайплайном, обработкой данных, но так же открыт и к бекенду на пайтоне
источник

AZ

Anton Zadorozhniy in Data Engineers
Дамы и господа,тут же много пользователей Кликхауза? Вы даете сатанистам с ним работать? Какие библиотеки есть, какие-то реализации датафрейма с пушдауном?
источник

R

Rodion in Data Engineers
Всем привет, почему может возникать такая ошибка, при том, что я выдаю на каждый экзекьютор по 16гб ?
Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: ShuffleMapStage 54 (insertInto at tpСhanges.scala:269) has failed the maximum allowable number of times: 4. Most recent failure reason: org.apache.spark.shuffle.FetchFailedException: Too large frame: 5572827554
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
Дамы и господа,тут же много пользователей Кликхауза? Вы даете сатанистам с ним работать? Какие библиотеки есть, какие-то реализации датафрейма с пушдауном?
всмысле чтобы пандовские трансформации как-то преобразовывались в SQL клика?
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
всмысле чтобы пандовские трансформации как-то преобразовывались в SQL клика?
да
источник

AZ

Anton Zadorozhniy in Data Engineers
ну как спарковые датафреймы, ленивые пока не дошло до экшена, потом .toPandas и получаешь нормальный в памяти уже
источник

N

Nikita Blagodarnyy in Data Engineers
лично не трогал, слышал про такое

https://github.com/kszucs/pandahouse
источник

AZ

Anton Zadorozhniy in Data Engineers
это все равно что read_sql, но спасибо
источник

N

Nikita Blagodarnyy in Data Engineers
Так а чем плох-то писпарк?
источник

AZ

Anton Zadorozhniy in Data Engineers
это спарк, нужен кластер или локальный экзекьютор
источник

АЖ

Андрей Жуков... in Data Engineers
Anton Zadorozhniy
это все равно что read_sql, но спасибо
А ты хочешь умный пушдаун?
источник

AZ

Anton Zadorozhniy in Data Engineers
Андрей Жуков
А ты хочешь умный пушдаун?
для начала какой-нибудь
источник

N

Nikita Blagodarnyy in Data Engineers
так основной консерн в ленивости или в том, чтобы вычисления перенести в КХ?
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
так основной консерн в ленивости или в том, чтобы вычисления перенести в КХ?
Второе, но без ленивости это как сделать, делать промежуточную таблицу на каждый фильтр или что там?
источник

N

Nikita Blagodarnyy in Data Engineers
Anton Zadorozhniy
Второе, но без ленивости это как сделать, делать промежуточную таблицу на каждый фильтр или что там?
ну типа при новой трансформации кидать новый «фрейм» в стек SQL-селектов
источник

N

Nikita Blagodarnyy in Data Engineers
df = teradandas.read.clickhouse(t) транслируется в select * from t
потом df = df.groupBy(x).select(y) транслируется в select y from (select * from t) group by x
потом filter в select * from (select y from (select * from t) group by x) where ololo=1111
потом приходит экшон и весь стек исполняет в КХ
источник

AZ

Anton Zadorozhniy in Data Engineers
Nikita Blagodarnyy
df = teradandas.read.clickhouse(t) транслируется в select * from t
потом df = df.groupBy(x).select(y) транслируется в select y from (select * from t) group by x
потом filter в select * from (select y from (select * from t) group by x) where ololo=1111
потом приходит экшон и весь стек исполняет в КХ
Я такое и имею в виду, ну и не прогонять запрос пока не попросил результат
источник

R

Rodion in Data Engineers
Всем ку.
Посоветуйте, какую бы вы выбрали бд для 1тб очень связанных данных (многие ко многим, некоторые таблички сильно иерархичны)
На что смотреть? Как выбирать?
Селф-хостед, без облака, есть небольшой бюджет на покупку платного решения. На место пофиг, прирост данных небольшой, важна скорость запросов (условно куча джоинов)
источник