Size: a a a

2021 October 26

AZ

Anton Zadorozhniy in Data Engineers
я тоже считаю что неплохое соотношение, проблема только в том что рядом почти 30 ДСов работают без инженеров, на СУБД
источник

ЕГ

Евгений Глотов... in Data Engineers
Как там в СУБД с ДС?
источник

ЕГ

Евгений Глотов... in Data Engineers
pd.read_jdbc?
источник

UD

Uncel Duk in Data Engineers
Да хоть даск какой-нибудь
источник

UD

Uncel Duk in Data Engineers
Или рей
источник

AZ

Anton Zadorozhniy in Data Engineers
Dataframe(' select ...')
источник

ЕГ

Евгений Глотов... in Data Engineers
Ну так если такой запрос выполняется, там и инженер не нужен, и кастомные настройки спарка тоже
источник

AZ

Anton Zadorozhniy in Data Engineers
ну то есть они SQL для подготовки используют, а потом тащат на обучение на клиента
источник

AZ

Anton Zadorozhniy in Data Engineers
это не спарковый датафрейм
источник

ЕГ

Евгений Глотов... in Data Engineers
Я имею в виду если влезает в пандас
источник

ЕГ

Евгений Глотов... in Data Engineers
Если влезает в постгрес, то можно обойтись олдскул аналитиками
источник

ЕГ

Евгений Глотов... in Data Engineers
Если не влезает - уже с гринпламом начинается гемор
источник

AZ

Anton Zadorozhniy in Data Engineers
о том и речь, для подготовки данных SQL на зрелой MPP СУБД работает лучше спарка: запросы можно писать сложнее, оптимизатор работает лучше, разделение ресурсов работает намного лучше

а когда датасет на обучение готов - в бОльшей части случаев это можно обучить локально
источник

ЕГ

Евгений Глотов... in Data Engineers
Ничё не работает, тот же шафл на терабайт и выпадение с ошибкой
источник

ЕГ

Евгений Глотов... in Data Engineers
Этой зрелой СУБД была терадата)
источник

AZ

Anton Zadorozhniy in Data Engineers
надо spool space попросить увеличить)
источник

ЕГ

Евгений Глотов... in Data Engineers
У нас сидело 200 человек на 4000 ядер, каждому по 20 ядер, по сути локальный комп, плюс етли больше половины, уже остаётся по 10
источник

AZ

Anton Zadorozhniy in Data Engineers
ну значит мне все это приснилось, вы меня убедили, спарк ничем не хуже)
источник
2021 October 27

ЕГ

Евгений Глотов... in Data Engineers
Всех ужимали, но всё стабильно работало, никто не в обиде был
источник

ЕГ

Евгений Глотов... in Data Engineers
Настройке распределения ресурсов было уделено несколько человеко-месяцев, после того, как кластер был сконфигурирован "ок"
источник