Size: a a a

2021 October 26

MK

Mikhail Kuznetsov in Data Engineers
хороним Spark ?)
источник

GP

Grigory Pomadchin in Data Engineers
выкинь уж ярн
источник

UD

Uncel Duk in Data Engineers
Умеет же
источник

UD

Uncel Duk in Data Engineers
Гц всеми ядрами
источник

ЕГ

Евгений Глотов... in Data Engineers
А сноуфлейк умеет?
источник

GP

Grigory Pomadchin in Data Engineers
жвм конечно спарк хорошо грузит так к слову
источник

UD

Uncel Duk in Data Engineers
Мемцпу вебскейл
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
ну Антон про утилизацию кластера
источник

UD

Uncel Duk in Data Engineers
источник

AZ

Anton Zadorozhniy in Data Engineers
а в сноуфлейке вы об этом не думаете ))
источник

AZ

Anton Zadorozhniy in Data Engineers
сноуфлейк тоже не подарок, на каждый класс нагрузки новый кластер
источник

ЕГ

Евгений Глотов... in Data Engineers
А, ну зашибись, у меня джуны тоже об этом не думали, просто эскуэли с датафреймами писали и решали бизнес-задачи
источник

AZ

Anton Zadorozhniy in Data Engineers
ну вот у моего последнего клиента (было два года назад, мб все починили) к каждым 2-3 сатанистам прилагался один инженер который внимательно смотрел на их код на спарке, планы, настройки джобов
источник

AZ

Anton Zadorozhniy in Data Engineers
при том что группа из трех десятков сатанистов спокойно работала на СУБД рядом, которую держали два обычных админа (посменно)
источник

ЕГ

Евгений Глотов... in Data Engineers
1) Каждый сам себе джобы настраивал?
2) девопсы были, за нагрузкой от каждого джоба следили, слишком наглые джобы прибивали?
3) кластер правильно сконфигурирован?
4) может просто штатки так выдали, 2:1?
источник

ЕГ

Евгений Глотов... in Data Engineers
5) инженер только за дсами следил, или джобы тоже писал?
источник

ЕГ

Евгений Глотов... in Data Engineers
6) соотношение ДС:ДЕ 2:1 очень даже выгодное, если всё работает и ДС не ноют, что 80% времени кодят етл вместо построения моделей
источник

AZ

Anton Zadorozhniy in Data Engineers
1) ну в известном смысле, им даны несколько базовых настроек, но иногда данных больше, иногда логика сложнее - надо менять настройки
2) разница как раз в том что ДСов нянчил ижненер опсового плана, причем не один (а рядом на СУБД никто никого не нянчил)
3) к кластеру претензий не было
4) ДСы начинали работать сами, без инженеров, но производительность ДСов была ужасной, и кластер много зря грел воздух
5) инженер только следил, ДСы занимались экспериментами, и когда эксперимент нормальный - весь прототип уже уходил нормальным инженерам
источник

GP

Grigory Pomadchin in Data Engineers
5) чайник кипятил и следил за процессом
источник