Size: a a a

2020 September 23

АЖ

Андрей Жуков... in Data Engineers
KrivdaTheTriewe
но почему вы не наняли дс с прямами руками?
Пока не нашли :(
источник

DZ

Dmitry Zuev in Data Engineers
Андрей Жуков
Пока не нашли :(
Слышал в одноклассниках такие
источник

АЖ

Андрей Жуков... in Data Engineers
Dmitry Zuev
Слышал в одноклассниках такие
Ну мы не такие модные, как одноклассники
источник

АЖ

Андрей Жуков... in Data Engineers
Впрочем,  я в принципе стараюсь нанимать людей с прямыми руками,  вне зависимости от лычки,  но это не делает процесс проще :)
источник

DZ

Dmitry Zuev in Data Engineers
Lookuut Struchkov
ДСов никто не заставляет копейки считать, но понимать какая фича какой скор приносит было бы полезно для всех, и вообще мне нравится в каком направлении сейчас развивается ДС, учитывая что сейчас не достаточно нагененерить фич посчитать загрузить csv, как раньше, сейчас надо свое решение завернуть в докер и оно должно посчитать предикшн  в ограниченное время и ресурсы )
Какая фича какой вклад вносит их лид должен знать. Де эти знания как то без нужды.

А про докер вы зря. Напишите обёртку, настройте сборку и забудьте на время
источник

AT

Al T in Data Engineers
черт, пропустил весь джентельменский замес...
источник

AK

Andrew Konstantinov in Data Engineers
После того как перезаписал партицию в hdfs ошибка-java.io.FileNotFoundException: File does not exist:
. Рефреш каталога делал-не помогает
источник

SS

Sergey Sheremeta in Data Engineers
дяденьки!
вам когда в ваши хоронилища/болота данных прилетают древовидные вложенные структуры - вы их в silver/curated-слой кладете так же вложенными?
или раскидываете на разные сущности-таблицы?
источник

SS

Sergey Sheremeta in Data Engineers
опять неуловимый аромат датавольта, не?
источник

SS

Sergey Sheremeta in Data Engineers
а если раскидывать одной спарк-жобой по разным целевым таблицам, то как достигать атомарности всех save()?
источник

SS

Sergey Sheremeta in Data Engineers
(у Apache/Uber Hudi формата есть возможность rollback...)
источник
2020 September 24

DZ

Dmitry Zuev in Data Engineers
Sergey Sheremeta
а если раскидывать одной спарк-жобой по разным целевым таблицам, то как достигать атомарности всех save()?
В дата волте это как раз не очень страшно
источник

DZ

Dmitry Zuev in Data Engineers
Sergey Sheremeta
дяденьки!
вам когда в ваши хоронилища/болота данных прилетают древовидные вложенные структуры - вы их в silver/curated-слой кладете так же вложенными?
или раскидываете на разные сущности-таблицы?
Тут вопрос вообще о подходе. У кого-то есть "детальный слой", кто-то его отрицает.

В какой-то старой статье про Тинькофф было что оно из лейка потом дата волт собирают. Чуваки из Али в третьем поколении своего двх тоже что-то такое делают. Но большинство разговоров которые я слышу среди тех кто варит хадуп и спарк, это избегание дата моделинга и тупо сразу витрины
источник

ДН

Дмитрий Негреев... in Data Engineers
Никто не заморачивался поиском инструмента для сохранения сессии БД?
Типо livy для спарк сессии.
источник

DZ

Dmitry Zuev in Data Engineers
Типа pgpool?
источник

ДН

Дмитрий Негреев... in Data Engineers
Похоже на то, только нужно для вертики.
Мне нужно несколько темповых таблиц процессом заполнять, хотелось бы каждую таблицу в отдельной таске airflow заполнять.
Но xcom к сожалению не умеет запиклить сессию БД.
Интересно возможно ли это сделать не средствами аф, просто ходя в какую-нибудь апишку например.
источник

DZ

Dmitry Zuev in Data Engineers
Что конкретно запускается а аф?
источник

ДН

Дмитрий Негреев... in Data Engineers
Таска из разряда поднять сессию в БД, взять файлик с запросом и запустить в базе.
Просто insert as select.
Перед тем как insert делаю в реальную таблицу, есть еще несколько запросов со вставкой в темповые, которые используются как промежуточные вычисления.
Т.к. им одна сессия нужна, я щас в 1 таске аф их просто в цикле друг за другом запускаю, но это кажется не очень красиво.
И перезапускать не хочется все с начала, если что-то по-середине померло.
источник

DZ

Dmitry Zuev in Data Engineers
И насколько там сильные тормоза из-за нового коннекта?
источник

DZ

Dmitry Zuev in Data Engineers
От всего времени исполнения
источник