Size: a a a

Python для анализа данных

2021 February 10

T

Tishka17 in Python для анализа данных
Анастасия Крюкова
@Tishka17 о, а ты тот самый Tishka17, жабиру?
какой тот самый? я вроде один
источник

T

Tishka17 in Python для анализа данных
Artemiy Dubovoy
В теории можно сделать даг-оркестратор, который будет формировать другие даги, опросив систему
ну тут снова будет пробелма: у дага нет параметров кроме даты
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
ну тут снова будет пробелма: у дага нет параметров кроме даты
Возможно, вам действительно нужен другой инструмент
источник

T

Tishka17 in Python для анализа данных
Artemiy Dubovoy
Возможно, вам действительно нужен другой инструмент
да я вообще начал с luigi, потому что мне airflow показался неподходящим. Но там тоже пробелмы с параллелизацией
источник

T

Tishka17 in Python для анализа данных
Artemiy Dubovoy
Возможно, вам действительно нужен другой инструмент
а есть что-то готовое?
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
а есть что-то готовое?
Опишите задачу более конкретно
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Tishka17
какой тот самый? я вроде один
А у меня в Кинопоиске фильм пропал (: Санкции приехали?
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
а как? у меня обработка одного объекта занимает 15 минут. Если я внутри шага сделать какую-то логику обработки нескольких объектов за раз, я только потеряю возможность параллелизации, профита не будет. Каждый объект все так же 15 минут будет, только при фейле, все разом будет ретраиться и нельзя несколько копий запустить
Видел решение, при котором даг на входе видел большую таблицу и раздавал её по кускам разным таскам, таким образом выполнение распараллеливалось, тасков было по числу воркеров. Инфа, какие диапазоны строк за кем закреплены, хранилась в отдельной таблице. Такой псевдо-лок условный
источник

AD

Artemiy Dubovoy in Python для анализа данных
Теоретически можете написать какую-то свою логику раздачи заданий тоже
источник

T

Tishka17 in Python для анализа данных
Artemiy Dubovoy
Видел решение, при котором даг на входе видел большую таблицу и раздавал её по кускам разным таскам, таким образом выполнение распараллеливалось, тасков было по числу воркеров. Инфа, какие диапазоны строк за кем закреплены, хранилась в отдельной таблице. Такой псевдо-лок условный
Звучит достаточно сложно. Мне проще с таким подходом собрать велосипед на селери
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
Звучит достаточно сложно. Мне проще с таким подходом собрать велосипед на селери
А как же красивый гуи(
источник

T

Tishka17 in Python для анализа данных
Artemiy Dubovoy
А как же красивый гуи(
У меня достаточно простые пайплайны и все равно надо как-то это в своей сервис вкрутить
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
Звучит достаточно сложно. Мне проще с таким подходом собрать велосипед на селери
Ну да, под капотом у Airflow-кластера именно оно и лежит
источник

T

Tishka17 in Python для анализа данных
Artemiy Dubovoy
Ну да, под капотом у Airflow-кластера именно оно и лежит
Там зависит от операторов же. Я планировал k8s операторы юзать или кастомные
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
Там зависит от операторов же. Я планировал k8s операторы юзать или кастомные
А, понял
источник

T

Tishka17 in Python для анализа данных
Artemiy Dubovoy
А, понял
а про Luigi не в курсе? Я могу там все таки параллелизацию сделать при условии использования k8s джобов? по идее воркер только и занят что ожиданием завершения джоба в кубе
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
а про Luigi не в курсе? Я могу там все таки параллелизацию сделать при условии использования k8s джобов? по идее воркер только и занят что ожиданием завершения джоба в кубе
Не, с луиджи не знаком совсем. Знаю про него только, что его сравнивают с Airflow и выбирают последний))
источник

T

Tishka17 in Python для анализа данных
У меня сейчас Луиджи без центрального планировщика.
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
У меня сейчас Луиджи без центрального планировщика.
Смотрю в документацию, а они там прямым текстом советуют использовать крон для триггера джобов. Забавно

https://luigi.readthedocs.io/en/stable/central_scheduler.html

В чём тогда его прикол?
источник

T

Tishka17 in Python для анализа данных
Artemiy Dubovoy
Смотрю в документацию, а они там прямым текстом советуют использовать крон для триггера джобов. Забавно

https://luigi.readthedocs.io/en/stable/central_scheduler.html

В чём тогда его прикол?
Вообще не понимаю. Я воспринимал это всё как способы собрать пайплайны. А оно вон как
источник