Size: a a a

Python для анализа данных

2021 February 10

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
Про ретраи тоже надо понимать - это ретраи обработки чего именно?
На уровне таски (оператора)
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
Например для того, чтобы понять когда завершится обработка
Опять же, нотифай последним элементом пайплайна
источник

T

Tishka17 in Python для анализа данных
Вот один объект от начала и до конца цепочки допустим обрабтывается за 15 минут. Надо как минимум понимать, он уже в обработке каким-нибдуь оператором или нет
источник

T

Tishka17 in Python для анализа данных
Дальше, а что будет если во время работы дага, я запущу его ещё раз?
источник

AD

Artemiy Dubovoy in Python для анализа данных
Можно на каждом этапе дергать оператор отправки уведомлений, если очень хочется. Или вообще подключить логгер и пушить всё в какой-то канал
источник

T

Tishka17 in Python для анализа данных
ну то есть самому в БД хранить статусы всех шагов дага
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
Дальше, а что будет если во время работы дага, я запущу его ещё раз?
Так сделать не получится
источник

T

Tishka17 in Python для анализа данных
Artemiy Dubovoy
Так сделать не получится
ну так вот вопрос
источник

T

Tishka17 in Python для анализа данных
у меня 15 минут обрабаытвается что-то. Прилетели новые данные в это время, я хочу их сразу запланивроать в обрабокту
источник

T

Tishka17 in Python для анализа данных
параллелизация и все такое
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
ну то есть самому в БД хранить статусы всех шагов дага
Они и так хранятся в мета-бд эирфлоу. Если хотите куда то получать уведомления — сделайте оператор отправки
источник

T

Tishka17 in Python для анализа данных
Artemiy Dubovoy
Они и так хранятся в мета-бд эирфлоу. Если хотите куда то получать уведомления — сделайте оператор отправки
так а как то, что там хранится, связать с моим объектом?
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
так а как то, что там хранится, связать с моим объектом?
Решение, которое мне кажется правильным, не подразумевает отдельных тасков под каждый объект, да и это оверкилл. Если хотите как-то распараллелить этот процесс, нужно будет, чтобы даг внутри себя как-то оркестрировался
источник

AD

Artemiy Dubovoy in Python для анализа данных
Но по-моему так не делают
источник

AD

Artemiy Dubovoy in Python для анализа данных
Можете сделать таски или даги, поделив куски опрашиваемой системы логически — например, каждый таск — своя схема в базе
источник

T

Tishka17 in Python для анализа данных
а как? у меня обработка одного объекта занимает 15 минут. Если я внутри шага сделать какую-то логику обработки нескольких объектов за раз, я только потеряю возможность параллелизации, профита не будет. Каждый объект все так же 15 минут будет, только при фейле, все разом будет ретраиться и нельзя несколько копий запустить
источник

AD

Artemiy Dubovoy in Python для анализа данных
В теории можно сделать даг-оркестратор, который будет формировать другие даги, опросив систему
источник

AD

Artemiy Dubovoy in Python для анализа данных
Но я так не делал и не уверен, что это возможно
источник

T

Tishka17 in Python для анализа данных
Ух, чую я просто напишу свой пайплайн на очередях без эйрфлоу
источник

АК

Анастасия Крюкова... in Python для анализа данных
@Tishka17 о, а ты тот самый Tishka17, жабиру?
источник