Size: a a a

Python для анализа данных

2021 February 10

Q

Quant in Python для анализа данных
Alex K
я думал на загрузку
если бы файл большим очень оказался, то скорее всего выдало бы, что памяти не хватает
источник

AK

Alex K in Python для анализа данных
понял
источник

AK

Alex K in Python для анализа данных
почему в pandas не меняет?
источник

h

helby in Python для анализа данных
Доброй ночи.


Кто нибудь занимался выгрузкой данных по RestApi из sendpulse ?
источник

VO

Valentin Osadchii in Python для анализа данных
Alex K
почему в pandas не меняет?
Переведите данные в строку?
источник

A

Andrey Denisov in Python для анализа данных
Alex K
https://medium.com/@srishti_56/found-it-e31ef1bbba4

тут есть решение, но как этот file_шв взять, да и сложно всё так оказалось если файл больше 10мб, а у меня 11)))
Я с джейсонинами особо дел не имею, но ограничение на 10 мегов выглядит странно. Ексель\csv в 500 МБ в колабе импортируются без проблем.
Возможно, стоит посмотреть что-то вместо io
источник

JF

Jack Finch in Python для анализа данных
Alex K
почему в pandas не меняет?
display(expdata['sigma'].str.replace(',', '.'))
источник

AZ

Arsenii Zed in Python для анализа данных
Alex K
почему в pandas не меняет?
Если у вас там уже строки, то надо не Series.replace() использовать, а Series.str.replace(), т.к. первое заменяет целые элементы в колонке, а второе внутри строк подстроки
источник

AZ

Arsenii Zed in Python для анализа данных
А, ну вот, написали выше
источник

AK

Alex K in Python для анализа данных
Понял. Спасибо
источник

AZ

Arsenii Zed in Python для анализа данных
Вообще там очень забавно можно делать срез по строкам или другим коллекциям так же: Series.str[1:3], например
источник

T

Tishka17 in Python для анализа данных
Хай. Я тут решил вернуться к Airflow и не пойму как мне отслеживать запуски дагов.

Вот у меня в системе появляются объекты. В день хз сколько штук в неопределенное вермя. Мне было бы удобно при их создании через api триггерить запуск дагов для обработки этих объектов. Но как я понимаю, единственный параметр рана - дата.

Как правильно организовать обработку объектов? Чтобы с ретраями и отслеживание статусов
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
Хай. Я тут решил вернуться к Airflow и не пойму как мне отслеживать запуски дагов.

Вот у меня в системе появляются объекты. В день хз сколько штук в неопределенное вермя. Мне было бы удобно при их создании через api триггерить запуск дагов для обработки этих объектов. Но как я понимаю, единственный параметр рана - дата.

Как правильно организовать обработку объектов? Чтобы с ретраями и отслеживание статусов
Мне кажется, концептуально правильнее опрашивать дагом базу на предмет появления новых объектов, и триггерить для них какой-то процессинг. Airflow это всё-таки шедулер

Тем не менее, в API есть методы для триггера дагов. Но тут понадобится какой-то сервис для этого
источник

T

Tishka17 in Python для анализа данных
Artemiy Dubovoy
Мне кажется, концептуально правильнее опрашивать дагом базу на предмет появления новых объектов, и триггерить для них какой-то процессинг. Airflow это всё-таки шедулер

Тем не менее, в API есть методы для триггера дагов. Но тут понадобится какой-то сервис для этого
А как тогда мне отследить обработку конкретного объекта?
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
А как тогда мне отследить обработку конкретного объекта?
Либо логгировать, либо делать пайплайны идемпотентными. Второй вариант, кмк, опять же предпочтительнее
источник

T

Tishka17 in Python для анализа данных
Ну то есть, вот у меня юзер взаимодействует с системой, загружает туда данные. Дальше даг каким-то образом находит эти данные. Как юзеру понять, это сейчас его данные в обработке или нет? И как быть когда сразу много объектов найдено при таком прогоне?
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
Хай. Я тут решил вернуться к Airflow и не пойму как мне отслеживать запуски дагов.

Вот у меня в системе появляются объекты. В день хз сколько штук в неопределенное вермя. Мне было бы удобно при их создании через api триггерить запуск дагов для обработки этих объектов. Но как я понимаю, единственный параметр рана - дата.

Как правильно организовать обработку объектов? Чтобы с ретраями и отслеживание статусов
Ретрай-логика реализуется аргументами retries и retry_delay
источник

T

Tishka17 in Python для анализа данных
Про ретраи тоже надо понимать - это ретраи обработки чего именно?
источник

AD

Artemiy Dubovoy in Python для анализа данных
Tishka17
Ну то есть, вот у меня юзер взаимодействует с системой, загружает туда данные. Дальше даг каким-то образом находит эти данные. Как юзеру понять, это сейчас его данные в обработке или нет? И как быть когда сразу много объектов найдено при таком прогоне?
Зачем юзеру это в каждый момент времени понимать? Если пайплайны идемпотентные, то можно просто задать on_failure_callback на тот случай, если что-то упало и не может заретраиться
источник

T

Tishka17 in Python для анализа данных
Artemiy Dubovoy
Зачем юзеру это в каждый момент времени понимать? Если пайплайны идемпотентные, то можно просто задать on_failure_callback на тот случай, если что-то упало и не может заретраиться
Например для того, чтобы понять когда завершится обработка
источник