Size: a a a

Python для анализа данных

2021 September 30

KM

Konstantin Mohov in Python для анализа данных
а оно должно скорости прибавить? Треды для IO bound операций, а обработка датафрейма - CPU bound
источник

KM

Konstantin Mohov in Python для анализа данных
Вы точно так же обрабатываете данные, только не за 1 раз, а кусками и по очереди
источник

KM

Konstantin Mohov in Python для анализа данных
Если хотите скорость для больших данных, рекомендую Dask посмотреть https://dask.org/
источник

МК

Максим Коротченков... in Python для анализа данных
А как-нибудь можно ускорить процесс?
источник

KM

Konstantin Mohov in Python для анализа данных
На чистом pandas ускорение даст только приведение к нужным данным. Не string, а integer, не int64, а int8 (просто пример)
источник

KM

Konstantin Mohov in Python для анализа данных
если есть категории - то вынести в словарь и заменить значения на 0/1/2
источник

KM

Konstantin Mohov in Python для анализа данных
или Dask
источник

PZ

Pavel Zheltouhov in Python для анализа данных
да это io bound и есть, но непонятно как сервер работает.
источник

KM

Konstantin Mohov in Python для анализа данных
не вижу, где там io. вычисление, выборка данных, вычисление.
Тут нет чтения/записи на диск, запроса по сети и тд
источник

PZ

Pavel Zheltouhov in Python для анализа данных
это попытка протестить сервер маршрутизации OSM, который таки на c++
источник

МК

Максим Коротченков... in Python для анализа данных
Верно
источник

KM

Konstantin Mohov in Python для анализа данных
Тогда дайте знать, если треды дадут прирост
источник

AD

Andrew Dakhnovsky in Python для анализа данных
м...
а точно треды для ИОбаунд?
я чет всю жизнь думал что для этого асинхронщина больше подходит...
источник

KM

Konstantin Mohov in Python для анализа данных
асинхронщина это замена тредов. Если грубо, то тредами управляет система, а асинхронностью разработчик и интерпретатор
источник

AD

Andrew Dakhnovsky in Python для анализа данных
да?
я думал что треды это замена мультипроцесса, где дороже оверхед на старт
ну и в мультитреде общее адресное пространство, а оно оказывается во как...
источник

KM

Konstantin Mohov in Python для анализа данных
источник

T

Tishka17 in Python для анализа данных
Не путать асинхронность и asyncio
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Если инжинирить по комментариям на хабре, можно еще и не то узнать
источник

YP

Yuriy Prudnikov in Python для анализа данных
Салют
А кто нибудь проходил курс от proglib "математика для data science"?
источник

AM

Anton M in Python для анализа данных
друзья, подскажите плиз, можно ли обернуть sql-запрос в функцию, чтобы вызывать ее из другого файла (делать import)?
источник