Size: a a a

Python для анализа данных

2021 December 02

SD

Sofia D in Python для анализа данных
Ура, супер
источник

МК

Максим Коротченков... in Python для анализа данных
Ребят, может кто знает: на UNIX системах, если работать через Jupyter тру многопоточка?
Просто знаю на винде она псевдо многопоточка.
источник

K

Kurah in Python для анализа данных
Как на оси Y сделать начало с  0?
источник

M

Mikhail in Python для анализа данных
Зависит от того что в потоках происходит
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Может чуть оптимальнее  создание и обмен данными между процессами работает, но концептуально ничего не меняется.
О чем беспокоитесь? Все то же с OSM ?
источник

МК

Максим Коротченков... in Python для анализа данных
Нет, гружу фото с базы, хочу понять за счет чего такой прирост
источник

МК

Максим Коротченков... in Python для анализа данных
По сути много очень быстрых запросов select
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Считается, что сетевой стек windows server серьезно отличается от десктопных windows.  (  помните как раньше windows  "патчили" чтобы торенты раздавать быстрее? вот из-за этого. ) То есть сравнивать надо linux и windows server.

Но я бы все равно сначала вспомнил, что у вас  не только ОС отличается.  Наверняка  так.
источник

МК

Максим Коротченков... in Python для анализа данных
Ой даже не знаю, а что еще может отличаться, что бы повлияло на производительность?
источник

PZ

Pavel Zheltouhov in Python для анализа данных
могу Кнута подкинуть почитать за 1973 год)
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Можно предположить, что jupter вы запускаете рядом с базой данных, вот оно и быстрее.
источник

МК

Максим Коротченков... in Python для анализа данных
Запускаю с локальной машины
источник

PZ

Pavel Zheltouhov in Python для анализа данных
в смысле, у вас и linux и windows в виде двойной загрузки, вы полностью заморочились со строгим экспериментом и в итоге  пришли к выводу , что одна и та же механика работы с данными на linux шустрее ? что не верится.

наверняка отличается много чего
источник

ВL

Владислав Lazycat... in Python для анализа данных
Если каждый select создаёт новый Коннект, то будет медленно
источник

МК

Максим Коротченков... in Python для анализа данных
Точно такого эксперимента не делал, просто слышу часто, что на линуксе «тру» многопоточность, но не могу докопаться до истины.

Как минимум у нас в компании выдают ноуты на линуксе, хочу разобраться в чем причина
источник

МК

Максим Коротченков... in Python для анализа данных
Один коннект на поток
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Да просто. в IT много суждений на уровне суеверий. Все не проверишь.

Или вот я как-то ругался на яндексовский стемминг  https://github.com/nlpub/pymystem3/issues/29
ну тормозит и все тут. Можно бы и разобраться и починить. Но к чему им разбираться? Все ж на линуксе сидят.  Видим пометку wontfix. Суеверие самосбылось.

Думаю, дело просто в культурных различиях. Люди хотят иметь дело с системой созданной инженерами и их инженерной культурой. Ну заодно и вас приучают.
источник

OA

Oleg Agapov in Python для анализа данных
В питоне есть GIL, поэтому он всегда однопоточный.
Там можно делать треды и мультипроцессорность, но из-за GIL все равно всё будет медленно.
источник

M

Mikhail in Python для анализа данных
Тогда ожидание ответа и передачи по сети (по сути 90% времени) будет в параллели
источник

А

Анонимус in Python для анализа данных
Есть csv с полем содержащим дату в формате YYYY/Mm/Dd, т.е. 2020/1/2 тоже может быть. Конвертирую его в datetime с помощью pd.to_datetime(field, format="%Y/%m/%d") но это почему-то кидает ошибку time data 2019/2/29 doesn't match format specified, а если спереди m и d поставить "-" то ошибка bad literal. Что я делаю не так?
источник