Телеграмм чат группы pydata

Считается, что сетевой стек windows server серьезно отличается от десктопных windows. ( помните как раньше windows "патчили" чтобы торенты раздавать быстрее? вот из-за этого. ) То есть сравнивать надо linux и windows server.

Но я бы все равно сначала вспомнил, что у вас не только ОС отличается. Наверняка так.

источник

17:24пожаловаться #8

МК

Максим Коротченков... in Python для анализа данных

Ой даже не знаю, а что еще может отличаться, что бы повлияло на производительность?

источник

17:27пожаловаться #9

Pavel Zheltouhov in Python для анализа данных

могу Кнута подкинуть почитать за 1973 год)

источник

17:28пожаловаться #10

Pavel Zheltouhov in Python для анализа данных

Можно предположить, что jupter вы запускаете рядом с базой данных, вот оно и быстрее.

источник

17:28пожаловаться #11

МК

Максим Коротченков... in Python для анализа данных

Запускаю с локальной машины

источник

17:30пожаловаться #12

Pavel Zheltouhov in Python для анализа данных

в смысле, у вас и linux и windows в виде двойной загрузки, вы полностью заморочились со строгим экспериментом и в итоге пришли к выводу , что одна и та же механика работы с данными на linux шустрее ? что не верится.

наверняка отличается много чего

источник

17:32пожаловаться #13

ВL

Владислав Lazycat... in Python для анализа данных

Если каждый select создаёт новый Коннект, то будет медленно

источник

17:32пожаловаться #14

МК

Максим Коротченков... in Python для анализа данных

Точно такого эксперимента не делал, просто слышу часто, что на линуксе «тру» многопоточность, но не могу докопаться до истины.

Как минимум у нас в компании выдают ноуты на линуксе, хочу разобраться в чем причина

источник

17:35пожаловаться #15

МК

Максим Коротченков... in Python для анализа данных

Один коннект на поток

источник

17:35пожаловаться #16

Pavel Zheltouhov in Python для анализа данных

Да просто. в IT много суждений на уровне суеверий. Все не проверишь.

Или вот я как-то ругался на яндексовский стемминг https://github.com/nlpub/pymystem3/issues/29
ну тормозит и все тут. Можно бы и разобраться и починить. Но к чему им разбираться? Все ж на линуксе сидят. Видим пометку wontfix. Суеверие самосбылось.

Думаю, дело просто в культурных различиях. Люди хотят иметь дело с системой созданной инженерами и их инженерной культурой. Ну заодно и вас приучают.

GitHub

Slow lemmatization on Windows · Issue #29 · nlpub/pymystem3

Well, I found a bad hack solution for increasing performance for lemmatize long texts. I added comment in #14 but I think it's better to create new issue for this. So in file mystem.py we h...

источник

17:38пожаловаться #17

Oleg Agapov in Python для анализа данных

В питоне есть GIL, поэтому он всегда однопоточный.
Там можно делать треды и мультипроцессорность, но из-за GIL все равно всё будет медленно.

источник

17:40пожаловаться #18

Mikhail in Python для анализа данных

Тогда ожидание ответа и передачи по сети (по сути 90% времени) будет в параллели

источник

17:41пожаловаться #19

Анонимус in Python для анализа данных

Есть csv с полем содержащим дату в формате YYYY/Mm/Dd, т.е. 2020/1/2 тоже может быть. Конвертирую его в datetime с помощью pd.to_datetime(field, format="%Y/%m/%d") но это почему-то кидает ошибку time data 2019/2/29 doesn't match format specified, а если спереди m и d поставить "-" то ошибка bad literal. Что я делаю не так?

источник

18:08пожаловаться #20