Телеграмм чат группы pydata

15:11пожаловаться #1

БЕ

15:32пожаловаться #2

БЕ

Ребята, привет. Помогите, пожалуйста с относительным поиском индекса по df. Понимаю, что тут нужны регулярки, но не понимаю как их пристроить. На скриншоте наглядно.

df = pd.DataFrame({'OLD': ['708635055', '70863507', '708635071', '55863001540', '55863001546'],
'NEW': ['5086350055', '5086350007', '5086350071', '5186301540', '5186301546']})

a1, a2 = '8635', '55'
b1, b2 = '8630', '1540'

df.loc[df[df.OLD.str.contains(a1+a2)].index]
df.loc[df[df.OLD.str.contains(b1+b2)].index]

15:32пожаловаться #3

Вместо a1+a2 напишите регулярное выражение

15:37пожаловаться #4

Сами регулярки можно проверять на сайте regex101

15:37пожаловаться #5

БЕ

Константин, я это понимаю. Не понятно, как искать либо то либо то.

15:40пожаловаться #6

Здесь нужно пройти курс по регуляркам) эти знания все равно понадобятся. Либо быстро прочитать описание и попробовать применить.
Должно быть что-то типа ^[0-9].*8635[0-9].?55.*$ (псевдокод , точно не помню, надо проверять)

16:12пожаловаться #7

То есть «любые цифры любой длины или пусто начале строки + 8635 + любые цифры любой длины или пусто + 55 + любые цифры любой длины или пусто в конце строки

16:13пожаловаться #8

БЕ

Я читал в интернете разные статьи, но не все получается. Если порекомендуете курс - буду рад 😁

Andrey Denisov in Python для анализа данных

16:14пожаловаться #9

Почти любая регулярка гуглится минут за 5, бывают редкие исключения

slavapro in Python для анализа данных

17:52пожаловаться #10

Подскажите, может существует в природе хороший перевод на русский язык статьи "Forecasting at scale"?

21:00пожаловаться #11

2021 April 21

нормально, что pandas excel файл на 300к строк и 20 столбцов читает уже 5 минут?

19:39пожаловаться #12

да понятно что от сложности самого файла зависит

19:44пожаловаться #13

а какая там сложность? 300к строк это же ни о чем

Artem in Python для анализа данных

19:44пожаловаться #14

Это долго

19:45пожаловаться #15

мне тоже кажется что он медленноват, поэтому я сначала конвертировал со всех страниц во что-то промежуточное. а дальше уже анализ.
если у вас только лишь чтение одним куском с одной страницы, очевидно, никак поможет.

19:47пожаловаться #16

ну и конечно может прям в экселе сохранить в csv

19:48пожаловаться #17

на самом деле похоже, что зависит от того, где pandas крутится. Запускал в Datalore, читает до сих пор. Запустил в Colab, в пределах минуты

19:49пожаловаться #18

эксель странно сохраняет csv, файл больше становится раза в 2,5 :)))

19:49пожаловаться #19

там же вроде две разных библиотеки под капотом. надо ставить ту же которая быстрее