Size: a a a

Python для анализа данных

2021 April 20

MP

Mikhail Petrovich in Python для анализа данных
Куда его нужно засунуть?
источник

БЕ

Борис Евдеев... in Python для анализа данных
источник

БЕ

Борис Евдеев... in Python для анализа данных
Ребята, привет. Помогите, пожалуйста с относительным поиском индекса по df. Понимаю, что тут нужны регулярки, но не понимаю как их пристроить. На скриншоте наглядно.

df = pd.DataFrame({'OLD': ['708635055', '70863507', '708635071', '55863001540', '55863001546'],
'NEW': ['5086350055', '5086350007', '5086350071', '5186301540', '5186301546']})

a1, a2 = '8635', '55'
b1, b2 = '8630', '1540'

df.loc[df[df.OLD.str.contains(a1+a2)].index]
df.loc[df[df.OLD.str.contains(b1+b2)].index]
источник

KM

Konstantin Mohov in Python для анализа данных
Вместо a1+a2 напишите регулярное выражение
источник

KM

Konstantin Mohov in Python для анализа данных
Сами регулярки можно проверять на сайте regex101
источник

БЕ

Борис Евдеев... in Python для анализа данных
Константин, я это понимаю. Не понятно, как искать либо то либо то.
источник

KM

Konstantin Mohov in Python для анализа данных
Здесь нужно пройти курс по регуляркам) эти знания все равно понадобятся. Либо быстро прочитать описание и попробовать применить.
Должно быть что-то типа ^[0-9].*8635[0-9].?55.*$ (псевдокод , точно не помню, надо проверять)
источник

KM

Konstantin Mohov in Python для анализа данных
То есть «любые цифры любой длины или пусто  начале строки + 8635 + любые цифры любой длины или пусто + 55 + любые цифры любой длины или пусто в конце строки
источник

БЕ

Борис Евдеев... in Python для анализа данных
Я читал в интернете разные статьи, но не все получается. Если порекомендуете курс - буду рад 😁
источник

A

Andrey Denisov in Python для анализа данных
Почти любая регулярка гуглится минут за 5, бывают редкие исключения
источник

s

slavapro in Python для анализа данных
Подскажите, может существует в природе хороший перевод на русский язык статьи "Forecasting at scale"?
источник
2021 April 21

А

Алексей in Python для анализа данных
нормально, что pandas excel файл на 300к строк и 20 столбцов читает уже 5 минут?
источник

PZ

Pavel Zheltouhov in Python для анализа данных
да понятно что от сложности самого файла зависит
источник

А

Алексей in Python для анализа данных
а какая там сложность? 300к строк это же ни о чем
источник

A

Artem in Python для анализа данных
Это долго
источник

PZ

Pavel Zheltouhov in Python для анализа данных
мне тоже кажется что он медленноват, поэтому  я сначала конвертировал со всех страниц  во что-то промежуточное. а дальше уже анализ.
если у вас только лишь чтение одним куском с одной страницы, очевидно, никак поможет.
источник

PZ

Pavel Zheltouhov in Python для анализа данных
ну и конечно может прям в экселе сохранить в csv
источник

А

Алексей in Python для анализа данных
на самом деле похоже, что зависит от того, где pandas крутится. Запускал в Datalore, читает до сих пор. Запустил в Colab, в пределах минуты
источник

А

Алексей in Python для анализа данных
эксель странно сохраняет csv, файл больше становится раза в 2,5 :)))
источник

PZ

Pavel Zheltouhov in Python для анализа данных
там же вроде две разных библиотеки под капотом. надо ставить ту же которая быстрее
источник