Size: a a a

Python для анализа данных

2021 September 03

VM

Valerii Mamontov in Python для анализа данных
Можно подойти таким образом: ФИАС + API Яндекса.
источник

AD

Alexander Dergilev in Python для анализа данных
смотрю в сторону яндекса
источник

AD

Alexander Dergilev in Python для анализа данных
а у них есть  нормализация адреса. на вход подаю : мск ул Ленина 5, а подучаю 113454, Москва г, Ленина ул 5?
источник

PZ

Pavel Zheltouhov in Python для анализа данных
там много всего есть, но и лимиты тоже есть
источник

AD

Alexander Dergilev in Python для анализа данных
просто у них все ништяки в платной версии
источник

AD

Alexander Dergilev in Python для анализа данных
да
источник

VM

Valerii Mamontov in Python для анализа данных
да, нормализация есть.
Имейте в виду, что если совпадений несколько, то API возвращает список адресов.
Мне не совсем ясна Ваша задача. Советую в первую очередь посмотреть ФИАС.
источник

AD

Alexander Dergilev in Python для анализа данных
а что в ФИАС?
источник

VM

Valerii Mamontov in Python для анализа данных
Это универсальный классификатор адресов. В нём все адреса по России.
источник

AD

Alexander Dergilev in Python для анализа данных
это я знаю
источник

VM

Valerii Mamontov in Python для анализа данных
Удобно. Можно отсеять несуществующие адреса. Или ошибочные. Или на основании него сделать справочник улиц по региону. Например.
источник

AD

Alexander Dergilev in Python для анализа данных
ошибочные адреса у меня на входе) надо их причесывать, а далее уже регион вытаскивать и тд
источник

А

Айван in Python для анализа данных
Добрый день. Можете подсказать как в pandas к каждой строке добавить количество её дубликатов?
A A     A A 2
A B  —> A B 1
A A     A A 2
B A     B A 1


Нашёл только вариант с объединением в уникальные строки и числом дубликатов
https://stackoverflow.com/questions/35584085/how-to-count-duplicate-rows-in-pandas-dataframe
A A 2
A B 1
B A 1
источник

A

Azamat in Python для анализа данных
Транспонировать датафрейм. Потом для каждого столбца применить функцию df.столбец.unique(). Получим количество уникальных значений
источник

A

Azamat in Python для анализа данных
Вычтем из len(df.столбец), получим количество дубликатов
источник

A

Azamat in Python для анализа данных
Смотрите
источник

PZ

Pavel Zheltouhov in Python для анализа данных
сделайте groupby как там написано , а потом присоедините  результат к основному через merge.
источник

АД

Андрей Демидов... in Python для анализа данных
На большом датафрейме комп "ляжет" при транспонировании ((
источник

A

Azamat in Python для анализа данных
С другой стороны groupby не все освоят как и правильный merge
источник

А

Айван in Python для анализа данных
Спасибо. Чуть позже попробую сделать
источник