Size: a a a

Python для анализа данных

2019 November 03

V

Valera in Python для анализа данных
Maksim Yasinski
Обычно на таких сайтах выдача идёт через JavaScript или фрэймворки. Из того что я нашёл проще всего парсить selenium с нажатием на соответствующие кнопки и т.д.
Спасибо, а beautiful soup наверняка не подойдет?
источник

MY

Maksim Yasinski in Python для анализа данных
Valera
Спасибо, а beautiful soup наверняка не подойдет?
Напомните завтра, я парсил realt.by, там точно не подошёл суп
источник

MY

Maksim Yasinski in Python для анализа данных
Parθava
получается не "РЕСП. ТАТАРСТАН" > "ТАТАРСТАН", а " ТАТАРСТАН"
Смотря как идти, если через сплит по пробелу, то все ок. Кроме того всегда есть lstrip
источник

P

Parθava in Python для анализа данных
окей, спасибо
источник

P

Parθava in Python для анализа данных
я сначала реплейснул
источник

P

Parθava in Python для анализа данных
потом стрипнул пробелы
источник

MY

Maksim Yasinski in Python для анализа данных
Parθava
потом стрипнул пробелы
Помни, что порядок слов важен, иначе unique не сработает, а он там пляшет
источник
2019 November 04

А

Алексей in Python для анализа данных
Parθava
Добрый день. Есть у меня такая категория данных с названиями регионов. Проблема в том, что в ней огромное количество синонимичных значений, таких как "РЕСП. БАШКОРТОСТАН", "БАШКОРТОСТАН", "РЕСПУБЛИКА БАШКОРТОСТАН" и т.д. Можете посоветовать способ, как их можно было бы сгруппировать в более крупные?
Недавно по работе выполнял похожую задачу, нашёл модуль, который сравнивал два значения между собой и выдавал оценку схожести. Можно взять идеальный список регионов и сравнить с тем, что есть. Название модуля завтра скину, если не забуду
источник

I

Igor in Python для анализа данных
Parθava
Добрый день. Есть у меня такая категория данных с названиями регионов. Проблема в том, что в ней огромное количество синонимичных значений, таких как "РЕСП. БАШКОРТОСТАН", "БАШКОРТОСТАН", "РЕСПУБЛИКА БАШКОРТОСТАН" и т.д. Можете посоветовать способ, как их можно было бы сгруппировать в более крупные?
Можно ещё алгоритмом k-means разбить на k кластеров с k=количество регионов и назначить каждому кластеру имя=название региона))))
источник

MY

Maksim Yasinski in Python для анализа данных
всё вышеперечисленное - очень умные варианты, но если есть идеальный список, тогда зачем всё это? он уже есть
источник

P

Parθava in Python для анализа данных
Алексей
Недавно по работе выполнял похожую задачу, нашёл модуль, который сравнивал два значения между собой и выдавал оценку схожести. Можно взять идеальный список регионов и сравнить с тем, что есть. Название модуля завтра скину, если не забуду
Не fuzzywuzzy случайно?
источник

P

Parθava in Python для анализа данных
Igor
Можно ещё алгоритмом k-means разбить на k кластеров с k=количество регионов и назначить каждому кластеру имя=название региона))))
Ну это если сильно заморочится) но все равно спс
источник

СМ

Саша Михайлов... in Python для анализа данных
Parθava
Добрый день. Есть у меня такая категория данных с названиями регионов. Проблема в том, что в ней огромное количество синонимичных значений, таких как "РЕСП. БАШКОРТОСТАН", "БАШКОРТОСТАН", "РЕСПУБЛИКА БАШКОРТОСТАН" и т.д. Можете посоветовать способ, как их можно было бы сгруппировать в более крупные?
есть сервис DaData.ru, он чистит и обогащает данные. Работает в том числе с адресами. Есть АПИ. Бесплатное ограничение 10К запросов в сутки.
источник

P

Parθava in Python для анализа данных
Благодарю
источник

I

Igor in Python для анализа данных
На сколько я понял, то ест данные, которые соответствуют какому-то региону. Но при ручном заполнении каждый заполнял как хотел. теперь нужно сгруппировать эти данные в разрезе регионов, а для этого нужно чтобы название региона было одинаково для всех объектов из этого региона.
источник

I

Igor in Python для анализа данных
Алексей
Недавно по работе выполнял похожую задачу, нашёл модуль, который сравнивал два значения между собой и выдавал оценку схожести. Можно взять идеальный список регионов и сравнить с тем, что есть. Название модуля завтра скину, если не забуду
Кажется мне что это обычное косинусное расстояние)))
источник

VN

Vlad Nykytenko in Python для анализа данных
Igor
Кажется мне что это обычное косинусное расстояние)))
Или расстояние левенштейна
источник

MY

Maksim Yasinski in Python для анализа данных
Vlad Nykytenko
Или расстояние левенштейна
можно попросить маленький ликбез? как потом с этим расстоянием работать? какое расстояние будет являться точкой отсечения для принятия решения?
источник

I

Igor in Python для анализа данных
Maksim Yasinski
можно попросить маленький ликбез? как потом с этим расстоянием работать? какое расстояние будет являться точкой отсечения для принятия решения?
Можно пройти итерацию по списку с неопределенными регионами и сравнивать каждое значение со списком регионов. Где минимальное расстояние там и проводить сопоставление.
источник

MY

Maksim Yasinski in Python для анализа данных
Igor
Можно пройти итерацию по списку с неопределенными регионами и сравнивать каждое значение со списком регионов. Где минимальное расстояние там и проводить сопоставление.
это понятно, вот и хочу попросить помочь определить минимальное расстояние, оно какое? как определить? где-то оно больше, где-то меньше...
источник