Телеграмм чат группы pydata_chat страница 171

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Python для анализа данных

1463 membersпожаловаться на группу

2019 November 03

V

Valera in Python для анализа данных

Maksim Yasinski

Обычно на таких сайтах выдача идёт через JavaScript или фрэймворки. Из того что я нашёл проще всего парсить selenium с нажатием на соответствующие кнопки и т.д.

Спасибо, а beautiful soup наверняка не подойдет?

источник

21:05пожаловаться #1

MY

Maksim Yasinski in Python для анализа данных

Спасибо, а beautiful soup наверняка не подойдет?

Напомните завтра, я парсил realt.by, там точно не подошёл суп

источник

21:06пожаловаться #2

MY

Maksim Yasinski in Python для анализа данных

получается не "РЕСП. ТАТАРСТАН" > "ТАТАРСТАН", а " ТАТАРСТАН"

Смотря как идти, если через сплит по пробелу, то все ок. Кроме того всегда есть lstrip

источник

21:07пожаловаться #3

P

Parθava in Python для анализа данных

окей, спасибо

источник

21:12пожаловаться #4

P

Parθava in Python для анализа данных

я сначала реплейснул

источник

21:12пожаловаться #5

P

Parθava in Python для анализа данных

потом стрипнул пробелы

источник

21:12пожаловаться #6

MY

Maksim Yasinski in Python для анализа данных

потом стрипнул пробелы

Помни, что порядок слов важен, иначе unique не сработает, а он там пляшет

источник

21:14пожаловаться #7

2019 November 04

А

Алексей in Python для анализа данных

Добрый день. Есть у меня такая категория данных с названиями регионов. Проблема в том, что в ней огромное количество синонимичных значений, таких как "РЕСП. БАШКОРТОСТАН", "БАШКОРТОСТАН", "РЕСПУБЛИКА БАШКОРТОСТАН" и т.д. Можете посоветовать способ, как их можно было бы сгруппировать в более крупные?

Недавно по работе выполнял похожую задачу, нашёл модуль, который сравнивал два значения между собой и выдавал оценку схожести. Можно взять идеальный список регионов и сравнить с тем, что есть. Название модуля завтра скину, если не забуду

источник

01:15пожаловаться #8

I

Igor in Python для анализа данных

Добрый день. Есть у меня такая категория данных с названиями регионов. Проблема в том, что в ней огромное количество синонимичных значений, таких как "РЕСП. БАШКОРТОСТАН", "БАШКОРТОСТАН", "РЕСПУБЛИКА БАШКОРТОСТАН" и т.д. Можете посоветовать способ, как их можно было бы сгруппировать в более крупные?

Можно ещё алгоритмом k-means разбить на k кластеров с k=количество регионов и назначить каждому кластеру имя=название региона))))

источник

08:26пожаловаться #9

MY

Maksim Yasinski in Python для анализа данных

всё вышеперечисленное - очень умные варианты, но если есть идеальный список, тогда зачем всё это? он уже есть

источник

09:11пожаловаться #10

P

Parθava in Python для анализа данных

Недавно по работе выполнял похожую задачу, нашёл модуль, который сравнивал два значения между собой и выдавал оценку схожести. Можно взять идеальный список регионов и сравнить с тем, что есть. Название модуля завтра скину, если не забуду

Не fuzzywuzzy случайно?

источник

09:39пожаловаться #11

P

Parθava in Python для анализа данных

Можно ещё алгоритмом k-means разбить на k кластеров с k=количество регионов и назначить каждому кластеру имя=название региона))))

Ну это если сильно заморочится) но все равно спс

источник

09:39пожаловаться #12

СМ

Саша Михайлов... in Python для анализа данных

Добрый день. Есть у меня такая категория данных с названиями регионов. Проблема в том, что в ней огромное количество синонимичных значений, таких как "РЕСП. БАШКОРТОСТАН", "БАШКОРТОСТАН", "РЕСПУБЛИКА БАШКОРТОСТАН" и т.д. Можете посоветовать способ, как их можно было бы сгруппировать в более крупные?

есть сервис DaData.ru, он чистит и обогащает данные. Работает в том числе с адресами. Есть АПИ. Бесплатное ограничение 10К запросов в сутки.

источник

09:49пожаловаться #13

P

Parθava in Python для анализа данных

Благодарю

источник

09:58пожаловаться #14

I

Igor in Python для анализа данных

На сколько я понял, то ест данные, которые соответствуют какому-то региону. Но при ручном заполнении каждый заполнял как хотел. теперь нужно сгруппировать эти данные в разрезе регионов, а для этого нужно чтобы название региона было одинаково для всех объектов из этого региона.

источник

10:00пожаловаться #15

I

Igor in Python для анализа данных

Недавно по работе выполнял похожую задачу, нашёл модуль, который сравнивал два значения между собой и выдавал оценку схожести. Можно взять идеальный список регионов и сравнить с тем, что есть. Название модуля завтра скину, если не забуду

Кажется мне что это обычное косинусное расстояние)))

источник

10:13пожаловаться #16

VN

Vlad Nykytenko in Python для анализа данных

Кажется мне что это обычное косинусное расстояние)))

Или расстояние левенштейна

источник

10:22пожаловаться #17

MY

Maksim Yasinski in Python для анализа данных

Или расстояние левенштейна

можно попросить маленький ликбез? как потом с этим расстоянием работать? какое расстояние будет являться точкой отсечения для принятия решения?

источник

10:43пожаловаться #18

I

Igor in Python для анализа данных

Maksim Yasinski

можно попросить маленький ликбез? как потом с этим расстоянием работать? какое расстояние будет являться точкой отсечения для принятия решения?

Можно пройти итерацию по списку с неопределенными регионами и сравнивать каждое значение со списком регионов. Где минимальное расстояние там и проводить сопоставление.

источник

10:48пожаловаться #19

MY

Maksim Yasinski in Python для анализа данных

Можно пройти итерацию по списку с неопределенными регионами и сравнивать каждое значение со списком регионов. Где минимальное расстояние там и проводить сопоставление.

это понятно, вот и хочу попросить помочь определить минимальное расстояние, оно какое? как определить? где-то оно больше, где-то меньше...

источник

10:54пожаловаться #20