Size: a a a

Python для анализа данных

2019 November 04

I

Igor in Python для анализа данных
Maksim Yasinski
это понятно, вот и хочу попросить помочь определить минимальное расстояние, оно какое? как определить? где-то оно больше, где-то меньше...
Проходим итерацию сопоставления, записываем данные расстояние в словарь "регион":"расстояние", выбираем ключ с минимальным значением, записываем значение ключа как регион в таблицу.

Это имелось в виду?
источник

MY

Maksim Yasinski in Python для анализа данных
Республика Башкортостан - эталон, если я правильно понимаю задачу надо понять куда отнести текущее значение, у нас есть Респ. Башкортостан, Башкортостан, Башкортостан Респ. и Башкортостан Республика, как их отнести к эталону? какое расстояние? возможно мы по разному задачу понимаем
источник

I

Igor in Python для анализа данных
Ну, не совсем так... Есть у нас, к примеру, значения эталонные - Республика Башкортостан, Омская область и т.д. И есть у нас разные значения - обл. Омская, Омская обл, ОМСК, Башкортостан респ, Башкортостан.. И вот мы проходим по всем последним значениям и сравниваем расстояние между двумя эталонными - "Республика Башкортостан" и "Омская область". Где меньше значение то и подставляем
источник

MY

Maksim Yasinski in Python для анализа данных
да, так гораздо лучше
источник

MY

Maksim Yasinski in Python для анализа данных
благодарю!
источник

MY

Maksim Yasinski in Python для анализа данных
единственный вопрос: учитывается ли порядок слов в алгоритме?
источник

MY

Maksim Yasinski in Python для анализа данных
к примеру к чему ближе:
Республика Башкортостан - эталон
Беларусь Республика - эталон
Башкортостан Республика - проверяем
источник

I

Igor in Python для анализа данных
Maksim Yasinski
единственный вопрос: учитывается ли порядок слов в алгоритме?
В таких случаях можно было бы сделать что то вроде определения ценности слова. К примеру в не эталонном списке часто употребляется слово Башкирская, а в эталонном - редко. В таком случае ценность слова возрастает для сравнения. Это называется tf-idf... Но об этом я бы рекомендовал самому ознакомиться, поскольку опыта с этим у меня нет...
источник

I

Igor in Python для анализа данных
Здесь k-means, я думаю, как раз очень подошёл бы)
источник

MY

Maksim Yasinski in Python для анализа данных
Igor
В таких случаях можно было бы сделать что то вроде определения ценности слова. К примеру в не эталонном списке часто употребляется слово Башкирская, а в эталонном - редко. В таком случае ценность слова возрастает для сравнения. Это называется tf-idf... Но об этом я бы рекомендовал самому ознакомиться, поскольку опыта с этим у меня нет...
Интересно, спасибо, Игорь!
источник

I

Igor in Python для анализа данных
Maksim Yasinski
Интересно, спасибо, Игорь!
Да, это действительно интересная область))
источник
2019 November 05

ВЛ

Владислав Литвинюк... in Python для анализа данных
Привет, кто-то использовал streamlit?
Не могу у себя запустить.
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
источник

AD

Andrew Dakhnovsky in Python для анализа данных
Владислав Литвинюк
Привет, кто-то использовал streamlit?
Не могу у себя запустить.
вот прям щас решился повторить код с хабра
и у меня все заработало
я ставил через обыычный pip install streamlit
потом пишешь скрипт
сохраняешь его как script_name.py
потом запускаешь его streamlit run script_name.py
вуаля - в браузере дергаешь свой ползунок
источник

AD

Andrew Dakhnovsky in Python для анализа данных
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
источник

AD

Andrew Dakhnovsky in Python для анализа данных
кириллица в пути?
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Andrew Dakhnovsky
кириллица в пути?
нет, только диск D: , который я указал в консоле с юпитера
источник

AD

Andrew Dakhnovsky in Python для анализа данных
Владислав Литвинюк
нет, только диск D: , который я указал в консоле с юпитера
вот это добавь в веб.пи
в начало
#! /usr/bin/env python
# -*- coding: utf-8 -*-
источник