Size: a a a

Python для анализа данных

2020 November 18

КД

Кирилл Дмитриевич... in Python для анализа данных
Всем привет. У меня стоит задача подтянуть значения по частичному совпадению строки. Грубо говоря, у меня есть список слов, где есть значения "рыбный", "РЫБА", "из рыбы", "С РЫБАЙ" и есть слово "Рыба". Как сделать так, чтобы питон парсил строку по ее части? Чтобы у меня получилась таблица "рыбный - Рыба, РЫБА - Рыба, из рыбы - Рыба"? Гуглил, не помогает
источник

LT

Lan Tal in Python для анализа данных
Лемматизация нужна
источник

S

Slavik in Python для анализа данных
Lan Tal
Лемматизация нужна
+
источник

КД

Кирилл Дмитриевич... in Python для анализа данных
Спасибо, теперь знаю, какое слово гуглить
источник

Л

Леонид in Python для анализа данных
Я такие задачи решаю через список категорий, у меня есть некий словарь всех видов значения рыбных товаров и к ним "Рыба" в таблице excel:

Столбец 1 / Столбец 2
Рыбный / Рыба
РЫБА / Рыба
РЫБАЙ / Рыба

И далее я делаю ее импорт в Пандас:
cat = pd.read_excel("/Users/user/Downloads/cat.xlsx",sheet_name = 'Sheet1')

и затем merge к необходимому мне исходному data frame:
df_cat = df.merge(cat,on='from',how='right')
Тут нужно выбрать How в зависимости от того нужны ли тебе несовпадающие между двумя дата фреймами ключи
источник

Л

Леонид in Python для анализа данных
но в моем случае, список исходных значений одинаковый во всех выгрузках и весьма конечный (до 50 строк) и поэтому его руками было легко прописать к категориям
источник

Л

Леонид in Python для анализа данных
источник

Л

Леонид in Python для анализа данных
По сути это =vlookup в excel
источник

LT

Lan Tal in Python для анализа данных
Это извращение
источник

LT

Lan Tal in Python для анализа данных
Гуглите pymystem3
источник

КД

Кирилл Дмитриевич... in Python для анализа данных
Леонид
Я такие задачи решаю через список категорий, у меня есть некий словарь всех видов значения рыбных товаров и к ним "Рыба" в таблице excel:

Столбец 1 / Столбец 2
Рыбный / Рыба
РЫБА / Рыба
РЫБАЙ / Рыба

И далее я делаю ее импорт в Пандас:
cat = pd.read_excel("/Users/user/Downloads/cat.xlsx",sheet_name = 'Sheet1')

и затем merge к необходимому мне исходному data frame:
df_cat = df.merge(cat,on='from',how='right')
Тут нужно выбрать How в зависимости от того нужны ли тебе несовпадающие между двумя дата фреймами ключи
В том то и дело, что у нас нет таблицы эксель
источник

Л

Леонид in Python для анализа данных
ну ее можно создать и заимпортить в пандас
источник

Л

Леонид in Python для анализа данных
а другой дата фрейм заимпортить из чего угодно
источник

Л

Леонид in Python для анализа данных
такую таблицу можно создать и в пандасе, просто серию ключ: значение. Единственная проблема будет прописать их все руками
источник

Л

Леонид in Python для анализа данных
Можно еще, отфильтровать значения рыбного списка по содержанию в строке нужных символов
data.fish_column.str.contains("Рыб")

(тут надо поискать способ прогнать функцию поиска символов без учета регистра)

Сделать из этого дата фрейм и к нему добавить еще столбец ['Рыба']

fish_df['Fish_normal'] = 'Рыба'


и затем его уже мерджить с исходным датафреймом.
источник

R

Ruslan in Python для анализа данных
Ребят, посоветуйте, пожалуйста, какой-нибудь понятный Гайд по построению и визуализации результатов модели ARIMA в Python без жёсткого погружения в математику.
источник

AS

Alex Sumovsky in Python для анализа данных
import re
re.search(шаблон, строка, re.IGNORECASE)
источник

ND

Natalya Davydova in Python для анализа данных
а зачем так сурово? регулярки же медленные
Может, все значения колонки к нижнему регистру
data['column_name'].str.lower(), + лемматизацию
источник

M

Mikhail in Python для анализа данных
Ruslan
Ребят, посоветуйте, пожалуйста, какой-нибудь понятный Гайд по построению и визуализации результатов модели ARIMA в Python без жёсткого погружения в математику.
ты бы еще Хольта-Винсента попросил без погружения в математику рассказать)
источник

IK

Igor Kucherevsky in Python для анализа данных
Ruslan
Ребят, посоветуйте, пожалуйста, какой-нибудь понятный Гайд по построению и визуализации результатов модели ARIMA в Python без жёсткого погружения в математику.
А почему нужна именно ARIMA?
источник