Size: a a a

Python для анализа данных

2019 October 18

DB

Dmitry Bordukov in Python для анализа данных
Pavel Niki
Дмитрий, вы сказали предстраховая проверка? Вы в страховании работаете? Я просто тем же самым занимаюсь, но не могу понять цель вашего анализа, что в результате вы хотите понять/проанализировать по фин.отчетности? Расчет кредитоспособности или какие-то прогнознае значения показателей?
По сути оценить благонадежность контрагента. Есть определенный процесс проверки контрагентов - сбор документов, выявление в ручную критично показателей с развесовкой 10 летней давностью (экспертной). Кейс пересобрать данные критерии, возможно найти новые, и найти точки роста для автоматизации процесса и сбора данных.
источник

PN

Pavel Niki in Python для анализа данных
Я применяю исторические данные через API Спара и квартальные текущие данные через OCR. Все это сохраняется в базу Postgre и затем исходя из запросов вытаскивается и через pandas анализируется. Для ML пока датасет нерепрезентативен, чтобы какие-нибудь модели прогноза делать
источник

PN

Pavel Niki in Python для анализа данных
api спарка
источник

DB

Dmitry Bordukov in Python для анализа данных
Pavel Niki
Я применяю исторические данные через API Спара и квартальные текущие данные через OCR. Все это сохраняется в базу Postgre и затем исходя из запросов вытаскивается и через pandas анализируется. Для ML пока датасет нерепрезентативен, чтобы какие-нибудь модели прогноза делать
Этот кейс в проработке, но ресурсы ит забиты, сами методы api пока ток реализуются. Тут пока рассматриваем ближе к сегментации и БП по стоп правилам, обновления весов через лог регрессию.
источник

DB

Dmitry Bordukov in Python для анализа данных
Так что пока работаем с тем что есть и пока вопрос, который решаем как учитывать квартальный отчетность с ее разряженнлстью по контрагентам
источник

PN

Pavel Niki in Python для анализа данных
Я пока кварталку использую только выявить сезонность и финансовые разрывы компаний. Есть ряд наработак прогнозирования годовых данных на основании квартальных показателей предсказывать, но пока коряво
источник
2019 October 19

C

Cote D'azur in Python для анализа данных
привет! а есть тут аналитики футбольной статистики? Интересуют факторы, имеющие наибольший вес, при прогнозировании результата.
источник

АГ

Артем Гилетич... in Python для анализа данных
Cote D'azur
привет! а есть тут аналитики футбольной статистики? Интересуют факторы, имеющие наибольший вес, при прогнозировании результата.
источник

МЧ

Маша Чакчурина... in Python для анализа данных
Dmitry Bordukov
По сути оценить благонадежность контрагента. Есть определенный процесс проверки контрагентов - сбор документов, выявление в ручную критично показателей с развесовкой 10 летней давностью (экспертной). Кейс пересобрать данные критерии, возможно найти новые, и найти точки роста для автоматизации процесса и сбора данных.
А что за компания, если не секрет?
источник
2019 October 20

T

Tim in Python для анализа данных
Коллеги, приветствую. Случился затык ,если у кого есть какие идеи, был бы очень благодарен их услышать. Задача: есть фрейм с транзакциями клиентов (траты, зачисления). Необходимо сравнить все транзакции по клиенту и найти такие две, идущие подряд по времени,  общая сумма которых равна 0 и затем удалить из исходного датафрейма. Приветствуются любые идеи)
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Tim
Коллеги, приветствую. Случился затык ,если у кого есть какие идеи, был бы очень благодарен их услышать. Задача: есть фрейм с транзакциями клиентов (траты, зачисления). Необходимо сравнить все транзакции по клиенту и найти такие две, идущие подряд по времени,  общая сумма которых равна 0 и затем удалить из исходного датафрейма. Приветствуются любые идеи)
там есть id транзакции?
источник

T

Tim in Python для анализа данных
Владислав Литвинюк
там есть id транзакции?
Id нету ,но есть время, так что можно пронумеровать
источник

R

Roman in Python для анализа данных
оконный функции в скл.
lead (sum_transaction, 1) over (partition by client_id order by time)
как нибудь так
источник

AP

Andrey Pushvitsev in Python для анализа данных
С ходу есть только не самое изящное решение через цикл: пройтись по каждому клиенту и пересобрать исходный фрейм, исключив те, что не подходят

Если фрейм не большой, то это вполне рабочее решение -- задачу решит
источник

AP

Andrey Pushvitsev in Python для анализа данных
Скорее всего этот тупой способ выглядел бы как то так

result_df=pd.DataFrame()
clients=df.client_id.unique()

for client in clients:
 tdf=df[df.client_id==client].sort_values('time')

tdf[`previous_transaction'] = tdf.transaction.shift(-1)

 tdf_to_append =    tdf[tdf.previous_transaction+tdf.transaction!=0]
 result_df = result_df.append(tdf_to_append)


Можно примерно такую же логику без цикла применить если shift делать для каждого юзера отдельно через groupby
источник

T

Tim in Python для анализа данных
Andrey Pushvitsev
Скорее всего этот тупой способ выглядел бы как то так

result_df=pd.DataFrame()
clients=df.client_id.unique()

for client in clients:
 tdf=df[df.client_id==client].sort_values('time')

tdf[`previous_transaction'] = tdf.transaction.shift(-1)

 tdf_to_append =    tdf[tdf.previous_transaction+tdf.transaction!=0]
 result_df = result_df.append(tdf_to_append)


Можно примерно такую же логику без цикла применить если shift делать для каждого юзера отдельно через groupby
Благодарю за идею
источник
2019 October 21

НД

Новиков Дмитрий... in Python для анализа данных
Всем привет. Задача на входе есть 100000 карточек с названиями товара и 5000 категорий, нужно автоматически найти привязку товаров к нужной категории. Просто кластеризация не подойдёт, так как товар может быть в 10 разных категориях. Первое что пришло на ум это сделать по y названия карточек по x сделать униграммы слов всех категорий и посчитать вхождения а-ля CountVectorizer , но в таком случае к примеру товар с названием тумбы с крышкой не попадёт в категорию тумбы с крышкой, так как название может немного отличаться «закрывающиеся тумбы» .
Может есть примеры кто решал подобную задачу? На входе по карточкам только название самой карточки.
источник

AP

Andrey Pushvitsev in Python для анализа данных
Новиков Дмитрий
Всем привет. Задача на входе есть 100000 карточек с названиями товара и 5000 категорий, нужно автоматически найти привязку товаров к нужной категории. Просто кластеризация не подойдёт, так как товар может быть в 10 разных категориях. Первое что пришло на ум это сделать по y названия карточек по x сделать униграммы слов всех категорий и посчитать вхождения а-ля CountVectorizer , но в таком случае к примеру товар с названием тумбы с крышкой не попадёт в категорию тумбы с крышкой, так как название может немного отличаться «закрывающиеся тумбы» .
Может есть примеры кто решал подобную задачу? На входе по карточкам только название самой карточки.
Сходу гуглятся только ML подходы типа
https://towardsdatascience.com/ml-powered-product-categorization-for-smart-shopping-options-8f10d78e3294
https://medium.com/dataweave/implementing-a-machine-learning-based-ecommerce-product-classification-system-f846d894148b
https://techblog.commercetools.com/boosting-product-categorization-with-machine-learning-ad4dbd30b0e8
https://arxiv.org/pdf/1903.04254.pdf
http://www.cse.scu.edu/~mwang2/projects/ML_KaggleCompetition_15s.pdf

Если задача разовая, то, наверное, проще написать правила для этих 5000 категорий и применить их к карточкам — возможно, это быстрее, чем строить модель
источник

СИ

Сергей Ильин... in Python для анализа данных
еще один опрос по VL:
1/ есть датасет, в котором первые два столбца - тема письма и текст, третий - категория. Нужно научить модель определять категорию. Вопрос, правильно ли выбран путь и, если нет, то чем дополнить:

1/ привести все имеющиеся значения в ячейках к lower (чтобы не было влияния строчных-заглавных букв)
2/ в столбце, который предстоит предсказывать, проиндексировать все уникальные значения, чтобы передавать не текстовое представление, а его индекс
3/ слова в столбцах, на основании которых будем предсказывать (features), превратить в векторы

как я понимаю, все это относится к чистке данных.

потом уже полученные вектора скормить кэтбусту или xgboost.
источник

НД

Новиков Дмитрий... in Python для анализа данных
Почитаю, спасибо. Задача постоянная, так как категории и карточки увеличиваются
источник