Телеграмм чат группы pydata_chat страница 162

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Python для анализа данных

1463 membersпожаловаться на группу

2019 October 18

DB

Dmitry Bordukov in Python для анализа данных

Дмитрий, вы сказали предстраховая проверка? Вы в страховании работаете? Я просто тем же самым занимаюсь, но не могу понять цель вашего анализа, что в результате вы хотите понять/проанализировать по фин.отчетности? Расчет кредитоспособности или какие-то прогнознае значения показателей?

По сути оценить благонадежность контрагента. Есть определенный процесс проверки контрагентов - сбор документов, выявление в ручную критично показателей с развесовкой 10 летней давностью (экспертной). Кейс пересобрать данные критерии, возможно найти новые, и найти точки роста для автоматизации процесса и сбора данных.

источник

20:43пожаловаться #1

PN

Pavel Niki in Python для анализа данных

Я применяю исторические данные через API Спара и квартальные текущие данные через OCR. Все это сохраняется в базу Postgre и затем исходя из запросов вытаскивается и через pandas анализируется. Для ML пока датасет нерепрезентативен, чтобы какие-нибудь модели прогноза делать

источник

20:46пожаловаться #2

PN

Pavel Niki in Python для анализа данных

api спарка

источник

20:46пожаловаться #3

DB

Dmitry Bordukov in Python для анализа данных

Я применяю исторические данные через API Спара и квартальные текущие данные через OCR. Все это сохраняется в базу Postgre и затем исходя из запросов вытаскивается и через pandas анализируется. Для ML пока датасет нерепрезентативен, чтобы какие-нибудь модели прогноза делать

Этот кейс в проработке, но ресурсы ит забиты, сами методы api пока ток реализуются. Тут пока рассматриваем ближе к сегментации и БП по стоп правилам, обновления весов через лог регрессию.

источник

21:01пожаловаться #4

DB

Dmitry Bordukov in Python для анализа данных

Так что пока работаем с тем что есть и пока вопрос, который решаем как учитывать квартальный отчетность с ее разряженнлстью по контрагентам

источник

21:02пожаловаться #5

PN

Pavel Niki in Python для анализа данных

Я пока кварталку использую только выявить сезонность и финансовые разрывы компаний. Есть ряд наработак прогнозирования годовых данных на основании квартальных показателей предсказывать, но пока коряво

источник

21:05пожаловаться #6

2019 October 19

C

Cote D'azur in Python для анализа данных

привет! а есть тут аналитики футбольной статистики? Интересуют факторы, имеющие наибольший вес, при прогнозировании результата.

источник

00:41пожаловаться #7

АГ

Артем Гилетич... in Python для анализа данных

привет! а есть тут аналитики футбольной статистики? Интересуют факторы, имеющие наибольший вес, при прогнозировании результата.

https://nometa.xyz/

источник

00:44пожаловаться #8

МЧ

Маша Чакчурина... in Python для анализа данных

Dmitry Bordukov

По сути оценить благонадежность контрагента. Есть определенный процесс проверки контрагентов - сбор документов, выявление в ручную критично показателей с развесовкой 10 летней давностью (экспертной). Кейс пересобрать данные критерии, возможно найти новые, и найти точки роста для автоматизации процесса и сбора данных.

А что за компания, если не секрет?

источник

12:34пожаловаться #9

2019 October 20

T

Tim in Python для анализа данных

Коллеги, приветствую. Случился затык ,если у кого есть какие идеи, был бы очень благодарен их услышать. Задача: есть фрейм с транзакциями клиентов (траты, зачисления). Необходимо сравнить все транзакции по клиенту и найти такие две, идущие подряд по времени, общая сумма которых равна 0 и затем удалить из исходного датафрейма. Приветствуются любые идеи)

источник

20:42пожаловаться #10

ВЛ

Владислав Литвинюк... in Python для анализа данных

Коллеги, приветствую. Случился затык ,если у кого есть какие идеи, был бы очень благодарен их услышать. Задача: есть фрейм с транзакциями клиентов (траты, зачисления). Необходимо сравнить все транзакции по клиенту и найти такие две, идущие подряд по времени, общая сумма которых равна 0 и затем удалить из исходного датафрейма. Приветствуются любые идеи)

там есть id транзакции?

источник

21:21пожаловаться #11

T

Tim in Python для анализа данных

Владислав Литвинюк

там есть id транзакции?

Id нету ,но есть время, так что можно пронумеровать

источник

21:23пожаловаться #12

R

Roman in Python для анализа данных

оконный функции в скл.
lead (sum_transaction, 1) over (partition by client_id order by time)
как нибудь так

источник

21:23пожаловаться #13

AP

Andrey Pushvitsev in Python для анализа данных

С ходу есть только не самое изящное решение через цикл: пройтись по каждому клиенту и пересобрать исходный фрейм, исключив те, что не подходят

Если фрейм не большой, то это вполне рабочее решение -- задачу решит

источник

21:28пожаловаться #14

AP

Andrey Pushvitsev in Python для анализа данных

Скорее всего этот тупой способ выглядел бы как то так


result_df=pd.DataFrame()
clients=df.client_id.unique()

for client in clients:
  tdf=df[df.client_id==client].sort_values('time')

tdf[`previous_transaction'] = tdf.transaction.shift(-1)

  tdf_to_append =    tdf[tdf.previous_transaction+tdf.transaction!=0]
  result_df = result_df.append(tdf_to_append)

Можно примерно такую же логику без цикла применить если shift делать для каждого юзера отдельно через groupby

источник

21:41пожаловаться #15

T

Tim in Python для анализа данных

Andrey Pushvitsev

Скорее всего этот тупой способ выглядел бы как то так


result_df=pd.DataFrame()
clients=df.client_id.unique()

for client in clients:
  tdf=df[df.client_id==client].sort_values('time')

tdf[`previous_transaction'] = tdf.transaction.shift(-1)

  tdf_to_append =    tdf[tdf.previous_transaction+tdf.transaction!=0]
  result_df = result_df.append(tdf_to_append)

Можно примерно такую же логику без цикла применить если shift делать для каждого юзера отдельно через groupby

Благодарю за идею

источник

22:20пожаловаться #16

2019 October 21

НД

Новиков Дмитрий... in Python для анализа данных

Всем привет. Задача на входе есть 100000 карточек с названиями товара и 5000 категорий, нужно автоматически найти привязку товаров к нужной категории. Просто кластеризация не подойдёт, так как товар может быть в 10 разных категориях. Первое что пришло на ум это сделать по y названия карточек по x сделать униграммы слов всех категорий и посчитать вхождения а-ля CountVectorizer , но в таком случае к примеру товар с названием тумбы с крышкой не попадёт в категорию тумбы с крышкой, так как название может немного отличаться «закрывающиеся тумбы» .
Может есть примеры кто решал подобную задачу? На входе по карточкам только название самой карточки.

источник

09:11пожаловаться #17

AP

Andrey Pushvitsev in Python для анализа данных

Новиков Дмитрий

Всем привет. Задача на входе есть 100000 карточек с названиями товара и 5000 категорий, нужно автоматически найти привязку товаров к нужной категории. Просто кластеризация не подойдёт, так как товар может быть в 10 разных категориях. Первое что пришло на ум это сделать по y названия карточек по x сделать униграммы слов всех категорий и посчитать вхождения а-ля CountVectorizer , но в таком случае к примеру товар с названием тумбы с крышкой не попадёт в категорию тумбы с крышкой, так как название может немного отличаться «закрывающиеся тумбы» .
Может есть примеры кто решал подобную задачу? На входе по карточкам только название самой карточки.

Сходу гуглятся только ML подходы типа
https://towardsdatascience.com/ml-powered-product-categorization-for-smart-shopping-options-8f10d78e3294
https://medium.com/dataweave/implementing-a-machine-learning-based-ecommerce-product-classification-system-f846d894148b
https://techblog.commercetools.com/boosting-product-categorization-with-machine-learning-ad4dbd30b0e8
https://arxiv.org/pdf/1903.04254.pdf
http://www.cse.scu.edu/~mwang2/projects/ML_KaggleCompetition_15s.pdf

Если задача разовая, то, наверное, проще написать правила для этих 5000 категорий и применить их к карточкам — возможно, это быстрее, чем строить модель

ML-Powered Product categorization for smart shopping options

Let’s take the case of an AI-powered ecommerce aggregator website which delights customers by providing them smart buying options. Looking…

источник

10:24пожаловаться #18

СИ

Сергей Ильин... in Python для анализа данных

еще один опрос по VL:
1/ есть датасет, в котором первые два столбца - тема письма и текст, третий - категория. Нужно научить модель определять категорию. Вопрос, правильно ли выбран путь и, если нет, то чем дополнить:

1/ привести все имеющиеся значения в ячейках к lower (чтобы не было влияния строчных-заглавных букв)
2/ в столбце, который предстоит предсказывать, проиндексировать все уникальные значения, чтобы передавать не текстовое представление, а его индекс
3/ слова в столбцах, на основании которых будем предсказывать (features), превратить в векторы

как я понимаю, все это относится к чистке данных.

потом уже полученные вектора скормить кэтбусту или xgboost.

источник

10:31пожаловаться #19

НД

Новиков Дмитрий... in Python для анализа данных

Andrey Pushvitsev

Сходу гуглятся только ML подходы типа
https://towardsdatascience.com/ml-powered-product-categorization-for-smart-shopping-options-8f10d78e3294
https://medium.com/dataweave/implementing-a-machine-learning-based-ecommerce-product-classification-system-f846d894148b
https://techblog.commercetools.com/boosting-product-categorization-with-machine-learning-ad4dbd30b0e8
https://arxiv.org/pdf/1903.04254.pdf
http://www.cse.scu.edu/~mwang2/projects/ML_KaggleCompetition_15s.pdf

Если задача разовая, то, наверное, проще написать правила для этих 5000 категорий и применить их к карточкам — возможно, это быстрее, чем строить модель

ML-Powered Product categorization for smart shopping options

Let’s take the case of an AI-powered ecommerce aggregator website which delights customers by providing them smart buying options. Looking…

Почитаю, спасибо. Задача постоянная, так как категории и карточки увеличиваются

источник

10:34пожаловаться #20