Size: a a a

Python для анализа данных

2021 October 14

VM

Valerii Mamontov in Python для анализа данных
Там все детали раскрываются в комментариях к статье. Можно связаться с автором. Он очень открыто и активно отвечал на все вопросы.
источник

IS

Ilya Shutov in Python для анализа данных
это публикация гуляет уже давно.
самый жгучий вопрос — авторские права.
но это всего-лишь граббер.
смысловой анализ он не делает.

т.е. это круто, но решает совсем иную задачу.
источник

VM

Valerii Mamontov in Python для анализа данных
Да. Там мельком просматривается следующий подход - не нужно пытаться объять необъятное (распарсить и проанализировать всё), достаточно сделать допущения. Принцип Паретто.
источник

IS

Ilya Shutov in Python для анализа данных
Это уже называется постановкой задачи.
Наиболее сложная и интересная часть проектов.

Она делается в т.ч. с образцами и инструментами в руках.
Но этот вопрос выходит далеко за рамки настоящего чата.
В целом, он малоинтересен аналитикам среднего уровня.
источник

VM

Valerii Mamontov in Python для анализа данных
Здравствуйте. Может вот это подойдёт - https://github.com/miptgirl/kinopoisk_data/blob/master/kp_all_movies.csv
источник

sk

s k in Python для анализа данных
спасибо👍 старенькая конечно, но тоже супер
источник

VM

Valerii Mamontov in Python для анализа данных
Раньше можно было спарсить фильмы с оф.сайта, сейчас не знаю.
источник
2021 October 15

СИ

Сергей Ильин... in Python для анализа данных
Добрый день. Решают задачу fraud detection. Данные - временные ряды + текст.
Интересует сейчас кусок с текстом.

Проблема фрода - это дикий дисбаланс классов. Просто отрезать "не фродовые" сообщения, чтобы уравнять классы кажется плохой идеей.

Можно ли в склерне или в имблерне (imbalanced) сделать такую штуку: с помощью какой-нибудь K-fold брать данные из обоих классов "с возвращением"?

Типа, взяли по 10 записей из каждого класса - это первая выборка, вернули в кучки, перемешали, потом взяли еще по 10 записей - и так k раз.

И еще, чтобы два раза не вставать, можно ли так:
- взять фродовые тексты, превратить их в вектора, затем с помощью SMOTE посчитать дополнительные синтетические вектора внутри "фродового" класса, чтобы уравнять??

Спасибо заранее.
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Что за заморочка, если sample даже в pandas есть?
источник

СИ

Сергей Ильин... in Python для анализа данных
sample - понятно.

"стандартный" k-fold бьет датафрейм на k частей и обучается на k-1, на 1 проверяет.
Но у меня проблема дикого дисбаланса и я бы не хотел отрезать 0 классы, а добавить 1

Но уравнять классы надо.
Вопрос в том, как это правильно делать.
источник

СИ

Сергей Ильин... in Python для анализа данных
туплю. Возможно,
from sklearn.model_selection import RepeatedStratifiedKFold
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Да понятно. Технически ничего не мешает это сделать до
источник

PZ

Pavel Zheltouhov in Python для анализа данных
...кроме потребления памяти
источник

СИ

Сергей Ильин... in Python для анализа данных
хорошо. я сдаюсь. что делать-то мне? ))
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Мне кажется  RepeatedStratifiedKFold - тоже норм
источник

СИ

Сергей Ильин... in Python для анализа данных
ок, данке, пойду (м)учиться
источник

V

Viktor in Python для анализа данных
источник

V

Viktor in Python для анализа данных
Всем добрый день!
Помогите решить задачку. Имею следующий формат учета продаж.
Необходимо посчитать тотал по каждому клиенту.
В Power Query задачку решил, в питоне не получается.
источник

@

@RAM@ in Python для анализа данных
Pivot table?
источник

V

Viktor in Python для анализа данных
Проблема в том, что клиенты в разных столбцах.
источник