Телеграмм чат группы pydata

И последний вопрос, если можно. Можете подсказать вот этот момент, куда я конкретно это должен передать? И, я так понимаю, передаю список вот этих вот получившихся отклонений, не сумму, так?

источник

13:17пожаловаться #12

АР

Александр Райков... in Python для анализа данных

Сумму

источник

13:17пожаловаться #13

Daniel Zaharov in Python для анализа данных

Понял. Ещё раз большое спасибо. Вечером сяду программировать. Если появятся вопросы, если можно, ещё напишу. Вряд ли, но всё-таки.

источник

13:21пожаловаться #14

Andrey Mol'kov in Python для анализа данных

Привет всем! Может кто сталкивался с похожей задачей. Есть выборка с параметрами пользователей которые "подключили услугу". И есть выборка из которой нужно выбрать максимально похожих на первую пользователей. Какой метод мл применить, куда копать?) В идеале создать столбец в % на сколько строка подходит в группе

источник

14:40пожаловаться #15

Pavel Zheltouhov in Python для анализа данных

Так это предполагается, что вы продемонстрируете весь набор своих навыков, испробуете разные алгоритмы и лучшая точность никак не ограничена.
Сейчас вроде с градиентного бустинга принято начинать.

источник

14:56пожаловаться #16

Pavel Zheltouhov in Python для анализа данных

Или в исходных данных нет тех кто не подключил и предлагается выделить суть вручную?
Интересное задание. Наверное сами данные больше скажут чем словесная формулировка.
Или формулировка неточная

источник

15:09пожаловаться #17

Andrey Mol'kov in Python для анализа данных

Да, есть только список кто подключил услугу. Кто не подключил нет. И есть общий список пользавателей из которых нужно выбрать максимально похожих на тех кто подключил услугу

источник

15:15пожаловаться #18

Pavel Zheltouhov in Python для анализа данных

Как-то искусственно усложнили задачу. Разве так бывает в жизни?
Предлагаю по-прежнему делать xgboost, но разметить всю остальную пачку как не подключивших. Все равно должно выдавать какой-то результат.
Скорее всего в самом распределении данных есть видимые закономерности и их надо найти. А потом выбрать простой не склонный к переобучению алгоритм типа логистической регрессии или knn

источник

15:18пожаловаться #19

Alex K in Python для анализа данных

Народ, а кто-то в метрике в электр коммерции разбирается? Надо получить такой отчёт «строка это номер заказ, а столбцы Наименование просмотренных товаров во время визита, Наименования добавленных в корзину товаров, Наименования купленных товаров»

источник

15:50пожаловаться #20