И последний вопрос, если можно. Можете подсказать вот этот момент, куда я конкретно это должен передать? И, я так понимаю, передаю список вот этих вот получившихся отклонений, не сумму, так?
Привет всем! Может кто сталкивался с похожей задачей. Есть выборка с параметрами пользователей которые "подключили услугу". И есть выборка из которой нужно выбрать максимально похожих на первую пользователей. Какой метод мл применить, куда копать?) В идеале создать столбец в % на сколько строка подходит в группе
Так это предполагается, что вы продемонстрируете весь набор своих навыков, испробуете разные алгоритмы и лучшая точность никак не ограничена. Сейчас вроде с градиентного бустинга принято начинать.
Или в исходных данных нет тех кто не подключил и предлагается выделить суть вручную? Интересное задание. Наверное сами данные больше скажут чем словесная формулировка. Или формулировка неточная
Да, есть только список кто подключил услугу. Кто не подключил нет. И есть общий список пользавателей из которых нужно выбрать максимально похожих на тех кто подключил услугу
Как-то искусственно усложнили задачу. Разве так бывает в жизни? Предлагаю по-прежнему делать xgboost, но разметить всю остальную пачку как не подключивших. Все равно должно выдавать какой-то результат. Скорее всего в самом распределении данных есть видимые закономерности и их надо найти. А потом выбрать простой не склонный к переобучению алгоритм типа логистической регрессии или knn
Народ, а кто-то в метрике в электр коммерции разбирается? Надо получить такой отчёт «строка это номер заказ, а столбцы Наименование просмотренных товаров во время визита, Наименования добавленных в корзину товаров, Наименования купленных товаров»