Size: a a a

Python для анализа данных

2020 November 19

A

Aleksandr in Python для анализа данных
Andrey Matvienko
Без разбивки по каналам и без планируемых рекламных бюджетов?
Да, без этих данных и это тестовое задание)
источник

AM

Andrey Matvienko in Python для анализа данных
Оу май
источник

КД

Кирилл Дмитриевич... in Python для анализа данных
Aleksandr
Привет, стоит задача спрогнозировать объем трафика на следующий месяц по этим данным, подскажите, пожалуйста, возможно ли осуществить это или данных все же недостаточно? Если использовать одну из моделей машинного обучения, то получается всего три признака, а временные ряды для меня пока в новинку
Ну вообще, я вижу, тут у вас сабсет из данных. Я так понимаю, sessions - это целевая переменная? Попробуйте обычную линейную модель.
источник

R

Ruslan in Python для анализа данных
Aleksandr
Привет, стоит задача спрогнозировать объем трафика на следующий месяц по этим данным, подскажите, пожалуйста, возможно ли осуществить это или данных все же недостаточно? Если использовать одну из моделей машинного обучения, то получается всего три признака, а временные ряды для меня пока в новинку
Не забудь создать дамми переменную по gender
источник

R

Ruslan in Python для анализа данных
И после можно попробовать с простой линейной регрессии
источник

КД

Кирилл Дмитриевич... in Python для анализа данных
Категорию я бы факторизовал
источник

R

Ruslan in Python для анализа данных
В r вроде есть библиотека позволяющая находить оптимальный набор предикторов и их функциональную форму
источник

R

Ruslan in Python для анализа данных
С зависимой переменной
источник

R

Ruslan in Python для анализа данных
Кирилл Дмитриевич
Категорию я бы факторизовал
++
источник

R

Ruslan in Python для анализа данных
По категориям тоже нужны дамми переменные
источник

R

Ruslan in Python для анализа данных
Факторизовать нужно ещё и возраст
источник

A

Aleksandr in Python для анализа данных
значит, все же линейная модель, спасибо, попробую реализовать, просто смущает столько малое количество признаков
источник

R

Ruslan in Python для анализа данных
Aleksandr
значит, все же линейная модель, спасибо, попробую реализовать, просто смущает столько малое количество признаков
Не совсем. Начни с линейной. Если качество модели будет низкое то пробуй логарифмы
источник

PZ

Pavel Zheltouhov in Python для анализа данных
в смысле кроме этих 5 записей в задании ничего нет?
источник

A

Aleksandr in Python для анализа данных
Всего 28 тысяч строк, я сделал срез по необходимой категории и получилось около 9 тысяч
источник

PZ

Pavel Zheltouhov in Python для анализа данных
значит там наверняка есть сезонность.
возможно, если времени много, они бы хотели увидеть максимум вариантов и процесс улучшения
источник

R

Ruslan in Python для анализа данных
Я бы модель строил по 27 тыс строк. Остальные отправил бы на тестирование
источник

R

Ruslan in Python для анализа данных
Pavel Zheltouhov
значит там наверняка есть сезонность.
возможно, если времени много, они бы хотели увидеть максимум вариантов и процесс улучшения
Чтобы исключить сезонность нужно определиться на какие месяца она приходится и создать дамми переменные. Если месяц сезонный то 1, если нет то 0
источник

РА

Руслан Ахмадеев... in Python для анализа данных
Мне нужно создать отчетность по рассылкам из сервиса Mindbox

API Mindbox. Экспорт действий по рассылкам
https://developers.mindbox.ru/docs/экспорт-действий-по-рассылкам#section-описание-метода

Универсальная операция следующая:
POST https://api.mindbox.ru/v3/operations/sync?endpointId={idсайта}&operation={название операции}

Accept: application/xml
Content-Type: application/xml
Authorization: Mindbox secretKey="{секретный ключ}"

<operation>
 <page>
   <firstMindboxId>{Идентификатор последнего выгруженного действия}</firstMindboxId>
   <pageNumber>{Номер страницы}</pageNumber>
   <itemsPerPage>{Количество действий на страницу}</itemsPerPage>
 </page>
</operation>

https://api.mindbox.ru/v3/operations/sync?endpointId={idсайта}&operation={название операции}

Accept: application/xml
Content-Type: application/xml
Authorization: Mindbox secretKey="{секретный ключ}"

<operation>
 <page>
   <firstMindboxId>{Идентификатор последнего выгруженного действия}</firstMindboxId>
   <pageNumber>{Номер страницы}</pageNumber>
   <itemsPerPage>{Количество действий на страницу}</itemsPerPage>
 </page>
</operation>

Я написал скрипт:

headers = {
   'Authorization': 'Mindbox secretKey="{секретный ключ}"',
   'Accept': 'application/xml',
   'Content-Type': 'application/xml'
}
r = requests.post('https://api.mindbox.ru/v3/operations/sync?endpointId={idсайта}&operation=ExportEmail',
                 headers=headers)
requests.post('https://api.mindbox.ru/v3/operations/sync?endpointId={idсайта}&operation=ExportEmail',
                 headers=headers)
       
На что получил ответ <Response [200]>

Подскажите, пожалуйста, куда и как вставить вот эту часть, так чтобы получить данные о рассылках?

<operation>
 <page>
   <firstMindboxId>{Идентификатор последнего выгруженного действия}</firstMindboxId>
   <pageNumber>{Номер страницы}</pageNumber>
   <itemsPerPage>{Количество действий на страницу}</itemsPerPage>
 </page>
</operation>
источник

КД

Кирилл Дмитриевич... in Python для анализа данных
Ruslan
По категориям тоже нужны дамми переменные
Не сказал бы. В некоторых случаях лучше все таки использовать OneHotEncoder, или ковырять в R через as.factor(x). C даммисами сложнее работать потом будет
источник