Телеграмм чат группы pydata

В голову только приходит такое:
-делаешь crosstab, где колонками выступают значения из age_brackets с функцией count
ct=pd.crosstab(index='reg-dttm', columns='age_bruckets', aggfunc='count').sort_index()
-ct.cumsum()

источник

22:21пожаловаться #4

I

Igor in Python для анализа данных

Но, возможно, есть лучше варианты))

источник

22:21пожаловаться #5

2021 March 30

IS

Ivan Samorukov in Python для анализа данных

Всем привет! Делаю прогонку модели по разным наборам признаков. Получается, что модели с лучшими метриками хуже чувствуют суть физического процесса. А модели с худшими метриками неплохо понимают процесс, но имеют сдвиг влево. Вечная отрицательная ошибка. Интуитивно кажется, что можно как-то сдвинуть модель вправо. Но как это сделать я не понимаю. Подскажите, пожалуйста, в какую сторону рыть дальше

источник

08:12пожаловаться #6

IS

Ivan Samorukov in Python для анализа данных

источник

08:13пожаловаться #7

IS

Ivan Samorukov in Python для анализа данных

источник

08:13пожаловаться #8

AK

Alex K in Python для анализа данных

Можно как-нить проще избавиться от date и получить сумму по всем датам в df?

источник

08:14пожаловаться #9

PZ

Pavel Zheltouhov in Python для анализа данных

Ivan Samorukov

Всем привет! Делаю прогонку модели по разным наборам признаков. Получается, что модели с лучшими метриками хуже чувствуют суть физического процесса. А модели с худшими метриками неплохо понимают процесс, но имеют сдвиг влево. Вечная отрицательная ошибка. Интуитивно кажется, что можно как-то сдвинуть модель вправо. Но как это сделать я не понимаю. Подскажите, пожалуйста, в какую сторону рыть дальше

Очевидно, что сдвиг обусловлен сутью алгоритма, а вы его даже не назвали

источник

08:41пожаловаться #10

IS

Ivan Samorukov in Python для анализа данных

Pavel Zheltouhov

Очевидно, что сдвиг обусловлен сутью алгоритма, а вы его даже не назвали

Алгоритм во всех моделях один. Менял только группы признаков. Модель ElasticNet

источник

08:46пожаловаться #11

PZ

Pavel Zheltouhov in Python для анализа данных

По-моему, совсем не интуитивно сдвинуть влево. Ведь это означает нужно лучше понять суть процесса и отреагировать раньше

источник

08:52пожаловаться #12

PZ

Pavel Zheltouhov in Python для анализа данных

А. Так надо вправо, то есть замедлить реакцию.

источник

08:54пожаловаться #13

PZ

Pavel Zheltouhov in Python для анализа данных

А почему линейная регрессия вообще должна отображать суть процесса? Может тут выгоднее понять процесс , вывести вручную формулы и подобрать уже scipy.optimize.curve_fit?

источник

09:02пожаловаться #14

IS

Ivan Samorukov in Python для анализа данных

Изначально я строил просто baseline на линреге. В итоге получил результаты, которые меня устраивают и решил оптимизировать именно линейную регрессию. Зависимости известны. Но они достаточно сложны для описания парой формул

источник

09:09пожаловаться #15

IS

Ivan Samorukov in Python для анализа данных

Pavel Zheltouhov

А почему линейная регрессия вообще должна отображать суть процесса? Может тут выгоднее понять процесс , вывести вручную формулы и подобрать уже scipy.optimize.curve_fit?

Суть процесса я понимаю. Можно какую-то функцию найти под признаки, которые наиболее сильно влияют, приближающую прогноз к факту. Просто я никогда с таким не сталкивался. Как это обычно реализуют? В pipeline добавляют самописную функцию?

источник

09:12пожаловаться #16

IU

Ivan Uvarov in Python для анализа данных

Всем привет! Подскажите, пожалуйста, есть ли какие то библиотеки, с помощью которых можно расставить знаки препинания в тексте на русском языке?

источник

13:22пожаловаться #17

S

Slavik in Python для анализа данных

Еще вопрос....а как-то можно прописать логику, чтобы у меня все что в ячейке на кириллице собиралось в отдельный список? По количеству слов настроить не смогу, так как количество слов на кириллице всегда разное

источник

15:25пожаловаться #18

KM

Konstantin Mohov in Python для анализа данных

регулярка поможет и apply по столбцу. но работать долго будет

источник

15:26пожаловаться #19

S

Slavik in Python для анализа данных

Konstantin Mohov

регулярка поможет и apply по столбцу. но работать долго будет

ага, что-то типо лемматизатора найти и с применением apply в отдельный столбец

источник

15:27пожаловаться #20