Size: a a a

Python для анализа данных

2021 March 29

S

Slavik in Python для анализа данных
Ребята, а как в отдельный список записать все что в скобочках находится?
источник

3

3ldar in Python для анализа данных
Slavik
Ребята, а как в отдельный список записать все что в скобочках находится?
источник

S

Slavik in Python для анализа данных
от души
источник

I

Igor in Python для анализа данных
Artemy Pugachev
Как это лучше сделать? Через различные вариации groupby.cumcount не получается
В голову только приходит такое:
-делаешь crosstab, где колонками выступают значения из age_brackets с функцией count
ct=pd.crosstab(index='reg-dttm', columns='age_bruckets', aggfunc='count').sort_index()
-ct.cumsum()
источник

I

Igor in Python для анализа данных
Но, возможно, есть лучше варианты))
источник
2021 March 30

IS

Ivan Samorukov in Python для анализа данных
Всем привет! Делаю прогонку модели по разным наборам признаков. Получается, что модели с лучшими метриками хуже чувствуют суть физического процесса. А модели с худшими метриками неплохо понимают процесс, но имеют сдвиг влево. Вечная отрицательная ошибка. Интуитивно кажется, что можно как-то сдвинуть модель вправо. Но как это сделать я не понимаю. Подскажите, пожалуйста, в какую сторону рыть дальше
источник

IS

Ivan Samorukov in Python для анализа данных
источник

IS

Ivan Samorukov in Python для анализа данных
источник

AK

Alex K in Python для анализа данных
Можно как-нить проще избавиться от date и получить сумму по всем датам в df?
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Ivan Samorukov
Всем привет! Делаю прогонку модели по разным наборам признаков. Получается, что модели с лучшими метриками хуже чувствуют суть физического процесса. А модели с худшими метриками неплохо понимают процесс, но имеют сдвиг влево. Вечная отрицательная ошибка. Интуитивно кажется, что можно как-то сдвинуть модель вправо. Но как это сделать я не понимаю. Подскажите, пожалуйста, в какую сторону рыть дальше
Очевидно, что сдвиг обусловлен сутью алгоритма, а вы его даже не назвали
источник

IS

Ivan Samorukov in Python для анализа данных
Pavel Zheltouhov
Очевидно, что сдвиг обусловлен сутью алгоритма, а вы его даже не назвали
Алгоритм во всех моделях один. Менял только группы признаков. Модель ElasticNet
источник

PZ

Pavel Zheltouhov in Python для анализа данных
По-моему, совсем не интуитивно сдвинуть влево. Ведь это означает нужно лучше понять суть процесса и отреагировать раньше
источник

PZ

Pavel Zheltouhov in Python для анализа данных
А. Так надо вправо, то есть замедлить реакцию.
источник

PZ

Pavel Zheltouhov in Python для анализа данных
А почему линейная регрессия вообще должна отображать суть процесса? Может тут выгоднее понять процесс , вывести вручную формулы и подобрать уже scipy.optimize.curve_fit?
источник

IS

Ivan Samorukov in Python для анализа данных
Изначально я строил просто baseline на линреге. В итоге получил результаты, которые меня устраивают и решил оптимизировать именно линейную регрессию. Зависимости известны. Но они достаточно сложны для описания парой формул
источник

IS

Ivan Samorukov in Python для анализа данных
Pavel Zheltouhov
А почему линейная регрессия вообще должна отображать суть процесса? Может тут выгоднее понять процесс , вывести вручную формулы и подобрать уже scipy.optimize.curve_fit?
Суть процесса я понимаю. Можно какую-то функцию найти под признаки, которые наиболее сильно влияют, приближающую прогноз к факту. Просто я никогда с таким не сталкивался. Как это обычно реализуют? В pipeline добавляют самописную функцию?
источник

IU

Ivan Uvarov in Python для анализа данных
Всем привет! Подскажите, пожалуйста, есть ли какие то библиотеки, с помощью которых можно расставить знаки препинания в тексте на русском языке?
источник

S

Slavik in Python для анализа данных
Еще вопрос....а как-то можно прописать логику, чтобы у меня все что в ячейке на кириллице собиралось в отдельный список?  По количеству слов настроить не смогу, так как количество слов на кириллице всегда разное
источник

KM

Konstantin Mohov in Python для анализа данных
регулярка поможет и apply по столбцу. но работать долго будет
источник

S

Slavik in Python для анализа данных
Konstantin Mohov
регулярка поможет и apply по столбцу. но работать долго будет
ага, что-то типо лемматизатора найти и с применением apply в отдельный столбец
источник