Size: a a a

Python для анализа данных

2021 October 07

AE

Aleksandr Emoteview in Python для анализа данных
Добрый вечер.
Если в строке[0], в колонке с именем "чай" есть надпись "жидкий" - выпить. Если "сухой" - заварить.
Удалить строку.
Вернутся снова к проверке следующей "первой" строки.
Как в пандах ифы работают в такой ситуации?
источник

О

Оксана Лёвкина... in Python для анализа данных
Может, я чего-то не понимаю, но при чем здесь ифы? Вы же в цикле остаётесь/работаете. Вот внутри ифа вы не увеличиваете индекс "первой" строки, иначе увеличиваете и работаете со следующей строкой. Нет?
источник

aa

artem a in Python для анализа данных
если только для нулевой строки, то df.iloc[0] и все как обычно. Если для всех строк, то уже векторная операция и тут есть разные варианты
источник

AE

Aleksandr Emoteview in Python для анализа данных
Вероятно не увеличиваю, если я правильно понял вопрос. Я хочу в df проверить первую строку по условию, обработать, удалить её. Следующая за ней становится первой и так до полного исчерпания строк в датафрейме
источник

AE

Aleksandr Emoteview in Python для анализа данных
выглядит понятно, попробую, спасибо
источник

aa

artem a in Python для анализа данных
тут лучше не удалять построчно, отфильтровать, например через apply:
df=df[df.apply(dont_delete,axis=1)]
тут в df.apply() построчно применяется функция dont_delete, которая на вход принимает series (пандасовский словарь если по простому) и на выходе говорит оставить строку или нет
в итоге получается столбец решений для каждой из строк, далее этот столбец используется для фильтрации
источник

AE

Aleksandr Emoteview in Python для анализа данных
спасибо, и с этим начал разбираться
источник

К

Карась судьбы... in Python для анализа данных
Добрый вечер, кто-нибудь может подсказать как лучше поступить? Есть два датасета. 1ый (это наш X_train) содержит данные собранные за каждый час с 10 датчиков влажности. 2ой (y_train) состоит из двух колонок время измерения (следующий день после 24 измерений влажности) и значение параметра, на который влияет влажность. В 1ом датасете  первые 24 измерения это соответственно 1 проба, след 24 - 2 проба и тд. Необходимо обучить модель, чтобы она предсказывала значение нужного нам параметра по результатам суточного мониторинга. Самое простое, что можно сделать это сгруппировать данные в X_train по 24 часа и усреднить показатели для каждого датчика, а далее уже по классике fit-predict'ить. Но с другой стороны возможно ли как-то сгруппировать данные для дальнейшего обучения без усреднения, но чтоб на выходе у нас был файл в таком же формате как y_train, т.е. День измерения - Значение предсказанное на основе 24х измерений влажности?
источник

PZ

Pavel Zheltouhov in Python для анализа данных
1. почему вместо описания сути процесса и предполагаемых взаимосвязей, мы наблюдаем какие-то отвлеченные упоминания fit и predict?
2. это учебная задача?
источник

К

Карась судьбы... in Python для анализа данных
2. Да, это учебная задача.
1. Суть процесса в том, что есть образцы, для которых измеряется влажность в течении суток, затем проводится тестирование другого параметра, который зависит от этой влажности(тест занимает длительное время). Нужно показать, что мы можем с определённой точностью предсказывать значения параметра без проведения долгого теста.
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Ну хорошо раз учебная. Значит это не бизнес такой дурной.
Ответы на эти вопросы можно узнать путем  экспериментов и пр визуализаций.
в задаче специально умолчали чтобы вы всем этим позанимались.
источник

PZ

Pavel Zheltouhov in Python для анализа данных
можно, конечно, порассуждать о том, что xgboost или нейросеть может обучиться  любой  закономерности достаточно широко представленной в данных
источник

К

Карась судьбы... in Python для анализа данных
Да мне просто нужно понять проще ли сгруппировать и усреднить данные для обучения или можно как-то красиво их сгруппировать и подать в модель, чтоб она понимала, что нужно предсказывать по 24 значениям, а не одному
источник

К

Карась судьбы... in Python для анализа данных
Знакомый сказал, что в R подобное можно сделать при помощи nested table
источник

M

Mikhail in Python для анализа данных
зачем пандас для этого? положите в список и делайте while len(L) > 0: item = L.pop(0); ...
источник

IS

Ilya Shutov in Python для анализа данных
что здесь вообще происходит? зачем удалять?

такие штуки называются итераторами.
по ним гонится функция с side эффектом.
источник
2021 October 08

D

Dinopi in Python для анализа данных
Панимаю
источник

VP

Vladimir Popov in Python для анализа данных
админы
источник

VP

Vladimir Popov in Python для анализа данных
В атаку
источник

MG

Ménestrel Germinal in Python для анализа данных
Привет всем🙃
Помогите, пожалуйста, подключить google analytics к телеграм боту.

Есть сценарий:
пользователь из бота делает действие (нажатие на кнопку) –> кидаем в обработчик и как только в этот обработчик вызвался –> нужно отправить событие в GA с определёнными параметрами


Как этот запрос должен выглядить в python-коде?
источник