Size: a a a

Python для анализа данных

2021 October 14

AD

Andrew Dakhnovsky in Python для анализа данных
то что ты описал называется бекенд
и немного фронта - это там где формочки для юзера
источник

VM

Valerii Mamontov in Python для анализа данных
У метода fillna есть дополнительные параметры. Например, пропуски можно заполнить значениями из предыдущей строки/столбца.
источник

@

@RAM@ in Python для анализа данных
👍
источник

МК

Максим Коротченков... in Python для анализа данных
о, интересно, а как он понимает, что нужно дублировать именно столбец amount_paid?
источник

@

@RAM@ in Python для анализа данных
Соседний слева столбец
источник

МК

Максим Коротченков... in Python для анализа данных
На это указывает method=ffill?
источник

VM

Valerii Mamontov in Python для анализа данных
В таких случаях я использую виртуальное окружение - venv или virtualenv.
источник

@

@RAM@ in Python для анализа данных
ffill это и есть метод заполнения значениями из соседнего столбца
источник

VM

Valerii Mamontov in Python для анализа данных
В документации полно примеров.
источник

МК

Максим Коротченков... in Python для анализа данных
Хорошо, спасибо, это то что искал, просто и лаконично)
источник

DP

Danilo Podlesniy-Sub... in Python для анализа данных
Да, я делал virtualenv только для  Django. Придется пойти этим путём...)
источник

aa

artem a in Python для анализа данных
Держи, когда то делал аналог постгрессовой коалесце
def coalesce(*args):
   for arg in args:
       if pd.notna(arg):
           return arg
   return np.nan
Если долго работает, значит слишком много данных, тут тормозить особо нечему
Тогда можно рассмотреть векторные операции - они быстрее.
Или например  через loc
df.loc[df.a.notna(),'c']=df.loc[df.a.notna(),'c'].a # Проверка первого столбца
df.loc[df.c.isna(),'c']=df.loc[df.c.isna(),'c'].b # подставляем второй
df.loc[df.c.isna(),'c']=default_value # Дефолтное значение, если оба значения пусты
источник

IS

Ilya Shutov in Python для анализа данных
такая простая штука в БД называется "COALESCE".
Можно почитать про 100500 вариантов здесь:
https://kanoki.org/2019/08/17/pandas-coalesce-replace-value-from-another-column/

ffill — один из вариантов.
Наверное, наиболее компактный.

import pandas as pd
import numpy as np

# Coalesce
df = pd.DataFrame({
   'Hourly Rate': [20, 30, np.nan, 28, np.nan, 17, np.nan,22, 32],
   'Daily Rate': [72, 74,65,80, 74, np.nan, 67,82,75]})
df

df.ffill(axis = 1)
источник

1

1 in Python для анализа данных
Ребята, всем привет!
Подскажите, пожалуйста.

Есть диалог в формате json (от туда можно вытащить reply, id сообщения и т.д.)
Задача такая: из этого диалога вытащить логические цепочки и как-нибудь это визуализировать.
Логические цепочки я вытащил для начала по reply (т.е. кто на какое сообщение ответил), но проблема в том, что обсуждение могло идти по этой теме, но reply не было. И я вот думаю, как добавить в цеочку эти сообщения. Ну 1 - времени (если например рядом сообщение и в течение 3 минут), то добавляем к этой цепочке + может какую-то мл подключить, что посоветуете?
Далее я хочу составить дерево (т.е. по id сообщению и разветвление по темам и т.д.). Вот у меня сейчас проблема с визуализацией. КТо подскажет, как сделать картинку из дерева (или словаря)
Сейчас остановился на том, что вытаскиваю все реплики из чата
Кто, что подскажет.
Спасибо
источник

IS

Ilya Shutov in Python для анализа данных
Эта тематика называется  "process mining".
Зачинщик — http://www.padsweb.rwth-aachen.de/wvdaalst/

как можно что-то ручками делать есть масса примеров.
я давно кратко писал ответ на похожий вопрос здесь: https://habr.com/ru/post/461463/
источник

МК

Максим Коротченков... in Python для анализа данных
спасибо за ликбез)
источник

PZ

Pavel Zheltouhov in Python для анализа данных
что-то не очень понятно.
вопрос (на мой взгляд) простой и понятный:  как обработать лог чата  и найти цепочки обсуждений там где они есть, но их нет
источник

PZ

Pavel Zheltouhov in Python для анализа данных
вот у этого сообщения связь как бы есть, но ее нет.
нужна эвристика. в целях навернуть потом поверх NLP оптимизированный для достаточно больших текстов
источник

1

1 in Python для анализа данных
Да, да я об  это как раз) Спасибо)
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Причем  цепочки могут составлять разные одновременно конкурирующие обсуждения.
источник