Телеграмм чат группы pydata

Держи, когда то делал аналог постгрессовой коалесце
def coalesce(*args):
for arg in args:
if pd.notna(arg):
return arg
return np.nan
Если долго работает, значит слишком много данных, тут тормозить особо нечему
Тогда можно рассмотреть векторные операции - они быстрее.
Или например через loc
df.loc[df.a.notna(),'c']=df.loc[df.a.notna(),'c'].a # Проверка первого столбца
df.loc[df.c.isna(),'c']=df.loc[df.c.isna(),'c'].b # подставляем второй
df.loc[df.c.isna(),'c']=default_value # Дефолтное значение, если оба значения пусты

источник

16:00пожаловаться #12

Ilya Shutov in Python для анализа данных

такая простая штука в БД называется "COALESCE".
Можно почитать про 100500 вариантов здесь:
https://kanoki.org/2019/08/17/pandas-coalesce-replace-value-from-another-column/

ffill — один из вариантов.
Наверное, наиболее компактный.

import pandas as pd
import numpy as np

# Coalesce
df = pd.DataFrame({
    'Hourly Rate': [20, 30, np.nan, 28, np.nan, 17, np.nan,22, 32],
    'Daily Rate': [72, 74,65,80, 74, np.nan, 67,82,75]})
df

df.ffill(axis = 1)

kanoki

Pandas Coalesce - How to Replace NaN values in a dataframe

In this post we will discuss on how to use fillna function and how to use SQL coalesce function with Pandas, For those who doesn’t know about coalesce function, it is used to replace the null values in a column with other column values. Also in some cases you want to create a new column with values filled-in from another column and if any of the values are null in that column then it should be replaced by the next column value. I think after going through the below examples it will be more clear on how and when to use the Coalesce Function.

источник

16:05пожаловаться #13

1 in Python для анализа данных

Ребята, всем привет!
Подскажите, пожалуйста.

Есть диалог в формате json (от туда можно вытащить reply, id сообщения и т.д.)
Задача такая: из этого диалога вытащить логические цепочки и как-нибудь это визуализировать.
Логические цепочки я вытащил для начала по reply (т.е. кто на какое сообщение ответил), но проблема в том, что обсуждение могло идти по этой теме, но reply не было. И я вот думаю, как добавить в цеочку эти сообщения. Ну 1 - времени (если например рядом сообщение и в течение 3 минут), то добавляем к этой цепочке + может какую-то мл подключить, что посоветуете?
Далее я хочу составить дерево (т.е. по id сообщению и разветвление по темам и т.д.). Вот у меня сейчас проблема с визуализацией. КТо подскажет, как сделать картинку из дерева (или словаря)
Сейчас остановился на том, что вытаскиваю все реплики из чата
Кто, что подскажет.
Спасибо

источник

16:14пожаловаться #14

Ilya Shutov in Python для анализа данных

Эта тематика называется "process mining".
Зачинщик — http://www.padsweb.rwth-aachen.de/wvdaalst/

как можно что-то ручками делать есть масса примеров.
я давно кратко писал ответ на похожий вопрос здесь: https://habr.com/ru/post/461463/

Хабр

Бизнес-процессы в enterprise компаниях: домыслы и реальность. Проливаем свет с помощью R

Краткая заметка по теме business process mining в контексте роста интереса к концепции "digital twin". В силу периодического выплывания этой темы считаю целесооб...

источник

16:21пожаловаться #15

МК

Максим Коротченков... in Python для анализа данных

спасибо за ликбез)

источник

16:21пожаловаться #16

Pavel Zheltouhov in Python для анализа данных

что-то не очень понятно.
вопрос (на мой взгляд) простой и понятный: как обработать лог чата и найти цепочки обсуждений там где они есть, но их нет

источник

16:25пожаловаться #17

Pavel Zheltouhov in Python для анализа данных

вот у этого сообщения связь как бы есть, но ее нет.
нужна эвристика. в целях навернуть потом поверх NLP оптимизированный для достаточно больших текстов

источник

16:27пожаловаться #18

1 in Python для анализа данных

Да, да я об это как раз) Спасибо)

источник

16:27пожаловаться #19

Pavel Zheltouhov in Python для анализа данных

Причем цепочки могут составлять разные одновременно конкурирующие обсуждения.

источник

16:28пожаловаться #20