Size: a a a

Python для анализа данных

2019 October 22

А

Алексей in Python для анализа данных
Хочется использовать много циклов в циклах,  но вроде задача должна решаться через поиск регулярных выражений
источник

AV

Alex Vladimirovich in Python для анализа данных
Привет 👋 закодировать символами и поиск подстроки
источник

АМ

Алексей Макаров... in Python для анализа данных
А может дропнуть дубликаты в рамках каждого пользователя, потом сделать сортировку по идентификатору события, а потом сделать через лямбду групбай по пользователям, у которого на выходе будет конкатенированная строка из идентификаторов событий?
источник

P

Peter in Python для анализа данных
Алексей
Хочется использовать много циклов в циклах,  но вроде задача должна решаться через поиск регулярных выражений
отличная идея, надо погуглить как в regex с последовательностями
источник

P

Peter in Python для анализа данных
Alex Vladimirovich
Привет 👋 закодировать символами и поиск подстроки
Привет, так не подойдет, между последовательностями есть другие события
источник

АМ

Алексей Макаров... in Python для анализа данных
Алексей Макаров
А может дропнуть дубликаты в рамках каждого пользователя, потом сделать сортировку по идентификатору события, а потом сделать через лямбду групбай по пользователям, у которого на выходе будет конкатенированная строка из идентификаторов событий?
И тогда не составит труда потом сделать поиск подстроки 123
источник

P

Peter in Python для анализа данных
Алексей Макаров
А может дропнуть дубликаты в рамках каждого пользователя, потом сделать сортировку по идентификатору события, а потом сделать через лямбду групбай по пользователям, у которого на выходе будет конкатенированная строка из идентификаторов событий?
дропать дубликаты нельзя, тк необходимые события могут стоять в разных местах строки
источник

P

Peter in Python для анализа данных
Peter
Всем привет. Есть задача - посчитать количество пользователей, у которых была определенная последовательность событий, не учитывая влеты других событий и дубли. Те надо уловить основную последовательность, игнорируя все остальные события.

Пример:  нас интересует последовательность из событий 1 2 и 3, у пользователя такая последовательность 13312212311, в нее входит последовательность из событий 1,2,3 -> пользователь соответствует условию.
Как пример из условия 13312212311 - дропаем дубликаты, получаем 132. Последовательности из событий 123 уже не соответствует
источник

AV

Alex Vladimirovich in Python для анализа данных
^(?:[^1]*)1(?:[^2]*)2(?:[^3]*)3(?:.*)$
источник

P

Peter in Python для анализа данных
Alex Vladimirovich
^(?:[^1]*)1(?:[^2]*)2(?:[^3]*)3(?:.*)$
работает, благодарю!💪
источник

AV

Alex Vladimirovich in Python для анализа данных
да, удачи, я тоже уже проверил)
источник

AV

Alex Vladimirovich in Python для анализа данных
источник

OO

Oleg Omelchenko in Python для анализа данных
я еще regex101.com юзаю кстати
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Можно как-то объеденить все столбцы через разделитель, например "|", чтобы в итоге вышло так?

вира | артстрой
вира | артстрой | отзыв
ремонт | в | нормандском | стиль
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Пробовал добавить np.nan, чтобы проигнорило, но возвращает одни наны
источник

А

Алексей in Python для анализа данных
Владислав Литвинюк
Можно как-то объеденить все столбцы через разделитель, например "|", чтобы в итоге вышло так?

вира | артстрой
вира | артстрой | отзыв
ремонт | в | нормандском | стиль
Все в одном столбце?
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
ответ, нашел, почему- то раньше не могу загуглить
df.apply(lambda x: '*'.join(x.dropna().astype(str).values), axis=1)
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Алексей
Все в одном столбце?
да
источник

А

Алексей in Python для анализа данных
Ну да, через apply
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
правда, он что-то долгий
источник