Size: a a a

Python для анализа данных

2019 October 21

НД

Новиков Дмитрий... in Python для анализа данных
А под правилами, что вы имеете ввиду ? Просто эвристику какую то?
источник

AP

Andrey Pushvitsev in Python для анализа данных
Новиков Дмитрий
А под правилами, что вы имеете ввиду ? Просто эвристику какую то?
да, типа если встречается слово "авто", то присваивать категории  "автомобили", "автотранспорт", "машины" — просто не знаю, какие там категории, может быть по одному правилу можно относить к куче категорий сразу
источник

НД

Новиков Дмитрий... in Python для анализа данных
Andrey Pushvitsev
да, типа если встречается слово "авто", то присваивать категории  "автомобили", "автотранспорт", "машины" — просто не знаю, какие там категории, может быть по одному правилу можно относить к куче категорий сразу
Ну да это первое из из мыслей было, тут нужно строить дополнительно таблицу синонимов
источник

PN

Pavel Niki in Python для анализа данных
Сергей Ильин
еще один опрос по VL:
1/ есть датасет, в котором первые два столбца - тема письма и текст, третий - категория. Нужно научить модель определять категорию. Вопрос, правильно ли выбран путь и, если нет, то чем дополнить:

1/ привести все имеющиеся значения в ячейках к lower (чтобы не было влияния строчных-заглавных букв)
2/ в столбце, который предстоит предсказывать, проиндексировать все уникальные значения, чтобы передавать не текстовое представление, а его индекс
3/ слова в столбцах, на основании которых будем предсказывать (features), превратить в векторы

как я понимаю, все это относится к чистке данных.

потом уже полученные вектора скормить кэтбусту или xgboost.
Здесь мне кажется задача больше для NLP подходит. Посмотрите в сторону BERT 🤷‍♂️(ИМХО)
источник

Е

Евгений in Python для анализа данных
Господа, а кто-нибудь парсил цены с Aliexpress? Почему-то не могу отловить нужный класс с Beautifulsoup, отдается пустой массив
источник

D

Daria Alexeenko in Python для анализа данных
Евгений
Господа, а кто-нибудь парсил цены с Aliexpress? Почему-то не могу отловить нужный класс с Beautifulsoup, отдается пустой массив
посмотри кучу готовых парсеров на гитхабе
источник
2019 October 22

Т

Татьяна in Python для анализа данных
Vlad Nykytenko
Привет!
А не подскажите, какой-нибудь гайд по стримингу данных из ГА в BQ?
Вот есть скрипт https://t.me/BigQuery/213
источник

OA

Oleg Agapov in Python для анализа данных
Новый день - новая балалайка на питоне для анализа данных 🙂
Тулза позволяет строить интерактивные веб-дашборды и неплохо интегрирована с пандас. Похоже на Dash, но ощущается гораздо проще

https://towardsdatascience.com/coding-ml-tools-like-you-code-ml-models-ddba3357eace
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Привет! Скажите, пж, как сделать такую трансформацию?

A column                                 value
['a']                                              100
['c', 'd', 'f']                                  250
['g', 't']                                        300

Нужно превратить в это

a     100
c      250
d     250
f      250
g     300
t     300

Сделал, через циклы, но код на 100 строк получается, сделал через мелт, значение пропускает, возможно, есть какой-то быстрый вариантик или позже

Инструкции через мелт
https://www.mikulskibartosz.name/how-to-split-a-list-inside-a-dataframe-cell-into-rows-in-pandas/

Скрин как делал через циклы
источник

АМ

Алексей Макаров... in Python для анализа данных
Владислав Литвинюк
Привет! Скажите, пж, как сделать такую трансформацию?

A column                                 value
['a']                                              100
['c', 'd', 'f']                                  250
['g', 't']                                        300

Нужно превратить в это

a     100
c      250
d     250
f      250
g     300
t     300

Сделал, через циклы, но код на 100 строк получается, сделал через мелт, значение пропускает, возможно, есть какой-то быстрый вариантик или позже

Инструкции через мелт
https://www.mikulskibartosz.name/how-to-split-a-list-inside-a-dataframe-cell-into-rows-in-pandas/

Скрин как делал через циклы
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Спасибо большое
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
не перестает поражать пандас
источник

АМ

Алексей Макаров... in Python для анализа данных
Да, с pandas всегда история, что только начнешь городить костыль, как тут же оказывается, что уже есть что-то нативное на замену своему костылю)
источник

ВЛ

Владислав Литвинюк... in Python для анализа данных
Алексей Макаров
Да, с pandas всегда история, что только начнешь городить костыль, как тут же оказывается, что уже есть что-то нативное на замену своему костылю)
ну, хоть через костыль можно пояснить, что хочешь сделать на пандас))
источник

OA

Oleg Agapov in Python для анализа данных
Только это с pandas 0.25 доступно. я недавно на 0.22 такое же делал, там конечно немного морочиться надо
источник

АМ

Алексей Макаров... in Python для анализа данных
Я раньше делал это вот так pd.DataFrame(df['Array'].to_list(),index=df.index).stack().reset_index(level=1,drop=True).reset_index(name='ExplodedArray').join(df,on='index')
источник

АМ

Алексей Макаров... in Python для анализа данных
Сейчас смотрю на это и думаю "что за ад"
источник

OA

Oleg Agapov in Python для анализа данных
Алексей Макаров
Сейчас смотрю на это и думаю "что за ад"
Во-во ))
источник

P

Peter in Python для анализа данных
Всем привет. Есть задача - посчитать количество пользователей, у которых была определенная последовательность событий, не учитывая влеты других событий и дубли. Те надо уловить основную последовательность, игнорируя все остальные события.

Пример:  нас интересует последовательность из событий 1 2 и 3, у пользователя такая последовательность 13312212311, в нее входит последовательность из событий 1,2,3 -> пользователь соответствует условию.
источник

P

Peter in Python для анализа данных
Может кто-то решал похожую задачу)
источник