Size: a a a

Python для анализа данных

2021 September 23

IS

Ilya Shutov in Python для анализа данных
Всеми руками поддержу.

Был вопрос "куда копать".
Был дан ответ ровно на этот вопрос.
Западные коллеги с ImageNet такие штуки клепают десятками в неделю.

Но нет ведь... камни какие-то искать...
Всем мы понимаем, что на самом деле была скрытая просьба "сделайте за меня, плз".
источник

R

Rustam in Python для анализа данных
я помню как то пытался поработать с пдф через python у меня проблема была, что не каждый документ в принципе нормально считывался,  использовал даже разные библиотеки, в чем могла быть разница так и не понял.
ну это правда из любопытства пробовал особо не копал
источник

LS

Leonid Slavutin in Python для анализа данных
Добрый день всем. Подскажите пожалуйста с вопросом.
Я никогда не работал раньше с pandas, поэтому мб вопрос лёгкий, но все таки

Мне нужно посчитать количество уникальных строк где уровень больше 10.
Как в пандасе обратиться к столбцу, но только к числовому значению?
Пробовал так, но не получается
источник

LS

Leonid Slavutin in Python для анализа данных
источник

OO

Oleg Omelchenko in Python для анализа данных
если верно понял, у вас сейчас в столбце датафрейма, который вы хотите пофильтровать, каждая строчка содержит словарь?
Если так, то вам перед созданием датафрейма нужно обработать данные так чтобы вынести числовые значения в столбец
источник

TG

Tony Gogin in Python для анализа данных
источник

AD

Alexander Dergilev in Python для анализа данных
да не, все ок. спасибо
источник

Е

Евгений in Python для анализа данных
Гайз, привет! Подскажите, мне нужно забрать данные из CSV через питон, но некоторые ячейки могут быть пустые, питон определяет эти ячейки как NAN (точней данные в ячейках), скажите, можно как то открыть CSV через pandas но сразу задать условие если ячейки пустые ставь Null ?
источник

ND

Natalya Davydova in Python для анализа данных
а чем не подходит df.fillna() для считанного датасета?
источник

Е

Евгений in Python для анализа данных
Да, уже нашел. спасибо большое!)
источник

H

HK416 140316 in Python для анализа данных
df.fillna(df.mean())
Если не ошибаюсь, сразу заполнить на среднюю
источник

Е

Евгений in Python для анализа данных
При открытии CSV указав параметр keep_default_na=False он сразу открывает документ с пустыми ячейками
источник

КД

Кирилл Дмитриевич... in Python для анализа данных
Всем привет. Подскажите, как такое возможно?
источник

АМ

Алексей Макаров... in Python для анализа данных
Нужно использовать .str.replace() вместо .replace()

Метод .replace() используется для замены значений в Series или DataFrame. Метод .str.replace() для замены символов внутри строк
источник

АМ

Алексей Макаров... in Python для анализа данных
Ребята, Практикум запускает в скором времени курс про data engineering, так что если вам есть чем поделиться по этой теме, вы хотите на этом подзаработать и прокачаться в создании образовательного контента — милости прошу

Вот тут написал подробнее длинную телегу про наши цели

Откликаться можно по ссылке или написать нашему HR Ире @ira_kozlikina

P.S.: Это не запись видеолекций, а кропотливая работа над контентом вместе с редакторами и методистами
источник
2021 September 24

SS

Sergey Svetlov in Python для анализа данных
У вас после сплита в [1], как минимум, осталась '}' в конце. Берите split[1][:-1]
источник

T

Tishka17 in Python для анализа данных
выглядит как json
источник

A

Alexander in Python для анализа данных
ну если структура не меняется, то как выше посоветовали. а так, можно через re.findall() в apply() и любую цифру в регулярку
источник

D

Denis in Python для анализа данных
Вопрос знатокам. Перевожу скрипт питона в .exe через pyinstaller на Win64, а он весит 55 мб да еще и запускается пару минут, хотя в скрипте менее 50 строк.

Подозреваю, что компилятор запихивает в exe всю pandas.

Как сделать размер меньше, а работу . exe такой же быстрой как при запуске скрипта в интерпретаторе?
источник

R

Rustam in Python для анализа данных
pandas большая библиотека, как вариант импортировать через from только то что нужно.
я делал программу  на 300 мб не скажу, что скорость обработки значительно падала.
источник