Size: a a a

Python для анализа данных

2021 September 02

PZ

Pavel Zheltouhov in Python для анализа данных
тогда не надо. это для случай когда вы захотите написать собственный язык программирования
источник

AG

Alexey Gibadullin in Python для анализа данных
Вообще для меня это новое (недавно изучаю Питон), поэтому буду признателен за любую информацию
источник

PZ

Pavel Zheltouhov in Python для анализа данных
попробуйте:
str.split()
регулярные выражения
pd.reads_csv()
источник

AG

Alexey Gibadullin in Python для анализа данных
т.е. могу просто спарсить данные через регулярные выражения?
В данном случае задание необходимо выполнить без применения Pandas, с ним, как мне кажется, было бы конечно проще
источник

PZ

Pavel Zheltouhov in Python для анализа данных
от данных зависит. попробуйте с регулярками.
источник

IS

Ilya Shutov in Python для анализа данных
Алексей, тут вот какое дело.
Теме регулярок уже лет 50 и там все дочищено до блеска.
Питон к регуляркам имеет такое же отношение, как и все другие языки — ровно никакого.

Большие и очень большие объемы надо парсить на этапе подготовки и лучше это делать вообще вовне DS. Малые объемы легко закрываются регулярками внутри даже базовыми функциями.
использовать библиотеки и синтаксис, отличный от штатных регулярок — загонять себя в тупик.

читайте классику https://www.labirint.ru/books/647977/
источник

NC

Nick Cat in Python для анализа данных
а правда книга хороша? там в комментариях вон вовсю ругаются на опечатки. и ладно в словах, но опечатки в самих регулярках..
источник

IS

Ilya Shutov in Python для анализа данных
я читаю оригиналы.
переводы все часто хромают
источник

IS

Ilya Shutov in Python для анализа данных
это неустаревающая классика
источник

IS

Ilya Shutov in Python для анализа данных
источник

IS

Ilya Shutov in Python для анализа данных
и не используете "левых" библиотек и пакетов кроме стандартов и системных движков.
это гарантирует вам почти бесшовную портируемость логики процессинга на любую другую платформу, хоть в базу опустить
источник

AG

Alexey Gibadullin in Python для анализа данных
Большое спасибо всем!
источник

IS

Ilya Shutov in Python для анализа данных
и не слушайте избитую фразу https://qastack.ru/software/223634/what-is-meant-by-now-you-have-two-problems.

грамотно написанная регулярка избавляет от проблем на раз-два.
просто надо досконально владеть своими инструментами, а не выдавать свою неосведомленность как непреложный факт кривизны подхода.

Нытье Незнаек, угробивших автомобиль, ничего кроме тоски и зубной боли не вызывает. Читайте классиков и успешных людей, желательно в оригинале.
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Так че там с jq ? кто-нибудь внедрил уже?
источник

IS

Ilya Shutov in Python для анализа данных
источник

IS

Ilya Shutov in Python для анализа данных
источник

IS

Ilya Shutov in Python для анализа данных
Павел, а если не секрет, то почему "внедрил"?
Что именно под внедрением подразумевается?

Может "начал фрагментарно использовать?"
Это такой же микроинструмент для определенного класса задач, как итераторы или регулярки.
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Ну типа, не начали ли использовать библиотеку jq вследствии вашей рекламы и куда их послали с этим коллеги.
Регулярки - стандарт индустрии. А вот с jq не все так однозначно. Особенно при отсутсвии необходимости лопатить гигабайты .
источник

IS

Ilya Shutov in Python для анализа данных
лаконичность — способ сокращения ошибок.
jq позволяет это сделать феерично, демо были выше.
с гигабайтами это свойство ортогонально.

и при чем здесь неоднозначность?
четыре лапы есть? шерсть есть? молоко пьет? мурлычет? считаем котом и дальше не копаем, дерево поиска коллапсируем.
источник

PZ

Pavel Zheltouhov in Python для анализа данных
Ну просто выше было так же демо того, что тут задачу и так уже давно порешали с приемлемой скоростью.
источник