Size: a a a

Python для анализа данных

2021 March 24

3

3ldar in Python для анализа данных
Нужно просто привести к необходимому виду
источник

AK

Alex K in Python для анализа данных
получается что при создании df надо иметь все индексы и после уже не добавить при варианте с мультииндексом?
Вроде при обычном индексе по другому, если я правильно понимаю своим нубовым умом
источник

3

3ldar in Python для анализа данных
Не самое элегантное. Можно лучше
источник

3

3ldar in Python для анализа данных
источник

AK

Alex K in Python для анализа данных
Сложно так с ним. Понял
источник

ЛЭ

Лазизбек Эргашев 🤪... in Python для анализа данных
Привет. Для решения университетской задачи мне нужен специалист по библиотеке Keras, напишите, если сможете, скажи стоимость тоже
источник

AK

Alex K in Python для анализа данных
что-то тип такого, но чтоб первый индекс тоже не создавать
источник

T

Tishka17 in Python для анализа данных
$ tesseract all.tif letters.box nobatch box.train   
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Page 1
Error during processing.

что я делаю не так? и как узнать подробнее в чем дело? хочу обучить тессеракт на своих картинках
источник

АР

Александр Райков... in Python для анализа данных
В панде же есть встроенный метод подсчёта кумуляты по столбцу?
источник

T

Tishka17 in Python для анализа данных
Tishka17
$ tesseract all.tif letters.box nobatch box.train   
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Page 1
Error during processing.

что я делаю не так? и как узнать подробнее в чем дело? хочу обучить тессеракт на своих картинках
окей, я не учел начало координато внизу. Однако все равно не работает
...
APPLY_BOXES: boxfile line 68/O ((2154,42),(2166,55)): FAILURE! Couldn't find a matching blob
FAIL!
APPLY_BOXES: boxfile line 69/S ((2187,43),(2196,53)): FAILURE! Couldn't find a matching blob
FAIL!
APPLY_BOXES: boxfile line 76/H ((2408,37),(2424,60)): FAILURE! Couldn't find a matching blob
APPLY_BOXES:
  Boxes read from boxfile:      76
  Boxes failed resegmentation:      66
  Found 10 good blobs.
Generated training data for 9 words
источник

T

Tishka17 in Python для анализа данных
Я не очень понимаю о каких "словах" идет речь в box файле, например тут https://www.endpoint.com/blog/2018/07/09/training-tesseract-models-from-scratch
источник

AD

Andrew Dakhnovsky in Python для анализа данных
Александр Райков
В панде же есть встроенный метод подсчёта кумуляты по столбцу?
cumsum штоле?
источник

VR

Vasily Rozhkov in Python для анализа данных
Andrew Dakhnovsky
cumsum штоле?
+
axis=0
источник

LK

Lyubov K. in Python для анализа данных
Привет! Подскажите как можно с обработкой большого сета справиться?
Pandas ядро умирает через пару операций
Dask не подошёл
источник

3

3ldar in Python для анализа данных
Lyubov K.
Привет! Подскажите как можно с обработкой большого сета справиться?
Pandas ядро умирает через пару операций
Dask не подошёл
vaex?
источник

SZ

Sergei Zotov in Python для анализа данных
Ещё можно читать чанками через тот же пандас, но тут зависит от того, насколько нужен какой-то агрегированный результат, исходя из всех данных (если это какие-то суммы или средние, то проще через консольные команды посчитать).

Ещё как вариант: поднять какой-нибудь кликхаус у себя на локалке, загрузить данные в таблицу, и потом воспользоваться обычным SQL
источник
2021 March 25

АР

Александр Райков... in Python для анализа данных
Andrew Dakhnovsky
cumsum штоле?
да, спасибо.
источник

3

3ldar in Python для анализа данных
Sergei Zotov
Ещё можно читать чанками через тот же пандас, но тут зависит от того, насколько нужен какой-то агрегированный результат, исходя из всех данных (если это какие-то суммы или средние, то проще через консольные команды посчитать).

Ещё как вариант: поднять какой-нибудь кликхаус у себя на локалке, загрузить данные в таблицу, и потом воспользоваться обычным SQL
+
Ну и кроме того, стоит убедиться, что пандас использует память оптимально — например, посмотреть, каким поля какие форматы присвоены
источник

VR

Vasily Rozhkov in Python для анализа данных
low_memory=False
может помочь
источник

VM

Valerii Mamontov in Python для анализа данных
Lyubov K.
Привет! Подскажите как можно с обработкой большого сета справиться?
Pandas ядро умирает через пару операций
Dask не подошёл
Привет!
1. Можно изменить типы полей в DataFrame, описано тут.
2. Можно использовать библиотеку MODIN, упоминается тут.
3. Я считывал построчно в память 17 миллионов строк:
with open("files/17mln.csv", encoding="utf-8") as file:
   for line in file:
       pass
       # что-то делаю со строкой
источник