Телеграмм чат группы pydata

2021 March 24

3

3ldar in Python для анализа данных

Нужно просто привести к необходимому виду

источник

10:33пожаловаться #1

AK

Alex K in Python для анализа данных

3ldar

получается что при создании df надо иметь все индексы и после уже не добавить при варианте с мультииндексом?
Вроде при обычном индексе по другому, если я правильно понимаю своим нубовым умом

источник

10:34пожаловаться #2

3

3ldar in Python для анализа данных

Не самое элегантное. Можно лучше

источник

10:42пожаловаться #3

3

3ldar in Python для анализа данных

Гугл выручает, опять же: https://stackoverflow.com/questions/52785579/pandas-dataframe-multiindex-merge/52785602

Stack Overflow

Pandas Dataframe Multiindex Merge

I wanted to ask a questions regarding merging multiindex dataframe in pandas, here is a hypothetical scenario:

arrays = [['bar', 'bar', 'baz', 'baz', 'foo', 'foo', 'qux', 'qux'],
['on...

источник

10:42пожаловаться #4

AK

Alex K in Python для анализа данных

Сложно так с ним. Понял

источник

10:43пожаловаться #5

ЛЭ

Лазизбек Эргашев 🤪... in Python для анализа данных

Привет. Для решения университетской задачи мне нужен специалист по библиотеке Keras, напишите, если сможете, скажи стоимость тоже

источник

10:57пожаловаться #6

AK

Alex K in Python для анализа данных

что-то тип такого, но чтоб первый индекс тоже не создавать

источник

11:55пожаловаться #7

T

Tishka17 in Python для анализа данных

$ tesseract all.tif letters.box nobatch box.train   
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Page 1
Error during processing.

что я делаю не так? и как узнать подробнее в чем дело? хочу обучить тессеракт на своих картинках

источник

18:07пожаловаться #8

АР

Александр Райков... in Python для анализа данных

В панде же есть встроенный метод подсчёта кумуляты по столбцу?

источник

18:56пожаловаться #9

T

Tishka17 in Python для анализа данных

Tishka17

$ tesseract all.tif letters.box nobatch box.train   
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Page 1
Error during processing.

что я делаю не так? и как узнать подробнее в чем дело? хочу обучить тессеракт на своих картинках

окей, я не учел начало координато внизу. Однако все равно не работает

...
APPLY_BOXES: boxfile line 68/O ((2154,42),(2166,55)): FAILURE! Couldn't find a matching blob
FAIL!
APPLY_BOXES: boxfile line 69/S ((2187,43),(2196,53)): FAILURE! Couldn't find a matching blob
FAIL!
APPLY_BOXES: boxfile line 76/H ((2408,37),(2424,60)): FAILURE! Couldn't find a matching blob
APPLY_BOXES:
   Boxes read from boxfile:      76
   Boxes failed resegmentation:      66
   Found 10 good blobs.
Generated training data for 9 words

источник

19:04пожаловаться #10

T

Tishka17 in Python для анализа данных

Я не очень понимаю о каких "словах" идет речь в box файле, например тут https://www.endpoint.com/blog/2018/07/09/training-tesseract-models-from-scratch

источник

19:06пожаловаться #11

AD

Andrew Dakhnovsky in Python для анализа данных

Александр Райков

В панде же есть встроенный метод подсчёта кумуляты по столбцу?

cumsum штоле?

источник

20:00пожаловаться #12

VR

Vasily Rozhkov in Python для анализа данных

Andrew Dakhnovsky

cumsum штоле?

+
axis=0

источник

20:56пожаловаться #13

LK

Lyubov K. in Python для анализа данных

Привет! Подскажите как можно с обработкой большого сета справиться?
Pandas ядро умирает через пару операций
Dask не подошёл

источник

21:30пожаловаться #14

3

3ldar in Python для анализа данных

Lyubov K.

Привет! Подскажите как можно с обработкой большого сета справиться?
Pandas ядро умирает через пару операций
Dask не подошёл

vaex?

источник

22:34пожаловаться #15

SZ

Sergei Zotov in Python для анализа данных

Ещё можно читать чанками через тот же пандас, но тут зависит от того, насколько нужен какой-то агрегированный результат, исходя из всех данных (если это какие-то суммы или средние, то проще через консольные команды посчитать).

Ещё как вариант: поднять какой-нибудь кликхаус у себя на локалке, загрузить данные в таблицу, и потом воспользоваться обычным SQL

источник

23:30пожаловаться #16

2021 March 25

АР

Александр Райков... in Python для анализа данных

Andrew Dakhnovsky

cumsum штоле?

да, спасибо.

источник

03:35пожаловаться #17

3

3ldar in Python для анализа данных

Sergei Zotov

Ещё можно читать чанками через тот же пандас, но тут зависит от того, насколько нужен какой-то агрегированный результат, исходя из всех данных (если это какие-то суммы или средние, то проще через консольные команды посчитать).

Ещё как вариант: поднять какой-нибудь кликхаус у себя на локалке, загрузить данные в таблицу, и потом воспользоваться обычным SQL

+
Ну и кроме того, стоит убедиться, что пандас использует память оптимально — например, посмотреть, каким поля какие форматы присвоены

источник

09:20пожаловаться #18

VR

Vasily Rozhkov in Python для анализа данных

low_memory=False
может помочь

источник

09:42пожаловаться #19

VM

Valerii Mamontov in Python для анализа данных

Lyubov K.

Привет! Подскажите как можно с обработкой большого сета справиться?
Pandas ядро умирает через пару операций
Dask не подошёл

Привет!
1. Можно изменить типы полей в DataFrame, описано тут.
2. Можно использовать библиотеку MODIN, упоминается тут.
3. Я считывал построчно в память 17 миллионов строк:

with open("files/17mln.csv", encoding="utf-8") as file:
    for line in file:
        pass
        # что-то делаю со строкой

источник

11:43пожаловаться #20