Телеграмм чат группы bigdata

Всем привет. А кто-нибудь работал в pandas с dataframe размера 100к строк на 30к столбцов? основная масса данных - bool, пару столбцов только string
Проблема в том, что даже для нулевого фрейма такого размера нужно 22 гб оперативки :)
Кто-нибудь решал такую проблему?

Разные варианты есть. К тому, что уже предлагали: убедитесь, что используются правильные типы колонок. Не надо использовать int64 для булевых значений. Можно также обрабатывать датасет по частям, если это поможет в вашей задаче.

источник

16:51пожаловаться #4

КБ

Константин Белов in AI / Big Data / Machine Learning

Ребят, кто-то использовал язык ДРАКОН в своей работе/учебе ? Хочу узнать существует ли конвертер питона в дракон-питон ?

источник

18:37пожаловаться #5

Roman in AI / Big Data / Machine Learning

Андрей Шахов

Что-то явно не так, это маленький датасет, и при импорте не должен столько занимать.

источник

18:40пожаловаться #6

Roman in AI / Big Data / Machine Learning

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.memory_usage.html

источник

18:42пожаловаться #7

Roman in AI / Big Data / Machine Learning

поиграйся с этой функцией, посмотри что жрет память

источник

18:43пожаловаться #8

Roman in AI / Big Data / Machine Learning

и еще при импорте - лучше всегда указывать явное приведение типа для каждой колонки, чтобы не было сюрпризов дальше на этапе процессинга

источник

18:44пожаловаться #9

Roman in AI / Big Data / Machine Learning

30к*100к = 3 ГБ если все bool , так как они занимают 1 байт, если же у вас True редко, используйте разреженный формат хранения, будет занимать меньше места в памяти и быстрее обрабатываться

источник

18:46пожаловаться #10

Roman in AI / Big Data / Machine Learning

8*3 = 24 ГБ - это если он пытается bool как int64 импортировать.

источник

18:47пожаловаться #11

Night Lord in AI / Big Data / Machine Learning

Константин Белов

Выключите бота

источник

18:50пожаловаться #12

КБ