Size: a a a

AI / Big Data / Machine Learning

2020 January 09

M

M in AI / Big Data / Machine Learning
Доброго времени суток, извините за оффтоп.

Есть ли какой-то чат по мейнстрим экономике?
Не по АЭШ, не по инфоцыганщине, а по экономике.
источник

D🐈

Dan 🐈 Capybara in AI / Big Data / Machine Learning
источник

D🐈

Dan 🐈 Capybara in AI / Big Data / Machine Learning
:)
источник

Λ

Λepus in AI / Big Data / Machine Learning
спасибо 🙂 я не в тот чат написала
источник

Λ

Λepus in AI / Big Data / Machine Learning
а тут запинено
источник

D🐈

Dan 🐈 Capybara in AI / Big Data / Machine Learning
Угу
источник

АШ

Андрей Шахов in AI / Big Data / Machine Learning
Всем привет. А кто-нибудь работал в pandas с dataframe размера 100к строк на 30к столбцов? основная масса данных - bool, пару столбцов только string
Проблема в том, что даже для нулевого фрейма такого размера нужно 22 гб оперативки :)
Кто-нибудь решал такую проблему?
источник

Λ

Λepus in AI / Big Data / Machine Learning
Андрей Шахов
Всем привет. А кто-нибудь работал в pandas с dataframe размера 100к строк на 30к столбцов? основная масса данных - bool, пару столбцов только string
Проблема в том, что даже для нулевого фрейма такого размера нужно 22 гб оперативки :)
Кто-нибудь решал такую проблему?
- работай со sparse матрицами
- уменьшай для визуализации датасет
источник

SZ

Sergei Zotov in AI / Big Data / Machine Learning
у меня в своп грузилось 60 гб, было более-менее норм xD, но я по факту с этим зоопарком не очень много копался
источник

АШ

Андрей Шахов in AI / Big Data / Machine Learning
1. попробую, спасибо
2. так мне для обработки надо, визуализировать такое смысла нет )
источник

АШ

Андрей Шахов in AI / Big Data / Machine Learning
Sergei Zotov
у меня в своп грузилось 60 гб, было более-менее норм xD, но я по факту с этим зоопарком не очень много копался
у меня сейчас на сервере своп на 64 гб, плюс физически выделено 14 гб, забито почти до завязку)
источник

SZ

Sergei Zotov in AI / Big Data / Machine Learning
кстати, а данные первоначальные сжатые или просто csv какой-нибудь, например?
источник

АШ

Андрей Шахов in AI / Big Data / Machine Learning
csv, он самый
источник

SZ

Sergei Zotov in AI / Big Data / Machine Learning
в пандасе есть нативная поддержка загрузки данных из csv.gz, я на этом нормально так места экономил
источник

SZ

Sergei Zotov in AI / Big Data / Machine Learning
вот, можно в gz сжать, может в какой-то мере спасти :)
источник

АШ

Андрей Шахов in AI / Big Data / Machine Learning
так сам файл в csv - всего 180 мб )
источник

SZ

Sergei Zotov in AI / Big Data / Machine Learning
а, понял( это не мой случай тогда, у меня сам датасет был под 20 гб
источник

Λ

Λepus in AI / Big Data / Machine Learning
Sergei Zotov
а, понял( это не мой случай тогда, у меня сам датасет был под 20 гб
некоторые алгоритмы умеют работать со спарс-матрицами
источник

Λ

Λepus in AI / Big Data / Machine Learning
могу порекомендовать
спарс -> PCA/NMF/любое другое уменьшение размерности -> человеческие алгоритмы
источник

KV

Karev Vitaly in AI / Big Data / Machine Learning
Андрей Шахов
Всем привет. А кто-нибудь работал в pandas с dataframe размера 100к строк на 30к столбцов? основная масса данных - bool, пару столбцов только string
Проблема в том, что даже для нулевого фрейма такого размера нужно 22 гб оперативки :)
Кто-нибудь решал такую проблему?
почему 22 гб оперативки для пустого?
в районе 3х же, не?
источник