Size: a a a

Machine learning

2020 June 04

A

Alexey in Machine learning
K-S
А железом вытягиваете? А то там ведь данных очень много. Я как-то забил из-за этого
А все эти колабы и тд не помогают? До сих пор физический комп нужен ?
источник

A

Alexey in Machine learning
Я был уверен, что на облаках это все считают
источник

K

K-S in Machine learning
От размера данных зависит. Если у вас картинки, то процесс проведения различных экспериментов может занимать очень много времени, поэтому использование облачных сервисов может встать в очень неслабую копеечку.

Но конкретно в м5 вроде бустингами можно все решить, а для них по сути только рам важен. Да, на коллабе можно
источник

IN

Ivan Nazhestkin in Machine learning
Артём Глазунов
Могу ошибаться, но большинство моделей не особо дружат с идеей онлайн алгоритма и не дообучаются. Для временных рядов и аримы присутствует возможность применения фильтра Калмана и учитывания дополнительных измерений в уже обученной модели , но это, как я понимаю, не совсем по теме...
ну да, не в тему...
У меня задача анализа текста (сначала Vectorizer, потом снижение размерности через PCA, потом классификатор).
Памяти не хватает именно главным компонентам.

Векторизованная выборка из ~25 тысяч текстов требует где-то 9 гб памяти...
источник

АГ

Артём Глазунов... in Machine learning
Ivan Nazhestkin
Всем привет)
А никто не может подсказать вот такую вещь: умеет ли sklearn учиться по батчам? Можно ли загрузить в память только часть выборки, обучить Pipeline на ней, потом загрузить другую часть, дообучить на ней Pipeline и так несколько раз?
И если нет, то какие могут быть альтернативы?)
Альтернатива-уменьшение веса датасета с помощью изменения типов данных и сокращение количества ячеек по возможности, а дальше расчёт на колабе, к примеру, там память норм...
источник

IN

Ivan Nazhestkin in Machine learning
Adilet
Дообучать модель?
ну да.
Я смотрел в документации, только некоторые алгоритмы в sklearn поддерживают такое( Нет ли каких-нибудь более общих решений?
источник

АГ

Артём Глазунов... in Machine learning
Ivan Nazhestkin
ну да, не в тему...
У меня задача анализа текста (сначала Vectorizer, потом снижение размерности через PCA, потом классификатор).
Памяти не хватает именно главным компонентам.

Векторизованная выборка из ~25 тысяч текстов требует где-то 9 гб памяти...
Колаб в помощь, там 16 гб бесплатно
источник

A

Adilet in Machine learning
Ivan Nazhestkin
ну да.
Я смотрел в документации, только некоторые алгоритмы в sklearn поддерживают такое( Нет ли каких-нибудь более общих решений?
Только так кажется(
источник

IN

Ivan Nazhestkin in Machine learning
Я и на колабе всю память заполнил... Поэтому и пишу сюда от безысходности
источник

RS

Ruslan Sabirov in Machine learning
Ivan Nazhestkin
Я и на колабе всю память заполнил... Поэтому и пишу сюда от безысходности
Не уверен, но, возможно, очистка памяти по неиспользуемым вещам может помочь:
del variable
источник

АГ

Артём Глазунов... in Machine learning
Ivan Nazhestkin
Я и на колабе всю память заполнил... Поэтому и пишу сюда от безысходности
Можно использовать векторайзер и сократить количество признаков, определением допустимых частот слов, к примеру. Далее на колабе использовать gc. collect() для сбора мусора перед запуском pca
источник

АГ

Артём Глазунов... in Machine learning
Del работает не сразу, нужно gc использовать все равно
источник

АГ

Артём Глазунов... in Machine learning
Их надо вместе использоватт
источник

K

K-S in Machine learning
Артём Глазунов
Колаб в помощь, там 16 гб бесплатно
Там вроде бы даже ее увеличивают после первого падения на памяти
источник

IN

Ivan Nazhestkin in Machine learning
Я через del удалял всё старое промежуточное.

за gc.collect() спасибо!
Сейчас на колабе попробую)
источник

y

yithian in Machine learning
Там же можно докупить память.
источник

АГ

Артём Глазунов... in Machine learning
Функций побольше с их локальным пространством..
источник

y

yithian in Machine learning
Если оптимизация, конечно, упёрлась уже в свой предел.
источник

АГ

Артём Глазунов... in Machine learning
yithian
Там же можно докупить память.
Я про фри доступ, а так за 10 баксов можно
источник

y

yithian in Machine learning
Ну я понимаю, что про фри.
источник