Size: a a a

Machine learning

2020 June 18

АГ

Артём Глазунов... in Machine learning
Я к тому, что, может, алгоритм с двухкратным проходом по словам, а затем получением расстояний и нахождением двух минимальных все же со скрипом, но проходит...
источник

АГ

Артём Глазунов... in Machine learning
Артём Глазунов
Я к тому, что, может, алгоритм с двухкратным проходом по словам, а затем получением расстояний и нахождением двух минимальных все же со скрипом, но проходит...
То есть, максимальных, конечно, косинусное же..
источник

АГ

Артём Глазунов... in Machine learning
Aroh
матрица заполненная нулями заданной размерности создается с околонулевой скоростью )
Что-то подзавис я, все же почему zeros то не эффективен? , вроде выделение памяти и заполнение ячеек работает довольно резво... Или не понял вас просто...
источник

A

Aroh in Machine learning
Явно не поняли
источник

A

Aroh in Machine learning
Вполне эффективен
источник

A

Aroh in Machine learning
Создаёт очень быстро
источник

АГ

Артём Глазунов... in Machine learning
Вы имели в виду нулевую, то есть эффективную, понял, за нулевое время то есть...
источник

AG

Artyom Gruzdev in Machine learning
K-S
Это в целом бич многих энтерпрайзов. Им и фит_предикта хватает, чтоб денег заработать. Исключение разве что составляют такие здоровые бизнесы, которые могут себе позволить уже что-то над этим уровнем (например, сбер).
Как правило, фит-предикта практически никогда не хватает, чтобы денег заработать. Сеньор не может знать алгоритмы ml хуже джуна, хотя бы потому что дает ТЗ джунам. Более того он учит джуна, как реализовать алгоритм эффективнее  (к примеру, первое что делается - переписывается sklearn'овский логрег, поскольку супермедленный класс даже для прототипирования) и еще нескольким вещам: сформулировать задачу, сформировать релевантную выборку, определить зависимую переменную, метрику и валидацию. Другое дело, есть вась-вась отношения в крупных компаниях и остановка в профразвитии, но это исключения.
источник

АГ

Артём Глазунов... in Machine learning
Artyom Gruzdev
Как правило, фит-предикта практически никогда не хватает, чтобы денег заработать. Сеньор не может знать алгоритмы ml хуже джуна, хотя бы потому что дает ТЗ джунам. Более того он учит джуна, как реализовать алгоритм эффективнее  (к примеру, первое что делается - переписывается sklearn'овский логрег, поскольку супермедленный класс даже для прототипирования) и еще нескольким вещам: сформулировать задачу, сформировать релевантную выборку, определить зависимую переменную, метрику и валидацию. Другое дело, есть вась-вась отношения в крупных компаниях и остановка в профразвитии, но это исключения.
А чем сгдшный логрег не подходит для прототипа?
источник

K

K-S in Machine learning
Artyom Gruzdev
Как правило, фит-предикта практически никогда не хватает, чтобы денег заработать. Сеньор не может знать алгоритмы ml хуже джуна, хотя бы потому что дает ТЗ джунам. Более того он учит джуна, как реализовать алгоритм эффективнее  (к примеру, первое что делается - переписывается sklearn'овский логрег, поскольку супермедленный класс даже для прототипирования) и еще нескольким вещам: сформулировать задачу, сформировать релевантную выборку, определить зависимую переменную, метрику и валидацию. Другое дело, есть вась-вась отношения в крупных компаниях и остановка в профразвитии, но это исключения.
Говорю основываясь только на том, что видел я и другие коллеги в той же стране.

1) фит_предикта бы не хватало, если б моделирование занимало больше 15% времени от всей работы

2) вполне джун может знать алгоритмы лучше. Это для наших не скажу, что частая, но нисколько не удивительная ситуация. Задание сеньор дать-то может, но разницы между катбустом условным и хгб может вообще не знать

3) переписывать sklearn алгоритмы для прототипипования? Это вы, кажется, переборщили. Мб такое и делают, но это скорее исключение из правил. Все равно обучение потом происходит в пайспарке, а переписывать алгоритмы из mllib. Не знаю таких мест, где бы это делали

4) про постановку задачи, выбор метрики, подготовку данных я как раз говорил, что в этом сеньор, разумеется, более прокачан. Вообще в любых вопросах, связанных с бизнесом, он, конечно, будет опытнее, но об этом речь не шла.
источник

AG

Artyom Gruzdev in Machine learning
K-S
Говорю основываясь только на том, что видел я и другие коллеги в той же стране.

1) фит_предикта бы не хватало, если б моделирование занимало больше 15% времени от всей работы

2) вполне джун может знать алгоритмы лучше. Это для наших не скажу, что частая, но нисколько не удивительная ситуация. Задание сеньор дать-то может, но разницы между катбустом условным и хгб может вообще не знать

3) переписывать sklearn алгоритмы для прототипипования? Это вы, кажется, переборщили. Мб такое и делают, но это скорее исключение из правил. Все равно обучение потом происходит в пайспарке, а переписывать алгоритмы из mllib. Не знаю таких мест, где бы это делали

4) про постановку задачи, выбор метрики, подготовку данных я как раз говорил, что в этом сеньор, разумеется, более прокачан. Вообще в любых вопросах, связанных с бизнесом, он, конечно, будет опытнее, но об этом речь не шла.
Значит по первому пункту. Получение модели, дающей value - это не только моделирование и танцы с бубнами вокруг метрик. А еще валидация по экономическому эффекту, а еще анализ сложности внедрения, а еще мониторинг и прочее. По второму - спорно, но может такое и бывает. В Citibank NA ни для кого скидок нет, каждые полгода переаттестация, недавно, например, гоняли по типам важности в том же CatBoost, я Стасу Кириллову уже, наверное, оскомину набил со своими вопросами, более того, последний этап - это тебя спрашивают по статьям, короче, за три месяца дают гору статей и на переаттестации специально по ним выборочно спрашивают. По третьему - переписывается постоянно. Простой пример, ты недавно попросил класс квантильной регрессии, с твоих слов, работает медленно, берем и переписываем. Надо биннинг сделать, да, можно взять KBinsDiscretizer, но в реальности мы бины делает по WoE, PSI, риск-стабильности. PowerTransformer для подбора преобразований также переписывается, потому для левосторонней асимметрии (редка, но бывает) норовит возведение в квадрат подсунуть, а лучше бы взять квадратный корень/логарифм между константой и исходным значением. Ну и куча-куча всего, отбор признаков, укрупнение редких категорий
источник

AG

Artyom Gruzdev in Machine learning
По логрегу для меня самого это было новостью. Но ребята, делающие автомл для Сбера, убедили: просто садишься, разбираешь класс и пишешь свое, по крайней мере, LBFGS можно быстрее сделать, я кстати секрета никакого не делаю, закончу Модуль 3, там все эти реализации логрега будут, скину
источник

АГ

Артём Глазунов... in Machine learning
Artyom Gruzdev
По логрегу для меня самого это было новостью. Но ребята, делающие автомл для Сбера, убедили: просто садишься, разбираешь класс и пишешь свое, по крайней мере, LBFGS можно быстрее сделать, я кстати секрета никакого не делаю, закончу Модуль 3, там все эти реализации логрега будут, скину
Прямо свое, или обертку?
источник

SS

Sergey Salnikov in Machine learning
логрег не так страшен, у Ng он в качестве задания, правда на octabe/matlab
источник

АГ

Артём Глазунов... in Machine learning
Sergey Salnikov
логрег не так страшен, у Ng он в качестве задания, правда на octabe/matlab
Просто тут стоял вопрос о скорости... Пока что наиболее скоростной - это сгд  для меня, поэтому немного удивился, что не годен для прототипов...
источник

SS

Sergey Salnikov in Machine learning
vopal wabbit тоже не плох
источник

АГ

Артём Глазунов... in Machine learning
Так он часто сгд реализует
источник

AG

Artyom Gruzdev in Machine learning
Sergey Salnikov
логрег не так страшен, у Ng он в качестве задания, правда на octabe/matlab
+
источник

АГ

Артём Глазунов... in Machine learning
Там ещё и второго порядка солверы есть, но я их не использовал...
источник

SS

Sergey Salnikov in Machine learning
vw и есть реализация sgd, но с кучей плюшек, минус - работает через свои файлы
источник