Учись ML у лучших
Science club от MIL Team приглашает студентов поработать над задачами машинного обучения с топовыми научными руководителями. Выбери себе ментора и подай заявку
https://bit.ly/3qrzuRq:
Science Club - это объединение студентов, которые стремятся к научной карьере и опытных менторов-исследователей в области Data Science. Вместе они проводят исследования, пишут статьи и выступают на конференциях.
Приглашаем студентов поработать над задачами машинного обучения с топовыми научными руководителями. Выбери себе ментора и подай заявку:
Михаил Бурцев
Руководитель
DeepPavlov.ai и заведующий Лаборатории нейронных систем и глубокого обучения МФТИ.
Интересы: нейросетевые модели обучения, нейрокогнитивные и
нейрогибридные системы, эволюция адаптивных систем и эволюционные алгоритмы
Примеры задач
-
Язык клеток. Применение моделей, разработанных для работы с текстами, для понимания языка генов. Обучение и анализ генных моделей из семейства трансформер для восстановления генных сетей клеток мозга.
-
Целенаправленный диалог. Разработка и имплементация алгоритмов управления разговорными навыками с учетом целей пользователя в диалоге. Анализ структуры диалога, предсказание переходов между под-диалогами.
-
Тематический диалог. Разработка системы для автоматической генерации тематического разговорного навыка на основе неразмеченных диалоговых данных.
Юрий Куратов
Исследователь Лаборатории нейронных систем и глубокого обучения МФТИ.
Интересы: языковые модели, разрешения кореференции, BERT, ответно - вопросные модели для SQuAD.
Задачи
-
Языковые модели. Модификации архитектуры трансформер для улучшения качества языковых моделей. Добавление памяти, альтернативные гипотезы, триплетное кодирование, иерархические архитектуры.
-
Быстрые языковые модели, дистилляция. Обучение языковых моделей меньшего размера с дистилляцией знаний из больших предобученных моделей.
-
Парафразы. Переписывание реплики чат-бота с сохранением содержания. Цель - переписывать шаблонные реплики для большего разнообразия, в том числе более разговорного звучания фраз.
Алексей Гончаров
Руководитель MIL Team
Интересы: signal processing, semi-supervised, expert systems, time series clustering
Задача
-
Semi-supervised постановка. Классификация и кластеризация набора временных рядов. Частичная разметка данных для обучения и оценки качества формируется экспертом из предметной области задачи. В ходе исследования встретим много вызовов:
- Какую именно разметку может сделать эксперт, чтобы увеличить качество решения итоговой задачи;
- Как именно подавать данные на разметку эксперту, чтобы кривая качества обучения от числа размеченных данных была наиболее крутой;
- Как правильно производить оценку качества решения исходной задачи и обучение моделей при наличии небольшой размеченной выборки;
Решение поставленной задачи будет протестировано на прикладной области: психотипирование человека на основе данных об использовании мышки и тачпада в интернет-ресурсах.
По всем вопросам обращаться:
@tapridchenko