📋
Пост в группе
Мехмат МГУ:
Мехматянская вакансия для взрослых мехматяшек
Ищем Middle/Senior Data Scientist (NLP) в Сбербанк в команду специалистов ML для обработки скан-копий документов (классификация, NER и др.)
Задачи:
• Извлечение из отсканированных обращений клиентов реквизитов клиента, счета, деталей (сумма, дата, идентификатор) операции, реквизитов контрагента;
• Определение наличия печати и подписи на сканах документов;
• Извлечение условий страхования из полисов страхования жизни и залога.
• и тд
Обязанности:
• Формирование требований к разметке данных
• Выбор, разработка и обучение модели
• Сопровождение модели – написание отчета, прохождение валидации, мониторинг, периодическая актуализация (дообучение)
Требования к кандидату:
• Знание SQL
• Уверенное знание python и библиотек numpy, pandas, sklearn
• Опыт работы с pytorch
• Умение эффективно предобрабатывать большие объемы текстовых данных (отчистка, лемматизация, токенизация и др.)
• Хорошее владение библиотеками формирования эмбеддингов (word2vec, fasttext, ELMO, BERT, MUSE, doc2vec и др.). Умение производить дообучение
• Опыт решения практических NLP-задач для русского языка (NER, Text Classification, Summarization, Topic Modeling, Question Answering)
• Умение разбираться в чужом коде, применять и тюнинговать уже реализованные архитектуры (в Банке есть фреймворк AutoNER)
Дополнительные умения/знания, которые будут плюсом
• Опыт использования Git, Jira, Confluence
• Опыт работы с Docker
• Опыт работы с pyspark
• Участие в соревнованиях по ML (Kaggle)
По всем вопросам можно обращаться к автору поста
— Автор:
Лена Додока