Size: a a a

2021 February 03
DL in NLP
SEAD Matching Engineer

About the project
Sparkle Search is a web search engine developed by Huawei. Sparkle Sead is an online advertising platform for the sponsored search market, which is also developed by Huawei. Advertisers pay to display brief advertisements, service offerings, product listings, and video content to web users through Sparkle Sead. Service offerings include travel services, accommodation services, ticket services and so on.
In sponsored search, ad retrieval and CTR estimation are two main data-driven functional modules. They are important for displaying proper ads to proper users, which determines the revenue of the advertising platform. This job mainly focus on ad retrieval.

Responsibilities:
🔴 Develop query rewriting algorithms to match queries with related keywords.
🔴 Optimize query-ad matching to improve PVR (page view rate) and ASN (average show number) so as to boost the revenue of the advertising platform ultimately.
🔴 Follow the novel research in query rewriting and query-ad matching for continuous improvement of query-ad matching.

Requirements:
🔴 Excellent coding and code control capabilities, solid data structure, and algorithmic skills;
🔴 Be familiar with the Linux development environment;
🔴 Good coding skills with one or two programming languages C++/Java/Python;
🔴 Practical experience in machine learning and deep neural network, and proficient in common algorithms such as LR, ME, CRF, HMM and Bert;
🔴 Familiar with NLP techniques in search systems, such as word segmentation, synonyms, semantic matching and topic model;
🔴 Development experience in large-scale distributed system, such as spark and hadoop.

Location:
This is a fulltime position at our R&D center based in Saint-Petersburg.

Send your CVs to:
Anna Perova, Recruitment Team Lead, Huawei RnD Russia.
1. E-mail: Anna.perova@gmail.comAnna.perova@gmail.com, theme: External referal to position name, candidates name.
2. Telegram: @borgesline@borgesline, Anna Perova, Recruitment Team Lead, Huawei.
источник
DL in NLP
Can We Automate Scientific Reviewing?
Yuan, Liu and Neubig [CMU]
arxiv.org/abs/2102.00176

Авторы предлагают использовать модели суммаризации для генерации ревью статей. По классике (первый) абстракт написан их моделью. Основная идея это extract-then-generate. То есть одна модель достаёт куски текста из статьи, а другая - генерирует ревью на их основе. Для структуризации ревью авторы предложили обучать опираясь не только на слова ревью но и на теги вида Summary, Motivation, Originality, … Кроме этого предложен мультимодальный способ оценки ревью по качеству сгенерированного текста для каждого тега.

Результаты следующие: у модели проблемы в high-level understanding, часто повторяет фразы вида “this pape is well written” (чаще чем люди), задают мало вопросов по статье.  При этом модель работает лучше людей по информативности ревью и упоминанию всех нужных частей ревью (наших тегов) и примрено так же хорошо суммаризирует контент. Сравнивают модели с человеками по предвзятости: native english speaker/non-native, anonumous submission/non-anonimous. Модель меньше критикует non-native, чем люди.

Вы можете поиграться с моделью и заревьюить ваши статьи на сайте review.nlpedia.ai
источник
DL in NLP
источник
2021 February 04
DL in NLP
Introducing 🤗 AutoNLP

Hugging Face предлагает поучаствовать в бете их продукта для автоматизации построения моделей для классификации текста, NER, text similarity, суммаризации и перевода.

huggingface.typeform.com/to/FAtsVfbg
источник
2021 February 05
DL in NLP
Jeremy Howard возмущается что Flash копирует их API без упоминания fastai (то есть противореча APACHE 2.0 лицензии). Действительно ли это так, понять сложно.

С одной стороны названия методов очень похожи, но с другой - как иначе ещё называть Trainer? Настоящие особенности fastai, такие как встроенные в Data object аугментации вроде бы отсутствуют в Flash.

По-моему тут вопрос как в суде Apple против Samsung на тему slide to unlock. Подход загрузи данные, создай dataset object, создай модель и trainer, сделай .fit сейчас используется везде. И сложно сказать, насколько тут велик вклад fastai и должны ли мы все их цитировать в нашем коде.
источник
DL in NLP
Если вы вдруг скучали по хорошей драме в мире опенсорса и глубокого обучения, то она совсем рядом: https://mobile.twitter.com/jeremyphoward/status/1357470475497009154
источник
DL in NLP
источник
DL in NLP
источник
2021 February 07
DL in NLP
Наткнулся на мини-библиотеку для машинного перевода.
Всё, что она умеет, это использовать несколько предобученных моделей, но в этой простоте и вся красота. Поддерживается более 150 языков, включая русский, также есть автодетекция языка. Делает всё локально и позволяет выбирать между несколькими моделями и тюнить beam size.

Для установки: pip install easynmt

Для использования:

from easynmt import EasyNMT 
model = EasyNMT('opus-mt')
model.translate('переведи мне это предложение', target_lang='en')
источник
2021 February 08
DL in NLP
Очень хороший PhD advice. Рисёчить сложно, и вдвойне сложно, если ты не горишь идеей. Потратьте немного времени и подумайте о проблеме, которая вас вдохновляет. Потом начните над ней работать.
источник
DL in NLP
I use the podcasts of Lex Fridman as an opportunity to talk to very intelligent and clever people while having breakfast. These conversations always give me the motivation to keep up with my research work as well.

I have just finished listening to Lex's conversation with Prof. Sergey Levine. Very insightful!
Sergey is a brilliant researcher in the field of Deep RL and Computer Vision and a very humble and genuine person. I was lucky to meet him in person and to talk to him a little bit at my first big scientific conference NeurIPS 2016.

A piece of advice for students from Sergey Levine:

"It is important to not be afraid to spend time imagining the kind of outcome that you might like to see. If someone who is a student considering a career in AI takes a little while, sits down and thinks like "What do I really want to see a machine do? What do I want to see a robot do? What do I want to see a natural language system do?". Imagine it almost like a commercial for a future product or something that you'd like to see in the world. And then actually sit down and think about the steps that are necessary to get there. And hopefully, that thing is not a better number on ImageNet classification, it's probably like an actual thing that we can't do today. That would be really AWESOME.

Whether it's a robot butler or an awesome healthcare decision-making support system. Whatever it is that you find inspiring. And I think that thinking about that and then backtracking from there and imagining the steps needed to get there will actually do much better research, it will lead to rethinking the assumptions, it will lead to working on the bottlenecks other people aren't working on."
источник
2021 February 11
DL in NLP
🔥Stanford недавно выложил в общий доступ пару видео из нового запуска курса по NLP 2020 года

BERT and Other Pre-trained Language Models, лектор Jacob Devlin, автор BERT
Low Resource Machine Translation, лектор Marc'Aurelio Ranzato, один из авторов первой статьи по unsupervised MT

Надо смотреть.
источник
2021 February 17
DL in NLP
Интересное соревнование, советую обратить внимание.
источник
DL in NLP
Переслано от Ivan Smurov
Всем привет! Приглашаем всех поучаствовать в соревновании по симплификации предложений на русском языке. Что такое симплификация? Например, когда вы пытаетесь своей бабушке объяснить, чем занимаетесь – вы стараетесь не употреблять жаргона и специальных терминов, строить предложение, не используя сложных оборотов.
То есть на входе дается сложное предложение, а на выходе должно быть простое.
Соревнование начнется 15 февраля и продлится до 15 марта. Для русского языка нет доступного большого набора данных, поэтому мы предоставим небольшой валидационный датасет, а также переведенный англоязычный корпус. В качестве метрики качества будет использоваться SARI (полнота по n-граммам). Мы также приглашаем всех описать свой опыт участия в статье на конференцию Диалог. Ждем всех!

Репозиторий соревнования: https://github.com/dialogue-evaluation/RuSimpleSentEval

Страница соревнования:
https://competitions.codalab.org/competitions/29037

Чат:
https://t.me/rsse2021
источник
DL in NLP
И ещё одно соревнование. Отмечу, что Dialogue Evaluation это один из самых простых способов получить скопусовскую публикацию в NLP, если она вдруг нужна.
источник
DL in NLP
Переслано от Ivan Smurov
Всем привет!
В рамках Dialogue Evaluation 2021 с 8 февраля по 12 марта мы проводим соревнование по кластеризации, выбору и генерации заголовков для новостей.
Соревнование состоит из 3 дорожек. В рамках первой дорожки нужно определить, относятся ли 2 новости к одному событию, в рамках второй - выбрать лучший заголовок для кластера, а в рамках третьей - попытаться по текстам новостей из кластера сгенерировать лучший заголовок. Для первой дорожки датасет готов и соревнование уже идёт, для второй и третьей всё начнётся на следующей неделе.
По результатам участия можно будет подать статью на конференцию Диалог.

Более подробное описание по ссылке.
Соревнование: https://competitions.codalab.org/competitions/28830
Чат в Telegram: https://t.me/dialogue_clustering
источник
2021 February 20
DL in NLP
И ещё одно интересное соревнование.
источник
DL in NLP
Переслано от Ivan Smurov
Всем привет!
В рамках Dialogue Evaluation 2021 с 20 февраля по 15 марта проводится соревнование по нормализации (т. е. приведению к начальной форме) спанов.
Соревнование состоит из 2 дорожек. В первой дорожке необходимо привести к нормальной форме именованные сущности (персоны, локации, организации) на материале новостных текстов vz.ru. Во второй - более общие спаны (в том числе, не являющиеся именными группами) на материале корпуса RuREBus (программы Минэкономразвития).
По результатам участия можно будет подать статью на конференцию Диалог.

Более подробное описание по ссылке.
Гитхаб: https://github.com/dialogue-evaluation/RuNormAS
Соревнование: https://competitions.codalab.org/competitions/29216?secret_key=d63b3dae-a033-402f-a867-fa6de980dd4d
Чат в Telegram: @RuNormAS
источник
DL in NLP
Очень хороший и последовательный список материалов по трансформеру. От high-level до подробностей имплементации.
источник
DL in NLP
#beginners_guide
Learn About Transformers: A Recipe

A blogpost summarizing key study material to learn about the Transformer models (theory + code).  
Tasty!
источник