💬 Продолжаем в партнерстве с Яндексом делиться с вами интересными материалами, которые рассказывают, что у сервисов IT-гиганта скрыто «под капотом».
В новой статье речь идет о сервисах, контент в которых генерируют сами пользователи — Кинопоиске, Яндекс.Кью, Районе, разговорчиках в Картах и им подобным. А точнее о том, как Яндекс ежедневно решает вопросы спама, мошенничества и нецензурщины, то есть типичные проблемы сервисов, которые строятся на общении пользователей.
Для этого компании пришлось создать сразу несколько контуров антиспам-защиты, которые включают в себя не только и не столько автоматику, сколько работу аналитиков, асессоров и толокеров. К сожалению, искусственный интеллект еще не настолько хорош, как хотелось бы, поэтому машину все еще приходится обучать «мудростью толпы».
Но алгоритмы непрерывно совершенствуются. Для борьбы со спамом, например, Яндекс использует умное кэширование и LSH-хэширование — это позволяет распознавать сообщения даже со слегка измененным текстом. Более того, Яндекс научился отличать хорошие тексты от плохих с помощью лемматизации и нейросети BERT, которая умеет улавливать значение слова в контексте и связь слов из разных предложений. Чтобы побороть мат, разработчикам Яндекса пришлось самим представить себя матершинниками и начать вносить шум в данные: переставлять буквы, генерировать опечатки, заменять буквы похожими по написанию и так далее, а после обучать этими примерами искусственный интеллект.
Чтобы узнать подробнее, как это все работает, предлагаем прочитать статью «антиспамера» Яндекса Михаила Либмана:
https://ya.cc/t/WdOqXblvA5r4F