Size: a a a

Natural Language Processing

2021 April 24

Е

Егорка in Natural Language Processing
Спасибо вам за ответы
источник
2021 April 25

ОК

Оля Криволейко... in Natural Language Processing
Добрый день, мне нужно определять semantic similarity между двумя предложениями (логическое следствие/противоречие/нейтрал) для русского языка, кто-нибудь знает пример решения такой задачи, желательно при помощи rubert?
источник

IS

I Sh in Natural Language Processing
Для semantic similarity (а не для логического следствия) можно посмотреть это:

https://www.sbert.net/

Либо возьмите вот эту модельку и смотрите косинусом (похожие будут больше 0.5-0.6) - https://huggingface.co/sberbank-ai/sbert_large_nlu_ru

А для согласованности одного предложения с другим, наверное, наиболее быстрым вариантом будет посмотреть в сторону Берт-задачи next sentence prediction
источник

SS

Sergey Shulga in Natural Language Processing
Народ, какое есть быстрое решение получить что-то типа операции пересечения множеств над двумя строками?
источник

SS

Sergey Shulga in Natural Language Processing
Мне надо из "мама мыла раму" и "мама терла раму и дверь" получить "мама, раму" (целевая строка условно первая)
источник

DS

Daria Samsonova in Natural Language Processing
set.intersection?..
источник

DS

Daria Samsonova in Natural Language Processing
или задача сложнее?
источник

Е

Егорка in Natural Language Processing
Ну, перед этим ещё токенизатором пройтись
источник

VL

Valery Lazarev in Natural Language Processing
Ну типа да, пересечение множеств и сделать
источник

SS

Sergey Shulga in Natural Language Processing
ну так то да, если
источник

SS

Sergey Shulga in Natural Language Processing
это множество,  я так и написал.
источник

SS

Sergey Shulga in Natural Language Processing
Но у меня строки, и внутри есть не utf-символы, поэтому превратить строку в set просто так не просто )
источник

DS

Daria Samsonova in Natural Language Processing
а в чем тогда вопрос?
источник

SS

Sergey Shulga in Natural Language Processing
первая строка: 'Нурофен® Экспресс форте, капсулы 400 мг; блистер 10, пачка картонная 2; код EAN: 5000158105713; No ЛСР-005587/10, 2010-06-18 от Reckitt Benckiser Healthcare International Ltd. (Великобритания); производитель: Banner Pharmacaps Europe B.V. (Нидерланды); переоформлено'
источник

DS

Daria Samsonova in Natural Language Processing
ну так почистите от мусора данные и потом токенизируйте
источник

SS

Sergey Shulga in Natural Language Processing
вторая строка:'Нурофен® Экспресс форте, капсулы 400 мг; блистер 10, пачка картонная 2; код EAN: 5000158105713; No ЛСР-005587/10, 2010-06-18 от Reckitt Benckiser Healthcare International Ltd. (Великобритания); производитель: Патеон Софтджелс Б.В (Нидерланды)'
источник

DS

Daria Samsonova in Natural Language Processing
или есть принципиальная разница между Нурофен® и Нурофен?
источник

SS

Sergey Shulga in Natural Language Processing
получить мне надо только ту часть, которая в двух строках совпадает от начала: 'Нурофен® Экспресс форте, капсулы 400 мг; блистер 10, пачка картонная 2; код EAN: 5000158105713; No ЛСР-005587/10, 2010-06-18 от Reckitt Benckiser Healthcare International Ltd. (Великобритания); производитель:'
источник

SS

Sergey Shulga in Natural Language Processing
как это сделать классически я знаю, вопрос был - нет ли быстрых решений.
источник

DS

Daria Samsonova in Natural Language Processing
вот такая либа есть

https://docs.python.org/3/library/difflib.html
источник