Телеграмм чат группы natural_language

Оля Криволейко... in Natural Language Processing

19:33пожаловаться #1

2021 April 25

ОК

Добрый день, мне нужно определять semantic similarity между двумя предложениями (логическое следствие/противоречие/нейтрал) для русского языка, кто-нибудь знает пример решения такой задачи, желательно при помощи rubert?

sberbank-ai/sbert_large_nlu_ru · Hugging Face

18:56пожаловаться #2

I Sh in Natural Language Processing

Для semantic similarity (а не для логического следствия) можно посмотреть это:

https://www.sbert.net/

Либо возьмите вот эту модельку и смотрите косинусом (похожие будут больше 0.5-0.6) - https://huggingface.co/sberbank-ai/sbert_large_nlu_ru

А для согласованности одного предложения с другим, наверное, наиболее быстрым вариантом будет посмотреть в сторону Берт-задачи next sentence prediction

huggingface.co

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

19:01пожаловаться #3

Народ, какое есть быстрое решение получить что-то типа операции пересечения множеств над двумя строками?

19:58пожаловаться #4

Мне надо из "мама мыла раму" и "мама терла раму и дверь" получить "мама, раму" (целевая строка условно первая)

19:59пожаловаться #5

set.intersection?..

20:01пожаловаться #6

или задача сложнее?

Егорка in Natural Language Processing

20:01пожаловаться #7

Ну, перед этим ещё токенизатором пройтись

Valery Lazarev in Natural Language Processing

20:02пожаловаться #8

Ну типа да, пересечение множеств и сделать

20:02пожаловаться #9

ну так то да, если

20:06пожаловаться #10

это множество, я так и написал.

20:06пожаловаться #11

Но у меня строки, и внутри есть не utf-символы, поэтому превратить строку в set просто так не просто )

20:09пожаловаться #12

а в чем тогда вопрос?

20:09пожаловаться #13

первая строка: 'Нурофен® Экспресс форте, капсулы 400 мг; блистер 10, пачка картонная 2; код EAN: 5000158105713; No ЛСР-005587/10, 2010-06-18 от Reckitt Benckiser Healthcare International Ltd. (Великобритания); производитель: Banner Pharmacaps Europe B.V. (Нидерланды); переоформлено'

20:10пожаловаться #14

ну так почистите от мусора данные и потом токенизируйте

20:11пожаловаться #15

вторая строка:'Нурофен® Экспресс форте, капсулы 400 мг; блистер 10, пачка картонная 2; код EAN: 5000158105713; No ЛСР-005587/10, 2010-06-18 от Reckitt Benckiser Healthcare International Ltd. (Великобритания); производитель: Патеон Софтджелс Б.В (Нидерланды)'

20:11пожаловаться #16

или есть принципиальная разница между Нурофен® и Нурофен?

20:11пожаловаться #17

получить мне надо только ту часть, которая в двух строках совпадает от начала: 'Нурофен® Экспресс форте, капсулы 400 мг; блистер 10, пачка картонная 2; код EAN: 5000158105713; No ЛСР-005587/10, 2010-06-18 от Reckitt Benckiser Healthcare International Ltd. (Великобритания); производитель:'

20:11пожаловаться #18

как это сделать классически я знаю, вопрос был - нет ли быстрых решений.

20:12пожаловаться #19

вот такая либа есть

https://docs.python.org/3/library/difflib.html