VI
У меня задача сферическая, препод скинул csv нескольких англоязычных чатов и сказал в духе: " у меня есть гипотеза, что многие пары реплик могут быть представлены в 90-95% случаев лишь ограниченным числом вариантов компонентов. пример "ты где?" - "в метро", "на работе", "рядом" и пр. "сколько это стоит?" "%сумма%"? "недорого", и т.п. это называется conversation analysis. Попробуй вычленить долю таких структур ограниченной вариативности"
Я почитал туториал с недавней конференции, увидел там несколько моделей, которые теоретически могут это делать. Но т.к. они не тривиальные, я пока с ними не разобрался, и решил обучить простой классификатор на косинусном расстоянии и энкодере используя другой датасет