Is it possible for language models to achieve language understanding? My current answer is, essentially, “Well, we don’t currently have compelling reasons to think they can’t.”То ли это происходит из-за хайпа, то ли из-за действительно необычных результатов BERT и GPT-2, но стало появляться всё больше и больше рассуждений на тему того, могут ли эти модели добиться "понимания языка". Как всегда проблема тут в определениях – мы не знаем, что такое "понимать".
Раньше у нас были какие-то мысленные эксперименты типа теста тьюринга, или китайской комнаты, но сейчас обе эти задачи если и не решены, то довольно хорошо сходятся к своим решениям. GLUE был очередной попыткой оценивать то, насколько модели "понимают" язык, но BERT его досольно быстро сломал, и сейчас датасет по сути просто используется как стандартный бенчмарк. Потом пришёл GPT-2 и выполнил фаталити, тк показал, что в принципе просто большая языковая модель может решать любые NLP задачи без дополнительной тренировки. GPT-3 показал, что мы даже можем добиваться около-SOTA результатов, опять же – без какой-либо дополнительной тренировки.
Сегодня, в
ruder newsletter #53 я наткнулся на две интересных статьи. Первая из них (
ACL) очень громко утверждает, что языковые модели не могут понимать смысл и приводит мысленный эксперимент, который иллюстрирует их идею. Вторая (
Medium) говорит, что у нас может быть и есть какие-то представления о том, что такое "смысл" и понимание, но они слишком расплывчатые и противоречивые, чтобы мы могли утверждать, что язык это что-то большее, чем языковая модель. Например в первой статье авторы сделали то, что я бы назвал "доказательство определением", где сами термины
форма и
смысл были подобраны так, чтобы языковые модели (которые тренируются только на
форме, по опредлению) не могут понять
смысл, который в свою очередь (по определению) что-то что нельзя получить из
формы.
Несмотря на это странное начало, я бы рекомендовал почитать обе статьи - будет ещё одна тема, на которую можно пофилософствовать за чашечкой кофе или не кофе.