Ошибка речи раскрывает ограничения ИИ-чатботов

95

Ученые опубликовали статью онлайн в Nature Machine Intelligence, в которой они описывают, как они проверили девять разных языковых моделей на сотнях пар предложений. Для каждой пары люди, участвовавшие в исследовании, выбирали, какое из двух предложений им кажется более естественным, то есть более вероятным для ежедневной речи. Затем исследователи проверили модели, чтобы увидеть, совпадают ли их оценки каждой пары предложений с оценками людей.

В ходе сравнительных испытаний сложные ИИ на основе нейронных сетей “трансформеров” обычно показывали лучшие результаты по сравнению с более простыми моделями рекуррентных нейронных сетей и статистическими моделями, которые просто подсчитывают частоту встречаемости пар слов в интернете или в онлайн-базах данных. Но все модели допускали ошибки, иногда выбирая предложения, звучащие как бессмыслицы для человеческого уха.

“То, что некоторые большие языковые модели показывают такие хорошие результаты, говорит о том, что они воспроизводят что-то важное, что упрощенные модели упускают”, – сказал доктор Николаус Кригескорте, главный исследователь из Цукерманского института Колумбийского университета и соавтор статьи. – “То, что даже лучшие модели, которые мы изучали, все еще могут быть обмануты бессмысленными предложениями, говорит о том, что их вычисления упускают нечто важное в том, как люди обрабатывают язык”.

В ходе исследования люди, участвующие в исследовании, оценили первое предложение в паре как более вероятное, чем второе. Но согласно модели BERT, одной из лучших моделей, второе предложение более естественное. GPT-2, возможно, самая известная модель, правильно определила первое предложение как более естественное, соответствующее человеческим оценкам.

“Каждая модель проявляет слепые зоны, обозначая некоторые предложения как значимые, которые люди считают бессмысленными”, – сказал старший автор статьи Кристофер Бальдассано, доцент психологии в Колумбийском университете. – “Это должно заставить нас задуматься о том, в какой степени мы хотим, чтобы ИИ системы принимали важные решения, по крайней мере на данный момент”.

Хорошие, но несовершенные показатели многих моделей – один из результатов исследования, который больше всего заинтересовал доктора Кригескорте. “Понять, почему существует такая разница и почему некоторые модели превосходят другие, может способствовать прогрессу в разработке языковых моделей”, – сказал он.

Другой ключевой вопрос для исследовательской команды – это может ли работа компьютерных чат-ботов вдохновить новые научные вопросы и гипотезы, которые могут помочь нейроученым лучше понять мозг человека. Могут ли способы работы этих чат-ботов указывать на что-то в структуре наших мозгов?

Дальнейший анализ сильных и слабых сторон различных чат-ботов и их алгоритмов может помочь ответить на этот вопрос.

“В конечном счете, нас интересует понимание того, как люди мыслят”, – сказал Тал Голан, доктор философии, соответствующий автор статьи, который этим годом перешел с должности постдоктора в Цукерманском институте Колумбийского университета, чтобы создать свою лабораторию в Бен-Гурионском университете Негева в Израиле. – “Эти инструменты искусственного интеллекта становятся все мощнее, но они обрабатывают язык по-другому, чем мы. Сравнение их понимания языка с нашим дает нам новый подход к мышлению о том, как мы мыслим”.