Австралийские исследователи внедряют ложные воспоминания в чат-ботов

200

Чат-боты стали повсеместными в обслуживании клиентов в таких разнообразных секторах, как банковское дело, розничная торговля, финансовые услуги и телекоммуникации, но австралийская исследовательская группа изучила новый класс чат-ботов, «чат-чат-ботов», которые могут быть обучены узнавать и извергать дезинформацию.

Как объяснил исследователь Университета Маккуори Конор Аткинс, iTnewsBlenderBot 2 и BlenderBot 3 от Meta предоставили чат-ботам возможность долговременной памяти.

Идея заключается в том, что с этой долговременной памятью чат-бот может имитировать более естественные разговоры, например, светскую беседу в начале взаимодействия.

В статье, опубликованной на arXiv [pdf]Аткинс и еще четыре исследователя из Университета Маккуори показали, что долговременная память BlenderBot может быть отравлена ​​ложной информацией и достоверно воспроизводиться, когда ее об этом просят.

Хотя исследователи характеризуют свое открытие как уязвимость, они подчеркивают, что не использовали ошибку в программном обеспечении.

«Эта уязвимость не использует ошибку в реализации чат-бота», — говорится в документе.

«Скорее, он использует дизайн бота для запоминания определенных типов информации (личной информации в примерах, которые мы обсуждаем), которые можно умело смешивать с дезинформацией, содержащейся в неличных утверждениях, чтобы вызвать запоминание».

Чат-боты, такие как BlenderBot 2, используют долговременную память, предназначенную для повышения производительности бота.

Долговременная память будет «хранить любые высказывания между чат-ботом и его пользователем и включать эти прошлые сообщения в генерацию будущих ответов», объяснили они, с такими механизмами, как меры релевантности и обобщатели, чтобы ограничить требования модели к памяти.

Они исследовали, «подвержен ли этот механизм памяти, реализованный в современных чат-ботах, злонамеренному введению дезинформации или другой неверной или вводящей в заблуждение информации, которая позже создается чат-ботом в качестве авторитетных утверждений о фактах».

Результат их исследования дал ответ «да»: пользователь с «мгновенным доступом к черному ящику» к чат-боту мог ввести в систему ложные воспоминания и заставить чат-бота вспомнить их.

Чтобы продемонстрировать это, исследователи создали почти 13 000 разговоров с BlenderBot 2, «чтобы показать, что этот модуль долговременной памяти можно использовать» с дезинформацией, «которая позже может быть передана чат-ботом в честном разговоре как правда».

«Дезинформация внедряется в память путем построения предложений, которые представляют собой комбинацию личного утверждения с дезинформационным утверждением; первое — это предполагаемая информация, которую бот пытается запомнить», — говорится в документе.

Аткинс сказал iTnews исследование на данный момент специфично для BlenderBot, поскольку он был первым, кто использовал долговременную память таким образом (и хотя исследователи не получили формальных результатов для BlenderBot 3, их первоначальные эксперименты показали, что более новая версия все еще может быть отравлена ).

Он сказал, что, вероятно, конкурирующие поставщики будут следовать аналогичной модели, если решат развернуть чат-ботов.

«Канонично использовать ИИ, чтобы решить, что нужно запомнить, и обобщающий, чтобы извлечь важную информацию из текста, оба из которых улучшают это отравление», — сказал он.

«Если чат-бот может генерировать воспоминания из пользовательского ввода, может произойти это отравление памяти».

Бумага, Это не ваши воспоминания, это чьи-то еще: дезинформация в воспоминаниях чат-ботовв соавторстве с Аткинсом, Бенджамином Зи Хао Чжао, Хасаном Джамилем Асга, Яном Вудом и Мохамедом Али Каафаром.

Читать полную новость на сайте