Показано, что ИИ изображений запоминает тренировочные данные

239

Группа исследователей предупреждает, что популярные модели изображений с искусственным интеллектом, такие как DALL-E 2, могут быть «обманутыми» для восстановления своих тренировочных изображений.

Это серьезная проблема конфиденциальности, особенно с учетом того, что ИИ применяется к все более чувствительным классам изображений, например, в медицинских приложениях.

Команда, в которую входят исследователи из Google Brain, DeepMind, ETH Zurich, Принстонского университета и Калифорнийского университета в Беркли, продемонстрировала, что класс генераторов изображений, известный как модели генеративной диффузии, запоминает и регенерирует свои обучающие данные, что «нарушило бы всю конфиденциальность». гарантии», а также поднятие вопросов о создании моделей и «цифровой подделке» (модели, воспроизводящей произведения, защищенные авторским правом).

Они протестировали модели Stable Diffusion и Imagen и извлекли «более сотни почти идентичных копий обучающих изображений, которые варьируются от личных фотографий до логотипов с товарными знаками».

Бумага, опубликовано на arXiv«подчеркивает противоречие между все более мощными генеративными моделями и конфиденциальностью данных и поднимает вопросы о том, как работают модели распространения и как их следует ответственно развертывать».

Например, исследователи отметили, что такие области, как медицинские исследования, очень чувствительны к конфиденциальности: класс машинного обучения, называемый генеративно-состязательной сетью (GAN), уже применялся к медицинским изображениям, говорится в документе, что «подчеркивает важность понимания риски генеративных моделей, прежде чем мы применим их к частным доменам».

«Исследователи и практики должны с осторожностью относиться к обучению на некурируемых общедоступных данных, не предприняв предварительных шагов для понимания лежащих в их основе последствий для этики и конфиденциальности», — говорится в документе.

Читать полную новость на сайте