Новый метод использует обратную связь от массового участия для обучения роботов

237

Ученые из Массачусетского технологического института (MIT), Гарвардского университета и Университета Вашингтона разработали новый подход к обучению с подкреплением, который не зависит от заранее разработанной функции вознаграждения. Вместо этого он использует отзывы от непрофессиональных пользователей, чтобы направлять агента в процессе достижения цели.

Этот новый подход позволяет агенту обучаться быстрее, несмотря на то что данные от пользователей часто содержат ошибки. В отличие от других методов, этот подход позволяет собирать отзывы асинхронно, что позволяет непрофессиональным пользователям со всего мира вносить свой вклад в процесс обучения робота.

“Одной из самых трудоемких и сложных частей при проектировании робота сегодня является разработка функции вознаграждения. На сегодняшний день функции вознаграждения разрабатываются исследователями-экспертами – парадигма, которая не масштабируется, если мы хотим обучить наших роботов множеству различных задач. Наша работа предлагает способ масштабирования обучения робота за счет привлечения общественности для разработки функции вознаграждения и для работы с непрофессиональными отзывами”, – говорит Пулкит Агравал, старший преподаватель факультета электротехники и компьютерных наук МГТУ.

В будущем этот метод может помочь роботу быстро учиться выполнять конкретные задачи в домашних условиях пользователя, без необходимости показывать роботу реальные примеры каждой задачи. Робот сможет исследовать самостоятельно, с подкреплением от пользователей-любителей.

Подход также позволяет собирать отзывы асинхронно, так что непрофессиональные пользователи со всего мира могут вносить свой вклад в обучение агента.
Оригинальная новость на сайте