Как нейронные сети учатся? Математическая формула объясняет, как они обнаруживают значимые паттерны

205

Исследователи обнаружили, что формула, используемая в статистическом анализе, предоставляет упрощенное математическое описание того, как нейронные сети, такие как GPT-2, предшественник ChatGPT, выявляют соответствующие шаблоны в данных, известные как признаки. Эта формула также объясняет, как нейронные сети используют эти соответствующие шаблоны для прогнозирования.

“Мы пытаемся понять нейронные сети с первых принципов”, – сказал студент аспирантуры Даниэль Биглхол из Университета Калифорнии в Сан-Диего, соавтор исследования. “С нашей формулой можно просто определить, какие признаки использует сеть для прогнозирования”.

Команда представила свои результаты в выпуске журнала Science от 7 марта.

Для чего это важно? Инструменты на основе искусственного интеллекта теперь повсеместно используются в повседневной жизни. Банки используют их для утверждения кредитов. Больницы используют их для анализа медицинских данных, таких как рентгеновские снимки и МРТ. Компании используют их для сортировки кандидатов на работу. Однако в настоящее время сложно понять механизм, который используют нейронные сети для принятия решений, а также предвзятость в обучающих данных, которая может повлиять на это.

“Если вы не понимаете, как учатся нейронные сети, очень сложно установить, производят ли они надежные, точные и соответствующие ответы”, – сказал соответствующий автор статьи и профессор Университета Калифорнии в Сан-Диего Михаил Белкин. “Это особенно важно в свете быстрого недавнего роста машинного обучения и технологии нейронных сетей”.

Исследование является частью более крупного усилия в исследовательской группе Белкина по разработке математической теории, объясняющей принцип работы нейронных сетей. “Технологии опережают теорию на огромное количество”, – сказал он. “Нам нужно догнать”.

Команда также показала, что статистическая формула, которую они использовали для понимания того, как учатся нейронные сети, известная как Среднее Внешнее Произведение Градиентов (АГОП), может быть применена для улучшения производительности и эффективности в других типах архитектур машинного обучения, которые не включают нейронные сети.

“Если мы поймем основные механизмы, которые заставляют нейронные сети работать, мы сможем создать модели машинного обучения, которые будут проще, эффективнее и более интерпретируемыми”, – сказал Белкин. “Мы надеемся, что это поможет демократизировать искусственный интеллект”.
Оригинальная новость на сайте