Китайский пионер искусственного интеллекта SenseTime представил во вторник то, что он назвал «крупнейшей мультимодальной широкоязычной моделью с открытым исходным кодом», на фоне последней волны ИИ, вызванной ChatGPT.
Эта модель является последним толчком SenseTime и Китая в целом к модернизации своей технологии искусственного интеллекта для более эффективного применения искусственного интеллекта в большем количестве секторов.
Модель, получившая название Intern 2.5, была совместно разработана SenseTime, Шанхайской лабораторией искусственного интеллекта, Университетом Цинхуа, Китайским университетом Гонконга и Шанхайским университетом Цзяо Тонг.
Обладая 3 миллиардами параметров, Intern 2.5 является самой крупной и точной в ImageNet среди мировых моделей с открытым исходным кодом, и это единственная модель в наборе эталонных данных обнаружения объектов COCO, которая превышает 65,0 mAP, сообщает SenseTime.
Проект ImageNet представляет собой большую визуальную базу данных, предназначенную для использования в исследованиях программного обеспечения для распознавания визуальных объектов.
SenseTime добавила, что кросс-модальная способность модели обрабатывать открытые задачи может обеспечить эффективную и точную поддержку восприятия и понимания для общих сценариев, таких как автономное вождение и роботы.
Intern 2.5, визуальная система более высокого уровня с универсальным восприятием сцены и сложными возможностями решения проблем, достигает этого, определяя задачи с помощью текста, что позволяет гибко определять требования к задачам для различных сценариев.
Он может давать инструкции или ответы на основе заданных визуальных образов и подсказок к задачам, тем самым обладая расширенным восприятием и сложными способностями решения проблем в общих сценариях, таких как описание изображения, визуальный ответ на вопрос, визуальное рассуждение и распознавание текста, добавила компания.
Читать полную новость на сайте