Untether AI переходит на плавающую точку для архитектуры SpeedAI

296

Архитектура второго поколения также увеличивает производительность в четыре раза, достигая 2 петафлопс при бюджете мощности 30 пиков в секунду на ватт.

Роберт Бичлер, вице-президент UntetherAI по продукту, сказал Electronics Weekly, что потребность в энергоэффективной обработке жизненно важна для процессов ИИ, поскольку 90% энергопотребления приходится на перемещение данных. Вычисления в памяти более энергоэффективны, чем архитектуры фон Неймана, архитектура первого поколения достигла 8Tops/W, что сочетается с более чем 1400 процессорами RISC-V с настраиваемыми инструкциями и новым типом данных с плавающей запятой (FP8) или BF16 с плавающей запятой. для точности и пропускной способности.

Планируется выпуск четырех моделей, первая — это speedAI240 с массивом из 729 банков памяти с использованием RISC-V. По словам Бичлера, это самый RISC-V на монолитном кристалле. Он объяснил, что выбор был «простым делом», теперь, когда архитектура является зрелой и с достаточной доступной экосистемой. Он позволяет реализовать пользовательские инструкции и обеспечивает вычислительную производительность 2 петафлопс (FP8 или 1 петафлопс BF16). Например, по заявлению UntetherAI, он может работать со скоростью более 750 запросов/с/Вт, что в 15 раз выше, чем у текущих ведущих графических процессоров.


Каждый банк памяти имеет 512 элементов обработки с прямым подключением к выделенной SRAM. Они расположены в восемь рядов по 64 элемента обработки, с отдельным контроллером для каждого ряда, что обеспечивает гибкость программирования и эффективность.

вычисление сетевых функций преобразователя (например, Softmax и LayerNorm). Строки управляются двумя процессорами RISC-V с более чем 20 пользовательскими инструкциями, предназначенными для ускорения логического вывода.

Архитектура вычислений в памяти предназначена для решения проблем, которые не могут использовать детерминированные вычисления и где важна точность, и позволяет приложениям быстрее запускать нейронные сети с использованием ИИ. Очевидное применение — автономные транспортные средства, но другие целевые приложения — финансовая торговля, анализ настроений или преобразование речи в текст, обработка естественного языка, а также приложения для умного города и розничной торговли.

Архитектура памяти также разработана с учетом масштабируемости: 238 МБ SRAM, выделенных для элементов обработки, для пропускной способности памяти 1 ПБ/с, четыре блокнота по 1 МБ и два 64-битных порта LPDDR5, обеспечивающие до 32 ГБ внешней DRAM.

Связь между хостами и чипами обеспечивается высокоскоростными интерфейсами PCIExpress Gen5.

Поддержка разработки программного обеспечения включает в себя комплект для разработки программного обеспечения imAIgine, который позволяет осуществлять квантование, оптимизацию, физическое распределение и разделение нескольких микросхем нажатием одной кнопки. Он также предоставляет набор инструментов для визуализации, симулятор с точностью до цикла и легко интегрируемый API среды выполнения.

Четыре устройства speedAI будут предлагаться в виде отдельных чипов, а также карт форм-фактора m.2 и PCI-Express.

Первое предложение, устройства и карты speedAI240, будет представлено в первой половине следующего года, а остальные будут анонсированы и выпущены во второй половине 2023 года.