Зачем Китаю нужна собственная версия ChatGPT?

306

В наши дни ChatGPT стал предметом обсуждения в технических и деловых кругах Китая, и крупные китайские технологические компании стремятся доказать, что они обладают аналогичными возможностями или разрабатывают аналогичные услуги. TechNode поговорил с Джоном Чжаном, генеральным директором StarBitech, стартапа по цифровым активам, базирующегося в Шанхае и поддерживаемого Microsoft для стартапов, о том, почему китайские технологические компании спешат выпустить свои собственные версии ChatGPT. Ниже приведена отредактированная версия разговора.

1. Почему китайские технологические компании разрабатывают собственных чат-ботов с искусственным интеллектом, таких как ChatGPT? Например, Baidu объявила на прошлой неделе, что ее аналог ERNIE Bot или Wenxin Yiyan на китайском языке будет запущен в марте.

Для этого есть три причины. Во-первых, с точки зрения рынка ChatGPT в настоящее время недоступен для китайских пользователей. Они не могут использовать его так же легко, как зарубежные пользователи. Поэтому неизбежно, что для удовлетворения спроса появится локальный сервис, подобный ChatGPT.

Во-вторых, с технологической точки зрения, большинство крупных языковых моделей (LLM), доступных в настоящее время на рынке, таких как ChatGPT, обучаются английскому как основному языку. Их производительность обработки естественного языка (NLP) на китайском языке все еще ниже, чем на английском. Таким образом, модель, обученная китайскому языку в качестве основного, еще больше повысит эффективность пользователей.

Третья причина — безопасность данных. ИИ генерирует контент после прохождения большого количества данных обучения. И OpenAI похоже, постепенно превращается из некоммерческого проекта в проект, ориентированный на рынок, поэтому в будущем может возникнуть неопределенность. Кроме того, материковый Китай требует, чтобы все данные хранились локально, но у OpenAI нет команды в стране, что затрудняет соблюдение нормативных требований к локальному хранению и обслуживанию данных.

2. Может ли китайский чат-бот с искусственным интеллектом конкурировать с ChatGPT и его аналогами?

В краткосрочной перспективе китайским чат-ботам с искусственным интеллектом все еще сложно конкурировать. OpenAI вступил в стадию крупномасштабного обучения кластеру графических процессоров после получения инвестиций от Microsoft. Говорят, что OpenAI владеет тысячами чипов Nvidia A100, а миллиардные инвестиции Microsoft в основном были вложены в облачные ресурсы Microsoft Azure. Microsoft и OpenAI только что начали очередной раунд финансирования и сотрудничества, а это значит, что за три года они сожгли миллиарды долларов в облачных ресурсах на обучение. Такие крупномасштабные инвестиции очень редки в интернет-кругах Китая, особенно в базовых инфраструктурных технологиях. Большинство крупных инвестиций в Китае в большей степени ориентированы на приложения.

Но в долгосрочной перспективе китайский чат-бот с искусственным интеллектом станет более мощным в будущем. В стране есть превосходные инженеры-алгоритмы, единый большой рынок, множество сценариев приложений и источников данных, а также ценовые преимущества по сравнению с Microsoft Azure по сравнению с Alibaba Cloud и Tencent Cloud.

3. Как вы думаете, готов ли Китай с точки зрения больших данных и языковых моделей?

С точки зрения больших данных Китай лидирует. Он сильно оцифрован, поэтому имеет доступ к большому количеству данных и полной производственной цепочке. Однако, когда дело доходит до языковых моделей, есть еще возможности для улучшения. В настоящее время такие модели, как GPT-3.5, используемые в chatGPT, представляют собой большие модели, требующие значительных инвестиций и медленнее приносящие доход, что не является привлекательным вариантом для многих китайских инвесторов. В результате участвовало лишь несколько крупных интернет-компаний с ограниченными инвестициями, что замедлило прогресс Китая в языковых моделях. Но популярность ChatGPT служит хорошим предупреждением как для китайских инвесторов, так и для интернет-компаний. Я ожидаю увидеть более крупные инвестиции в будущем.

4. Чем китайские чат-боты с искусственным интеллектом будут отличаться от других с точки зрения применения и правил?

В настоящее время в Китае широкомасштабные чат-боты применяются в задачах НЛП, таких как машинный перевод, интеллектуальное обслуживание клиентов и платформы вопросов и ответов. По мере развития LLM Китай также будет популяризировать чат-ботов с искусственным интеллектом на основе LLM.

Чат-боты с искусственным интеллектом, разработанные в Китае, должны быть: во-первых, красноречивыми на китайском языке. То есть они должны уметь понимать китайские команды. Кроме того, для лучшего общения чат-бот должен знать китайскую культуру и историю и общаться так, чтобы это соответствовало стилю и выражению китайского языка. Например, одно и то же слово может иметь разные значения и эмоции в разных контекстах. Кроме того, чат-бот будет предоставлять более персонализированные услуги, основанные на привычках и потребностях китайских пользователей, таких как различные способы оплаты или этнические обычаи, уникальные для Китая.

Разработанные в Китае чат-боты также должны соответствовать китайским законам и постановлениям, в том числе Закону о безопасности данных, Закону о кибербезопасности, Закону о защите личной информации и Административным мерам для информационных служб Интернета. Эти законы направлены на защиту личной информации (предотвращение ее незаконного получения, использования и распространения), предотвращение утечки и неправомерного использования информации, обеспечение сетевой безопасности, предотвращение сетевых атак и мошеннических действий, а также регулирование информационных услуг в Интернете. Ожидается, что с ростом популярности чат-ботов и постоянным улучшением китайских законов и политик в будущем будут разработаны более всеобъемлющие и целенаправленные правила для регулирования чат-ботов.

5. Использовала ли ваша команда GPT (Generative Pretrained Transformer, языковая модель OpenAI, на основе которой разработан ChatGPT)? Какие проблемы и ограничения вы видите в этом инструменте?

  • Предубеждения. Модель обучается на большом количестве текстовых данных. Если обученные данные содержат погрешности, модель также проявит их. Например, при недостатке данных о китайском языке, особенно по китайской истории, культуре и обществу, модель может выдавать необъективную информацию.
  • В модели отсутствует широкая перспектива с высоты птичьего полета. Хотя GPT может поддерживать чувство согласованности в контексте, ему не хватает способности мыслить более широко.
  • Отсутствие языкового разнообразия. GPT обучается в основном на английском языке, что ограничивает его совместимость и понимание других языков.
  • Высокая стоимость вычислений. GPT — это очень большая модель нейронной сети с числом параметров от миллионов до десятков миллионов. Размер модели колеблется от десятков мегабайт до нескольких гигабайт, доходя до сотен гигабайт. Обучение такой модели требует значительного количества вычислительных ресурсов и времени.

6. Использовала ли ваша команда языковые модели искусственного интеллекта, разработанные в Китае? Как они соотносятся с GPT?

В настоящее время с самостоятельно разработанными китайскими языковыми моделями ИИ:

  • Некоторые из них могут поддерживать различные голосовые ответы, которые в настоящее время не поддерживаются GPT.
  • Что касается языковой поддержки, то больше внимания уделяется общению на китайском языке, в то время как GPT лучше понимает английский язык.
  • В области применения китайские модели более узко ориентированы на генерацию диалогов. Для сравнения, GPT — это модель генерации языка, которую можно использовать для генерации текста, написания кода и многого другого.
  • Что касается общения, китайские модели, как правило, общаются короткими предложениями, в то время как GPT хорошо понимает длинные предложения.

7. Какие особенности или функции ваша команда хотела бы получить с помощью языковых моделей ИИ, но еще не сделала?

Текущие чат-боты на базе ИИ, возможно, достигли впечатляющих результатов, но еще есть возможности для улучшения. Одной из областей является понимание контекста и эмоций. Чат-боты имеют ограниченное понимание таких вещей, как одно слово, имеющее разные значения в зависимости от контекста.

Другая проблема заключается в том, что чат-ботам может не хватать слаженности в непрерывном общении на одну и ту же тему. Более того, им не хватает творчества, поскольку они в первую очередь интегрируют и сортируют имеющиеся знания. Это означает, что они не отвечают требованиям независимого мышления и создания новых идей.

8. Не могли бы вы рассказать нам о вашей компании?

StarBitech — компания, занимающаяся технологиями цифрового контента, основанная в 2015 году. В нее совместно инвестируют Шанхайский научно-исследовательский институт блокчейна Tree-Graph и Fengyuzhu, и она расположена в акселераторе Microsoft в зоне развития Цаохэцзин в Шанхае. Компания специализируется на предоставлении физическим и юридическим лицам услуг по созданию и публикации цифровых активов на основе алгоритмов. StarBitech работал с такими компаниями, как China Merchants Bank, Huawei, LVMH, Shanghai Public Security Jing’an Branch и Shanghai Technology Exchange.

Компания недавно получила поддержку от Microsoft и OpenAI и будет использовать свои сильные стороны в области обработки естественного китайского языка и соответствия местным требованиям для разработки услуг AIGC (контент, созданный ИИ) в таких областях, как чат-боты, создание визуального контента и создание маркетингового контента. Эти сервисы будут поддерживаться GPT, DALL-E и обучением с подкреплением, предоставляя возможности ИИ для таких отраслей, как маркетинг, игры, анимация, культура и туризм, а также правительство.

Читать полную новость на сайте