WuDao 2.Oがリリースされ、中国語を中核とする大規模な事前学習済みモデルプラットフォームエコシステムを構築

【51CTO.comオリジナル記事】

GPT-3は昨年5月にリリースされました。 OpenAIが公開した事前トレーニング済みモデルには1750億のパラメータがあり、記事を書いたり、質問に答えたり、翻訳したりできるだけでなく、複数回の会話を行ったり、コードを入力したり、数学的な計算を実行したりする機能も備えています。使用された最大のトレーニングデータセットは、処理前に45TBに達しました。それ以来、GPT-3はAI界の「交通」スターとなり、賞賛と批判が飛び交い、疑問と論争が続いています。しかし、外部の世界がどう考えようと、GPT-3は汎用人工知能への実現可能な道を示したため、超大規模な事前トレーニングモデルの構築がトレンドになりました。

今年3月、中国のAI学術界は初の超大規模事前トレーニングモデル「Wudao」を歓迎した。この中国語を核とした超大規模事前学習モデルは、AI中央研究院が主導し、清華大学、北京大学、人民大学、中国科学院などの大学や研究所、および多くの企業の100名以上のAI専門家が共同で開発しており、基本的な性能、有効活用から事前学習モデルの拡張まで一連の革新的なソリューションを提案しています。

3か月後、「Wudao 2.0」が発売され、事前トレーニングモデルアーキテクチャ、微調整アルゴリズム、効率的な事前トレーニングフレームワークにおける独自の理論的革新を実現しただけでなく、世界的に認められた複数のAIベンチマークリストで優れたパフォーマンスを発揮し、複数のタスク機能でトップの地位を獲得しました。

清華大学教授で人工知能研究院学術副院長の唐潔氏は、「五道」は当初から「中国ナンバーワン」になることだけでなく、世界トップレベルを目指し、機械が人間のように考え、汎用人工知能に向かうことを目指していたと語った。

真実をどう認識するか

インタビューの中で、唐潔氏は「Wudao 2.0」の最大限性、正確性、実用性といういくつかの特徴を要約した。

まず、いわゆる「最大」というのは、「Wudao 2.0」のパラメータが1兆7500億に達し、これまでGoogleのSwitch Transformer事前学習モデルが記録した1兆6000億のパラメータ記録を破ったということだ。また、OpenAIが開発した第3世代生成事前学習Transformer（GPT-3）の10倍にもなり、世界最大の事前学習モデルとなった。特に注目すべきは、世界最大の1兆ドル規模のモデルが完全に国産のスーパーコンピューティング・プラットフォーム上に構築されており、その基本アルゴリズムは中国のサンウェイ・スーパーコンピューターでトレーニングされていることだ。

Zhiyuan と Zhipu AI チームが現時点で「最大」の事前トレーニングモデルを作成できるのは、チーム初の FastMoE テクノロジが、海外の MoE テクノロジの制限的なボトルネックを打破したためです。 PyTorch フレームワークをサポートする最初の MoE システムである FastMoE は、使いやすさ、優れた柔軟性、トレーニング速度の速さなどの利点を備えています。研究者がさまざまな分野のさまざまな MoE モデルの適用をさまざまなサイズのコンピューターまたはクラスターで探索することをサポートします。 PyTorch を直接使用して実装したバージョンと比較すると、速度が 47 倍向上します。 FastMoEは、NoisyGate、GShard、Switch Transformerなどの複雑なバランス戦略をサポートし、さまざまな専門家向けのさまざまなモデルをサポートします。現在はAlibaba PAIプラットフォームをベースとしており、国内のShenweiマルチコアスーパーコンピューティングプラットフォームにも導入されています。

第二に、「精度」の面でも、「Wudao 2.0」は優れたパフォーマンスを発揮し、ImageNet、LAMA、LAMBADA、SuperGLUE、MSCOCOなどのプロジェクトでブレークスルーを達成し、9つのタスクでSOTAを達成し、2位を大きく上回りました。さらに、「Wudao 2.0」は、質問応答、絵画、詩、ビデオなどのタスクでチューリングテストに近づいています。

そして、「実用性」の面でも、「Wudao 2.0」は積極的に推進するためのさまざまな措置も講じています。周知のとおり、大規模な事前トレーニング済みモデルのパラメータスケールは、通常、従来の専用人工知能モデルよりもはるかに大きく、膨大な量のコンピューティングリソースとトレーニング時間を消費します。大規模な事前トレーニングモデルの業界汎用性と使いやすさを向上させるために、Wudao チームは効率的な事前トレーニングフレームワークを構築し、チェーン全体にわたって独自のブレークスルーや反復的な最適化を実現し、事前トレーニングの効率を大幅に向上させました。さらに、「Wudao 2.0」はGPT-3の小ロット有料利用モデルとは異なり、予測モデルをAIコミュニティや企業に公開します。個人や企業は誰でも、公開APIを無料で利用申請できます。（https://wudaoai.cn/home）

エコシステム構築

一般的に言えば、AI 科学コミュニティは、モデルのパラメータが大きいほど、汎用人工知能の可能性が高くなると考えています。しかし、大規模モデルの出現は基礎に過ぎません。人工知能アプリケーションの実装を真に加速するには、大規模なエコシステムのサポートも必要です。唐潔氏はインタビューでこう語った。「私たちが考えているのは、エコロジーという一つの問題です。単に数字を数えるのではなく、1兆ドル規模のモデルを実現可能にするエコロジーをいかに構築するかです。」

「私たちは『Wudao』エコシステムを構築し、産業エコシステム、オープンソースエコシステム、アプリケーションエコシステム、データエコシステムを構築して、誰もが参加できるようにしたいと考えています。研究開発、アプリケーション、さらには産業化を行うことができます。データだけを持っている場合は、データを貢献して共有することもできます。エコシステムの助けを借りて、モデル全体をよりインテリジェントにすることができます。」

「Wudao 2.0」は、エコシステムの構築を加速するために、効率性と使いやすさの面で開発者に利便性を提供することを目指しています。

Wudao 2.0 事前トレーニングフレームワークには、「効率的なエンコード、効率的なモデル、効率的なトレーニング、効率的な微調整、効率的な推論」という 5 つの主要な特徴があり、真に産業用アプリケーションを対象としています。 WuDao 2.0 事前トレーニングフレームワークには、世界最大の中国語コーパスである WuDaoCorpora も統合されており、これには最大の中国語テキストデータセット、マルチモーダルデータセット、中国語対話データセットが含まれます。

「Wudao 2.0」事前トレーニングフレームワークを入手した企業や開発者は、これを迅速に展開し、実際のビジネスに適用できます。現在、「Wudao 2.0」は、Meituan、Xiaomi、Kuaishou、360、Sogou、Cambrian、4Paradigm、Inference Technology、TAL Education Group、XiaoIce Technologyなどと提携し、共同でモデルエコシステムを構築しています。

「大規模モデルの改良」は時代の潮流ではありますが、「超大規模な事前学習済みモデルの進化は、汎用人工知能の実現に必要な条件なのか？」という疑問を抱く方もいらっしゃるかもしれません。これに対して唐潔は次のように答えた。

「これは実現可能な道だとしか言えません。数年前、汎用人工知能戦略、つまりAGI戦略が提案されたとき、多くの人がそれを嘲笑したり、不可能だと思ったりしました。しかし今、この道では誰もが少なくとも少しは進歩しているのを目にしているので、これは非常に実現可能な道だと思います。将来的にこれが唯一の道、あるいは必要な道になるかどうかは定かではありません。」

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: サイバーセキュリティにおける人工知能の4つの利点と課題

>>: 「無人運転」について、投資界の大物が4つの大きな予測を示した