中国語と英語で最大のAIモデルの世界記録が樹立され、大規模モデル競争の新たなステージが到来

[[429193]]

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

超大規模 AI モデルのトレーニングコストは維持するには高すぎるのでしょうか?時価総額が数兆ドルにも上る企業も協力を求め始めている。

今週、NVIDIAとMicrosoftは共同で5300億のパラメータを持つ「Megatron-Turing」をリリースしました。これはこれまでで世界最大の単一AIモデルとなりました。

わずか半月前、中国のInspurは2500億のパラメータを持つ中国のAI巨大モデル「Source 1.0」をリリースした。

わずか1か月足らずで、英語と中国語のAI単一モデルの最大記録がそれぞれ破られました。

注目すべき点は以下のとおりです。

技術が急速に発展したにもかかわらず、メガトロン・チューリングとソース 1.0 は依然として指数法則の期待に応えることができませんでした。

2018 年以降、NLP モデルのパラメータは毎年ほぼ 1 桁の割合で増加していることを知っておく必要があります。

△近年、NLPモデルのパラメータは飛躍的に増加している（画像はMicrosoftより）

GPT-3の登場以降、Switch Transformerなどの兆パラメータハイブリッドモデルが登場したものの、単一モデルの成長率は大幅に鈍化しました。

海外の「メガトロン・チューリング」であれ、国内の「ソース1.0」であれ、その規模は桁違いでGPT-3と変わりません。 Megatron Turing と Source 1.0 はどちらも最も強力なハードウェアクラスターを使用していました。

モノリシックモデルは開発のボトルネックに達しましたか?

超大型モデルの3つのモード

この質問に答えるには、まず近年登場した超大規模 NLP モデルを見直す必要があります。

モデル開発者の観点から見ると、超大規模 NLP モデルの研究開発は時間の経過とともに徐々に 3 つのパターンを形成してきました。

1. 研究機関が主導権を握る

ELMoを開発したアレン研究所も、GPT-2を開発したOpenAI（当時はまだマイクロソフトの投資は導入されていなかった）も、利益を上げることを目的としていなかった。

さらに、現段階の超大規模 NLP モデルはすべてオープンソースであり、オープンソースコミュニティによってさまざまな方法で再現および改良されています。

ELMoには40以上の非公式実装があり、GPT-2も中国語処理用に国内開発者によって導入されています。

2. テクノロジー大手の支配

モデルが大きくなるにつれて、トレーニング中のハードウェアの最適化が特に重要になります。

2019年後半からは、より大規模なNLPモデルの開発に向けて、さまざまな企業が大規模な並列トレーニングやモデル拡張技術の開発に取り組んでいます。 Nvidia Megatron-LM、Google T5、Microsoft Turing-NLGが次々と登場しました。

今年は国内のテクノロジー企業も同様の研究を開始した。中国のAIモデル「Source 1.0」は国内のハードウェア企業にとって画期的な進歩だ。

これは中国分野で最大のNLPモデルとなり、パラメータ数が最も多い最大モデルとして新記録を樹立しました。

「Source 1.0」は、最大5TBの世界最大の中国の高品質データセットを備えているだけでなく、総計算能力とトレーニング効率の最適化の点でも前例のないものです。

3. 巨大企業と研究機関、あるいは巨大企業同士の協力

この技術を所有するOpenAIは高額なコストを負担できず、マイクロソフトから10億ドルの投資を獲得した。大規模なハードウェアとデータセットのリソースに依存し、1,750億のパラメータを持つGPT-3が昨年リリースされました。

しかし、今年の兆パラメータモデルGPT-4は期待通りには登場しなかった。代わりに、MicrosoftとNVIDIAが協力して「Megatron Turing」を発表した。

国内情勢に目を戻しましょう。

「メガトロン・チューリング」の発売前には、アリババ・ダモ・アカデミーPLUGや中国の「Source 1.0」など、国内外で多くの超大型AI単体モデルが登場した。

NVIDIA、Microsoft、Google、Huawei、Inspur などの企業が参加しているのは、一方では AI 研究に大量のコンピューティングパワーのサポートを提供するためであり、他方では大規模な並列コンピューティングの豊富な経験を持っているためです。

AI モデルのパラメータが数千億に達するまで増加し続けるにつれて、トレーニングモデルの実現可能性には 2 つの大きな課題が伴います。

1. 最も強力な GPU を使用しても、モデルパラメータを 1 枚のカードのビデオメモリに収めることは不可能になります。

2. アルゴリズム、ソフトウェア、ハードウェアスタックの最適化に細心の注意を払わないと、非常に大きなコンピューティングリソースによってトレーニング時間が非現実的になる可能性があります。

しかし、既存の 3 つの並列戦略では計算効率に妥協があり、両方の長所を活かすことが困難になっています。

この目的のために、NVIDIA と Microsoft が協力しました。同じ問題に直面した Inspur も、「Source 1.0」の最先端技術を使用して、トレーニング効率の問題を解決しました。

arXiv の論文「Source 1.0」から、計算効率を向上させるこの方法を垣間見ることができます。

ソースの大規模な分散トレーニングでは、Inspur はテンソル並列、パイプライン並列、データ並列の 3 次元並列戦略を採用しています。

Megatron-Turing は、Source 1.0 と同様に、モデルのレイヤーがノード内のデバイス間で分割されるテンソル並列戦略を使用します。

パイプラインの並列処理により、モデルのレイヤーシーケンスが複数のノードに分割され、ストレージスペース不足の問題が解決されます。

グローバルバッチサイズをパイプライングループに分割するデータ並列戦略もあります。

3 社はそれぞれの技術を活用して最先端の GPU と最先端の分散学習ソフトウェアスタックを統合し、前例のないトレーニング効率を達成し、最終的にそれぞれ英語と中国語の分野で最大の単一 AI モデルを作成しました。

超大規模自然言語モデルのトレーニングコストは増加していますが、技術はさまざまなアプローチを通じて同じ結論に達しており、研究機関とテクノロジー大手の共同開発につながり、3つの探索モデルが並行して実行されています。

中国とイギリスのAIモデルにはそれぞれ長所と短所がある

研修コストが増加し、テクノロジーが似通ってくる中、なぜ企業は協力を求めるのではなく独自に研究を行うことを選択するのでしょうか?

おそらく、GPT-3 からこれを確認できるでしょう。

昨年リリースされた GPT-3 はオープンソースではないだけでなく、API の利用も制限されています。Microsoft の投資により、GPT-3 は将来的に Microsoft が独占的に所有する知的財産権を持つことになります。その全機能を利用したい他の企業や個人は、絶望のため息をつくしかありません。

極めて高額なトレーニング費用、倫理的問題、そして業界における主導的地位を維持する必要性により、Microsoft は技術の委託を行うことができませんでした。他のテクノロジー企業が自社の運命をマイクロソフトに委ねることは不可能であり、自ら発展することしか選択できない。

特に中国のユーザーにとって、上記の大規模モデルは中国のデータセットでトレーニングされていないため、中国のコンテキストでは使用できません。

中国語のトレーニングも英語よりも難しいです。英語は単語で構成されており、自然な単語分割特性を持っています。

中国語では、まず「南京長江橋」、南京 | 長江 | 橋、南京 | 市長 | 川橋のように文章を分割する必要があります。分割が間違っていると、AI に曖昧さが生じます。

スペースを区切り文字とする英語と比較すると、中国語の単語分割には統一された基準がありません。異なる文脈や文章では、同じ単語の意味が大きく異なる場合があります。また、さまざまな新しいインターネット用語や中国語と英語が混在する単語もあります。優れた中国語の言語モデルを作成するには、より多くの労力が必要です。

したがって、国内企業が中国モデルをより積極的に研究している理由を理解するのは難しくありません。

難易度は高かったものの、データセットやトレーニング効率など、国内企業はかつては世界最先端を走っていた。

Inspur の論文によると、「Source 1.0」ハードウェアでは 2128 個の GPU が使用されました。Inspur は合計 850 TB のデータを収集し、最終的にそれをクリーンアップして 5 TB の高品質な中国語データセットを取得しました。

そのテキストデータ量は「メガトロン・チューリング」（835GB）よりも大きく、中国語の情報エントロピーは英語よりもはるかに高いため、情報量は実際にはより多くなります。

トレーニング効率の点では、Source 1.0 のトレーニングには 16 日かかり、Turing Wei-Zhentian のトレーニングには 1 か月以上かかりました。前者は後者の 3 倍以上のデータ量がありますが、時間は半分しかかかりません。

中国語に重点を置き、効率性を重視していることは明らかです。

ビッグモデルの交流から、開発が百花繚乱、百家争鳴の段階に入っていることがわかります。これは私たちに新たなアイデアを与えてくれます。AIビッグモデルは密室で開発されているわけではないので、どのように協力に向かっていけばよいのでしょうか。

多国間協力が未来の姿になるかもしれない

表面的には、「メガトロン-チューリング NLG」は、2 つのテクノロジー大手が協力して超大規模 AI モデルを立ち上げた初めてのケースです。

舞台裏では、両者は「超高級」ハードウェアラインナップを形成しただけでなく、アルゴリズムも統合しました。強力な力の組み合わせは、超大規模 AI モデルを実装する新しい方法になりました。

外資系大手が前例を作っているが、国内企業の現状はどうなっているのだろうか。実際、いくつかの組織はすでに協力に向けた第一歩を踏み出しています。

Inspur の「Source 1.0」も、オリジナルの「Megatron」と同様に、ハードウェアメーカーが開発した超大規模自然言語モデルです。

実際、インスパーは9月28日の記者会見で国内の学者や数社のテクノロジー企業を招待し、将来の「ソース1.0」協力の可能性について議論したことを明らかにした。

業界では、Inspurは以前から「Metabrainプロジェクト」のエコシステム同盟を提案してきました。将来的には、「Source 1.0」はMetabrainエコシステムコミュニティのすべての開発者にAPIを公開します。エコシステムに参加するすべてのAIテクノロジー企業は、「Source 1.0」を二次開発に使用して、より強力な機能を作成できます。

国内超大規模自然言語モデル連携の時代が始まっています。

大規模モデルの共同開発は何をもたらすのでしょうか? Fei-Fei Li などの著名な学者はすでに答えを出しています。データの規模とパラメータの規模が一定のレベルに達すると、量的な変化は最終的に質的な変化につながり、GPT-3 はその前例です。

昨今、大型モデルが増えていますが、今後の鍵となるのは、あらゆるテクノロジー企業が連携できるオープンな協力体制をいかに構築し、運営していくかです。

AI大規模モデルは、このようなエコシステムにどのような変化をもたらすのでしょうか。「Source 1.0」などのモデルが大量に公開されれば、すぐにわかるはずです。

<<: 自動運転のための不確実性を考慮した動作計画：強化学習ベースのアプローチ

>>: AIは近い将来自己認識できるようになるのでしょうか? Facebook がメタバースへの扉を開く「Ego4D」を発表