1.2兆パラメータ：Googleの汎用スパース言語モデルGLaM、小サンプル学習がGPT-3を上回る

[[439859]]

近年、モデルの規模はどんどん大きくなっています。例えば、2018年に登場したGPTのパラメータ数は1億1,700万でした。1年後の2019年には、GPT-2のパラメータ数が15億に達しました。2020年には、1,750億のパラメータを持つGPT-3に拡張されました。 OpenAIが構築したスーパーコンピューターには285,000個のCPUコアと10,000個のGPUがあり、OpenAIはそこですべてのAIモデルをトレーニングしていると理解されている。

大規模言語モデルのトレーニングにはコストがかかりますが、読解や質問への回答など、さまざまなタスクで小規模な学習を実行できるなど、重要な側面もあります。ただし、これらのモデルでは、より多くのパラメータを使用するだけで、より優れたパフォーマンスを実現できます。しかし、これらのモデルをより効率的にトレーニングして使用する方法はあるのでしょうか?

この疑問に答えるために、Google は数兆の重みを持つ Generalist Language Model (GLaM) を発表しました。このモデルの主な特徴はスパース性であり、これにより効率的なトレーニングとサービス提供 (コンピューティングとリソースの使用の観点から) が可能になり、複数の小さなサンプルの学習タスクで競争力のあるパフォーマンスを実現します。

GLaM モデルの詳細を見てみましょう。

データセット

Google はまず、1.6 兆個のトークンを含む高品質のデータセットを構築しました。その大部分は、プロの執筆から低品質のレビューやフォーラムページに至るまで、さまざまな Web ページから取得されています。さらに、Google は、Wikipedia と書籍のテキストデータセットでトレーニングされたテキスト品質フィルターを開発しました。フィルターのトレーニングに使用されるデータセットの品質は非常に高いため、Google はそれを使用して Web ページコンテンツの品質をフィルタリングします。最後に、Google はこのフィルターを適用して Web ページの最終的なサブセットを生成し、それを書籍や Wikipedia のデータと組み合わせて最終的なトレーニングデータセットを作成します。

GLaM モデルアーキテクチャ

GLaM は、異なる入力にそれぞれ特化した異なるサブモデル (またはエキスパート) を持つと考えられる、エキスパート混合 (MoE) モデルです。各レイヤーのエキスパートは、入力データに基づいてエキスパートをアクティブ化するゲーティングネットワークによって制御されます。各トークン (通常は単語または単語の一部) ごとに、ゲーティングネットワークはデータを処理するために最も適切な 2 人の専門家を選択します。完全な GLaM には合計 1.2T のパラメーターがあり、各 MoE には 64 人のエキスパートと合計 32 の MoE レイヤーが含まれますが、推論中、モデルは 97B のパラメーターのみをアクティブ化し、これは合計パラメーターの 8% を占めます。

GLaM のアーキテクチャでは、各入力トークンは予測のために 64 のエキスパートネットワークから選択された 2 つのエキスパートネットワークに動的にルーティングされます。

GShard MoE Transformer と同様に、Google は他のトランスフォーマーレイヤーの単一のフィードフォワードネットワーク (上図の青いボックス内の Feedforward または FFN など、人工ニューラルネットワークの最も単純なレイヤー) を MoE レイヤーに置き換えました。 MoE レイヤーには複数のエキスパートがあり、各エキスパートは同じアーキテクチャを持ちながら重みパラメータが異なるフィードフォワードネットワークです。

MoE レイヤーには多くのパラメーターがありますが、エキスパートはまばらにアクティブ化されます。つまり、特定の入力トークンに対して 2 つのエキスパートのみが使用され、計算を制限しながらモデルの容量を増やすという利点があります。トレーニング中、各 MoE レイヤーゲーティングネットワークは、入力を使用して各トークンの最適な 2 人のエキスパートをアクティブ化するようにトレーニングされ、その後推論に使用されます。 MoE レイヤーの E エキスパートにとって、これは本質的に、従来の Transformer の 1 つの組み合わせではなく、E×(E-1) の異なるフィードフォワードネットワークの組み合わせのコレクションを提供し、計算の柔軟性が向上します。

最終的に学習されたトークン表現は、2 人のエキスパートからの出力の加重組み合わせであり、これにより、異なるエキスパートが異なるタイプの入力をアクティブ化できるようになります。より大きなモデルへのスケーラビリティを実現するために、GLaM アーキテクチャの各エキスパートは複数のコンピューティングデバイスにまたがることができます。 Google は、GSPMD コンパイラバックエンドを使用してエキスパートのスケーリングの課題に対処し、スパースアクティベーション言語モデルがどのようにスケーリングされるかを理解するために、複数のバリアント (エキスパートのサイズとエキスパートの数に基づく) をトレーニングします。

評価セットアップ

Google はゼロショット設定とワンショット設定の両方を使用しており、トレーニング中に目に見えないタスクが使用されます。評価基準は次のとおりです。

穴埋め問題と補完問題。
オープンドメインの質問応答。
ウィノグラードスタイルのタスク。
常識的な推論;
文脈的読解力
SuperGLUE タスク。
自然言語推論。

Google は、生成されたフレーズが真の値の目標に基づいて評価される合計 8 つの自然言語生成 (NLG) タスクと、条件付き対数尤度を使用して複数のオプションの中から予測が選択される 21 の自然言語理解 (NLU) タスクを使用しました。

実験結果

MoE レイヤーごとにエキスパートが 1 人だけの場合、GLaM は基本的な Transformer ベースの高密度モデルアーキテクチャに縮小されます。すべての実験において、Google は「ベース高密度モデルのサイズ / MoE レイヤーごとのエキスパート数」を使用して GLaM モデルを記述します。たとえば、1B/64E は、1B パラメータを持つ高密度モデルアーキテクチャを表し、1 つおきのレイヤーが 64 個のエキスパート MoE レイヤーに置き換えられます。

Google は、同じデータセットでトレーニングされたベースライン高密度モデルを含む GLaM のパフォーマンスとスケーリング特性をテストしました。 Microsoft と NVIDIA が最近発表した Megatron-Turing と比較すると、GLaM は 7 つの異なるタスクで 5% のマージンで同等のパフォーマンスを達成し、推論中に使用される計算能力を 4/5 削減します。

さらに、1.2T パラメータのスパース活性化モデル (GLaM) は、推論時の計算量を抑えながら、1.75B パラメータの高密度 GPT-3 モデルよりも多くのタスクで優れた平均結果を実現します。

NLG (左) および NLU (右) タスクにおける GLaM および GPT-3 の平均スコア (高いほど良い)。

Googleは、29のベンチマークにおけるGLaMとGPT-3のパフォーマンス比較結果をまとめました。結果は、GLaM がゼロショットタスクの約 80%、ワンショットタスクの約 90% で GPT-3 のパフォーマンスを上回るか同等であることを示しています。

さらに、GLaM のフルバージョンには合計 1.2T のパラメータがありますが、推論中に各トークンがアクティブにするサブネットワークは 97B のパラメータ (1.2T の 8%) のみです。

拡張機能

GLaM は、次の 2 つの方法で拡張されます。1) レイヤーごとのエキスパートの数を拡張する方法 (各エキスパートは単一のコンピューティングデバイスでホストされます)。2) 各エキスパートのサイズを単一のデバイスの制限を超えて拡張する方法。スケーリング特性を評価するために、推論時のトークンあたりの FLOPS が同様の対応する密なモデルを比較します。

各エキスパートのサイズを大きくした場合のゼロショットとワンショットの平均パフォーマンス。エキスパートのサイズが大きくなるにつれて、推論時のトークン予測あたりの FLOPS も増加します。

上の図に示すように、タスク全体のパフォーマンスはエキスパートの規模に比例します。生成タスクの推論中、GLaM スパース活性化モデルは、同様の FLOP を持つ密なモデルよりも優れたパフォーマンスを発揮します。理解タスクについては、小規模では同様のパフォーマンスを示しましたが、大規模ではスパース活性化モデルの方がパフォーマンスが優れていることがわかりました。

データ効率

大規模な言語モデルのトレーニングには計算負荷がかかるため、効率を向上させることでエネルギー消費を削減できます。この研究では、GLaM のフルバージョンの計算コストを実証します。

モデル推論 (左) とトレーニング (右) の計算コスト (GFLOPS)。

これらの計算コストは、GLaM がより多くのトークンでトレーニングするためトレーニング中に多くの計算を使用するが、推論中ははるかに少ない計算を使用することを示しています。下の図は、異なる数のトークンを使用したトレーニングの比較結果を示し、モデルの学習曲線を評価しています。

トレーニング中に処理されるトークンが増えるにつれて、8 世代タスクにおけるスパースアクティベーションモデルと密なモデルのゼロショットおよびワンショットの平均パフォーマンスが向上します。

トレーニング中に処理されるトークンが増えるにつれて、21 の理解タスクにおけるスパースアクティベーションモデルと密なモデルのゼロショットおよびワンショットの平均パフォーマンスが向上します。

結果は、スパース活性化モデルが、トレーニングに使用するデータ量を大幅に減らしながら、密なモデルと同様のゼロショットおよびワンショットのパフォーマンスを達成することを示しています。さらに、同じ量のデータの場合、スパースモデルのパフォーマンスは大幅に向上します。

最後に、Google は GLam のエネルギー効率を評価しました。

トレーニング中の GLaM と GPT-3 のエネルギー消費量の比較。

GLaM はトレーニング中に多くの計算能力を使用しますが、GSPMD (Google が 5 月にリリースした一般的な機械学習計算グラフ用のコンパイラベースの自動並列システム) によって実現されるより効率的なソフトウェア実装と TPUv4 の利点により、トレーニング中の他のモデルよりも消費エネルギーが少なくなります。

<<: 組織のインテリジェントな進化に焦点を当てた百度Ruliuインテリジェントワークプラットフォーム2.0がリリース

>>: データ構造とアルゴリズム: 単調に増加する数値