1.2兆パラメータ:Googleの汎用スパース言語モデルGLaM、小サンプル学習がGPT-3を上回る

1.2兆パラメータ:Googleの汎用スパース言語モデルGLaM、小サンプル学習がGPT-3を上回る

[[439859]]

近年、モデルの規模はどんどん大きくなっています。例えば、2018年に登場したGPTのパラメータ数は1億1,700万でした。1年後の2019年には、GPT-2のパラメータ数が15億に達しました。2020年には、1,750億のパラメータを持つGPT-3に拡張されました。 OpenAIが構築したスーパーコンピューターには285,000個のCPUコアと10,000個のGPUがあり、OpenAIはそこですべてのAIモデルをトレーニングしていると理解されている。

大規模言語モデルのトレーニングにはコストがかかりますが、読解や質問への回答など、さまざまなタスクで小規模な学習を実行できるなど、重要な側面もあります。ただし、これらのモデルでは、より多くのパラメータを使用するだけで、より優れたパフォーマンスを実現できます。しかし、これらのモデルをより効率的にトレーニングして使用する方法はあるのでしょうか?

この疑問に答えるために、Google は数兆の重みを持つ Generalist Language Model (GLaM) を発表しました。このモデルの主な特徴はスパース性であり、これにより効率的なトレーニングとサービス提供 (コンピューティングとリソースの使用の観点から) が可能になり、複数の小さなサンプルの学習タスクで競争力のあるパフォーマンスを実現します。

GLaM モデルの詳細を見てみましょう。

データセット

Google はまず、1.6 兆個のトークンを含む高品質のデータセットを構築しました。その大部分は、プロの執筆から低品質のレビューやフォーラム ページに至るまで、さまざまな Web ページから取得されています。さらに、Google は、Wikipedia と書籍のテキスト データセットでトレーニングされたテキスト品質フィルターを開発しました。フィルターのトレーニングに使用されるデータセットの品質は非常に高いため、Google はそれを使用して Web ページ コンテンツの品質をフィルタリングします。最後に、Google はこのフィルターを適用して Web ページの最終的なサブセットを生成し、それを書籍や Wikipedia のデータと組み合わせて最終的なトレーニング データセットを作成します。

GLaM モデルアーキテクチャ

GLaM は、異なる入力にそれぞれ特化した異なるサブモデル (またはエキスパート) を持つと考えられる、エキスパート混合 (MoE) モデルです。各レイヤーのエキスパートは、入力データに基づいてエキスパートをアクティブ化するゲーティング ネットワークによって制御されます。各トークン (通常は単語または単語の一部) ごとに、ゲーティング ネットワークはデータを処理するために最も適切な 2 人の専門家を選択します。完全な GLaM には合計 1.2T のパラメーターがあり、各 MoE には 64 人のエキスパートと合計 32 の MoE レイヤーが含まれますが、推論中、モデルは 97B のパラメーターのみをアクティブ化し、これは合計パラメーターの 8% を占めます。

GLaM のアーキテクチャでは、各入力トークンは予測のために 64 のエキスパート ネットワークから選択された 2 つのエキスパート ネットワークに動的にルーティングされます。

GShard MoE Transformer と同様に、Google は他のトランスフォーマー レイヤーの単一のフィードフォワード ネットワーク (上図の青いボックス内の Feedforward または FFN など、人工ニューラル ネットワークの最も単純なレイヤー) を MoE レイヤーに置き換えました。 MoE レイヤーには複数のエキスパートがあり、各エキスパートは同じアーキテクチャを持ちながら重みパラメータが異なるフィードフォワード ネットワークです。

MoE レイヤーには多くのパラメーターがありますが、エキスパートはまばらにアクティブ化されます。つまり、特定の入力トークンに対して 2 つのエキスパートのみが使用され、計算を制限しながらモデルの容量を増やすという利点があります。トレーニング中、各 MoE レイヤー ゲーティング ネットワークは、入力を使用して各トークンの最適な 2 人のエキスパートをアクティブ化するようにトレーニングされ、その後推論に使用されます。 MoE レイヤーの E エキスパートにとって、これは本質的に、従来の Transformer の 1 つの組み合わせではなく、E×(E-1) の異なるフィードフォワード ネットワークの組み合わせのコレクションを提供し、計算の柔軟性が向上します。

最終的に学習されたトークン表現は、2 人のエキスパートからの出力の加重組み合わせであり、これにより、異なるエキスパートが異なるタイプの入力をアクティブ化できるようになります。より大きなモデルへのスケーラビリティを実現するために、GLaM アーキテクチャの各エキスパートは複数のコンピューティング デバイスにまたがることができます。 Google は、GSPMD コンパイラ バックエンドを使用してエキスパートのスケーリングの課題に対処し、スパース アクティベーション言語モデルがどのようにスケーリングされるかを理解するために、複数のバリアント (エキスパートのサイズとエキスパートの数に基づく) をトレーニングします。

評価セットアップ

Google はゼロショット設定とワンショット設定の両方を使用しており、トレーニング中に目に見えないタスクが使用されます。評価基準は次のとおりです。

  • 穴埋め問題と補完問題。
  • オープンドメインの質問応答。
  • ウィノグラードスタイルのタスク。
  • 常識的な推論;
  • 文脈的読解力
  • SuperGLUE タスク。
  • 自然言語推論。

Google は、生成されたフレーズが真の値の目標に基づいて評価される合計 8 つの自然言語生成 (NLG) タスクと、条件付き対数尤度を使用して複数のオプションの中から予測が選択される 21 の自然言語理解 (NLU) タスクを使用しました。

実験結果

MoE レイヤーごとにエキスパートが 1 人だけの場合、GLaM は基本的な Transformer ベースの高密度モデル アーキテクチャに縮小されます。すべての実験において、Google は「ベース高密度モデルのサイズ / MoE レイヤーごとのエキスパート数」を使用して GLaM モデルを記述します。たとえば、1B/64E は、1B パラメータを持つ高密度モデル アーキテクチャを表し、1 つおきのレイヤーが 64 個のエキスパート MoE レイヤーに置き換えられます。

Google は、同じデータセットでトレーニングされたベースライン高密度モデルを含む GLaM のパフォーマンスとスケーリング特性をテストしました。 Microsoft と NVIDIA が最近発表した Megatron-Turing と比較すると、GLaM は 7 つの異なるタスクで 5% のマージンで同等のパフォーマンスを達成し、推論中に使用される計算能力を 4/5 削減します。

さらに、1.2T パラメータのスパース活性化モデル (GLaM) は、推論時の計算量を抑えながら、1.75B パラメータの高密度 GPT-3 モデルよりも多くのタスクで優れた平均結果を実現します。

NLG (左) および NLU (右) タスクにおける GLaM および GPT-3 の平均スコア (高いほど良い)。

Googleは、29のベンチマークにおけるGLaMとGPT-3のパフォーマンス比較結果をまとめました。結果は、GLaM がゼロショット タスクの約 80%、ワンショット タスクの約 90% で GPT-3 のパフォーマンスを上回るか同等であることを示しています。

さらに、GLaM のフル バージョンには合計 1.2T のパラメータがありますが、推論中に各トークンがアクティブにするサブネットワークは 97B のパラメータ (1.2T の 8%) のみです。

拡張機能

GLaM は、次の 2 つの方法で拡張されます。1) レイヤーごとのエキスパートの数を拡張する方法 (各エキスパートは単一のコンピューティング デバイスでホストされます)。2) 各エキスパートのサイズを単一のデバイスの制限を超えて拡張する方法。スケーリング特性を評価するために、推論時のトークンあたりの FLOPS が同様の対応する密なモデルを比較します。

各エキスパートのサイズを大きくした場合のゼロショットとワンショットの平均パフォーマンス。エキスパートのサイズが大きくなるにつれて、推論時のトークン予測あたりの FLOPS も増加します。

上の図に示すように、タスク全体のパフォーマンスはエキスパートの規模に比例します。生成タスクの推論中、GLaM スパース活性化モデルは、同様の FLOP を持つ密なモデルよりも優れたパフォーマンスを発揮します。理解タスクについては、小規模では同様のパフォーマンスを示しましたが、大規模ではスパース活性化モデルの方がパフォーマンスが優れていることがわかりました。

データ効率

大規模な言語モデルのトレーニングには計算負荷がかかるため、効率を向上させることでエネルギー消費を削減できます。この研究では、GLaM のフルバージョンの計算コストを実証します。

モデル推論 (左) とトレーニング (右) の計算コスト (GFLOPS)。

これらの計算コストは​​、GLaM がより多くのトークンでトレーニングするためトレーニング中に多くの計算を使用するが、推論中ははるかに少ない計算を使用することを示しています。下の図は、異なる数のトークンを使用したトレーニングの比較結果を示し、モデルの学習曲線を評価しています。

トレーニング中に処理されるトークンが増えるにつれて、8 世代タスクにおけるスパース アクティベーション モデルと密なモデルのゼロ ショットおよびワン ショットの平均パフォーマンスが向上します。

トレーニング中に処理されるトークンが増えるにつれて、21 の理解タスクにおけるスパース アクティベーション モデルと密なモデルのゼロ ショットおよびワン ショットの平均パフォーマンスが向上します。

結果は、スパース活性化モデルが、トレーニングに使用するデータ量を大幅に減らしながら、密なモデルと同様のゼロショットおよびワンショットのパフォーマンスを達成することを示しています。さらに、同じ量のデータの場合、スパース モデルのパフォーマンスは大幅に向上します。

最後に、Google は GLam のエネルギー効率を評価しました。

トレーニング中の GLaM と GPT-3 のエネルギー消費量の比較。

GLaM はトレーニング中に多くの計算能力を使用しますが、GSPMD (Google が 5 月にリリースした一般的な機械学習計算グラフ用のコンパイラベースの自動並列システム) によって実現されるより効率的なソフトウェア実装と TPUv4 の利点により、トレーニング中の他のモデルよりも消費エネルギーが少なくなります。

<<:  組織のインテリジェントな進化に焦点を当てた百度Ruliuインテリジェントワークプラットフォーム2.0がリリース

>>:  データ構造とアルゴリズム: 単調に増加する数値

ブログ    
ブログ    
ブログ    

推薦する

...

...

機械に記憶を与える: DeepMind の主要研究は柔軟な重み統合アルゴリズムを提案

世界で最も注目されている人工知能研究機関のひとつである Google DeepMind は、常に私た...

リスト発表:海雲捷雲の田良氏が「2021年科学技術影響力のある人物賞」を受賞

著名なIT技術メディア51CTOが主催する第16回中国企業年次選考活動「IT印象:イノベーションの活...

PyTorch チームが「すべてを分割」モデルを書き直し、元の実装より 8 倍高速化

今年初めから現在に至るまで、生成AIは急速に発展してきました。しかし、多くの場合、特に PyTorc...

AIエージェント、起動!復旦 NLP チームが 86 ページのレビューを発表: インテリジェント社会はすぐそこ

9 月 19 日、Jim Fan は Fudan NLP チームからの LLM ベースのエージェント...

フェイフェイ・リー氏のチームは、一人暮らしの高齢者のCOVID-19症状を監視する家庭用AIシステムを開発

[[321322]]フェイフェイ・リーCOVID-19パンデミックにより、高齢者の介護はさらに困難に...

...

...

アルゴリズム図: スタック内の最小値を見つけるにはどうすればよいでしょうか?

[[345846]]この記事はWeChatの公開アカウント「Java Chinese Commun...

ウナギの下半身は切り落とされた後もまだ動きます。ロボット: 受け取ってください。

[[418811]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitA...

...

ロボットの時代、トラクターの背後にある1兆ドル市場

自動化農業の需要を満たすには、栽培者は栽培シーズンを通して作物の成長と健康に関する正確な情報を入手し...

調査 | AIと機械自動化が社会に与える影響に関する世界の見解

[[358905]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...