1.2兆パラメータ:Googleの汎用スパース言語モデルGLaM、小サンプル学習がGPT-3を上回る

1.2兆パラメータ:Googleの汎用スパース言語モデルGLaM、小サンプル学習がGPT-3を上回る

[[439859]]

近年、モデルの規模はどんどん大きくなっています。例えば、2018年に登場したGPTのパラメータ数は1億1,700万でした。1年後の2019年には、GPT-2のパラメータ数が15億に達しました。2020年には、1,750億のパラメータを持つGPT-3に拡張されました。 OpenAIが構築したスーパーコンピューターには285,000個のCPUコアと10,000個のGPUがあり、OpenAIはそこですべてのAIモデルをトレーニングしていると理解されている。

大規模言語モデルのトレーニングにはコストがかかりますが、読解や質問への回答など、さまざまなタスクで小規模な学習を実行できるなど、重要な側面もあります。ただし、これらのモデルでは、より多くのパラメータを使用するだけで、より優れたパフォーマンスを実現できます。しかし、これらのモデルをより効率的にトレーニングして使用する方法はあるのでしょうか?

この疑問に答えるために、Google は数兆の重みを持つ Generalist Language Model (GLaM) を発表しました。このモデルの主な特徴はスパース性であり、これにより効率的なトレーニングとサービス提供 (コンピューティングとリソースの使用の観点から) が可能になり、複数の小さなサンプルの学習タスクで競争力のあるパフォーマンスを実現します。

GLaM モデルの詳細を見てみましょう。

データセット

Google はまず、1.6 兆個のトークンを含む高品質のデータセットを構築しました。その大部分は、プロの執筆から低品質のレビューやフォーラム ページに至るまで、さまざまな Web ページから取得されています。さらに、Google は、Wikipedia と書籍のテキスト データセットでトレーニングされたテキスト品質フィルターを開発しました。フィルターのトレーニングに使用されるデータセットの品質は非常に高いため、Google はそれを使用して Web ページ コンテンツの品質をフィルタリングします。最後に、Google はこのフィルターを適用して Web ページの最終的なサブセットを生成し、それを書籍や Wikipedia のデータと組み合わせて最終的なトレーニング データセットを作成します。

GLaM モデルアーキテクチャ

GLaM は、異なる入力にそれぞれ特化した異なるサブモデル (またはエキスパート) を持つと考えられる、エキスパート混合 (MoE) モデルです。各レイヤーのエキスパートは、入力データに基づいてエキスパートをアクティブ化するゲーティング ネットワークによって制御されます。各トークン (通常は単語または単語の一部) ごとに、ゲーティング ネットワークはデータを処理するために最も適切な 2 人の専門家を選択します。完全な GLaM には合計 1.2T のパラメーターがあり、各 MoE には 64 人のエキスパートと合計 32 の MoE レイヤーが含まれますが、推論中、モデルは 97B のパラメーターのみをアクティブ化し、これは合計パラメーターの 8% を占めます。

GLaM のアーキテクチャでは、各入力トークンは予測のために 64 のエキスパート ネットワークから選択された 2 つのエキスパート ネットワークに動的にルーティングされます。

GShard MoE Transformer と同様に、Google は他のトランスフォーマー レイヤーの単一のフィードフォワード ネットワーク (上図の青いボックス内の Feedforward または FFN など、人工ニューラル ネットワークの最も単純なレイヤー) を MoE レイヤーに置き換えました。 MoE レイヤーには複数のエキスパートがあり、各エキスパートは同じアーキテクチャを持ちながら重みパラメータが異なるフィードフォワード ネットワークです。

MoE レイヤーには多くのパラメーターがありますが、エキスパートはまばらにアクティブ化されます。つまり、特定の入力トークンに対して 2 つのエキスパートのみが使用され、計算を制限しながらモデルの容量を増やすという利点があります。トレーニング中、各 MoE レイヤー ゲーティング ネットワークは、入力を使用して各トークンの最適な 2 人のエキスパートをアクティブ化するようにトレーニングされ、その後推論に使用されます。 MoE レイヤーの E エキスパートにとって、これは本質的に、従来の Transformer の 1 つの組み合わせではなく、E×(E-1) の異なるフィードフォワード ネットワークの組み合わせのコレクションを提供し、計算の柔軟性が向上します。

最終的に学習されたトークン表現は、2 人のエキスパートからの出力の加重組み合わせであり、これにより、異なるエキスパートが異なるタイプの入力をアクティブ化できるようになります。より大きなモデルへのスケーラビリティを実現するために、GLaM アーキテクチャの各エキスパートは複数のコンピューティング デバイスにまたがることができます。 Google は、GSPMD コンパイラ バックエンドを使用してエキスパートのスケーリングの課題に対処し、スパース アクティベーション言語モデルがどのようにスケーリングされるかを理解するために、複数のバリアント (エキスパートのサイズとエキスパートの数に基づく) をトレーニングします。

評価セットアップ

Google はゼロショット設定とワンショット設定の両方を使用しており、トレーニング中に目に見えないタスクが使用されます。評価基準は次のとおりです。

  • 穴埋め問題と補完問題。
  • オープンドメインの質問応答。
  • ウィノグラードスタイルのタスク。
  • 常識的な推論;
  • 文脈的読解力
  • SuperGLUE タスク。
  • 自然言語推論。

Google は、生成されたフレーズが真の値の目標に基づいて評価される合計 8 つの自然言語生成 (NLG) タスクと、条件付き対数尤度を使用して複数のオプションの中から予測が選択される 21 の自然言語理解 (NLU) タスクを使用しました。

実験結果

MoE レイヤーごとにエキスパートが 1 人だけの場合、GLaM は基本的な Transformer ベースの高密度モデル アーキテクチャに縮小されます。すべての実験において、Google は「ベース高密度モデルのサイズ / MoE レイヤーごとのエキスパート数」を使用して GLaM モデルを記述します。たとえば、1B/64E は、1B パラメータを持つ高密度モデル アーキテクチャを表し、1 つおきのレイヤーが 64 個のエキスパート MoE レイヤーに置き換えられます。

Google は、同じデータセットでトレーニングされたベースライン高密度モデルを含む GLaM のパフォーマンスとスケーリング特性をテストしました。 Microsoft と NVIDIA が最近発表した Megatron-Turing と比較すると、GLaM は 7 つの異なるタスクで 5% のマージンで同等のパフォーマンスを達成し、推論中に使用される計算能力を 4/5 削減します。

さらに、1.2T パラメータのスパース活性化モデル (GLaM) は、推論時の計算量を抑えながら、1.75B パラメータの高密度 GPT-3 モデルよりも多くのタスクで優れた平均結果を実現します。

NLG (左) および NLU (右) タスクにおける GLaM および GPT-3 の平均スコア (高いほど良い)。

Googleは、29のベンチマークにおけるGLaMとGPT-3のパフォーマンス比較結果をまとめました。結果は、GLaM がゼロショット タスクの約 80%、ワンショット タスクの約 90% で GPT-3 のパフォーマンスを上回るか同等であることを示しています。

さらに、GLaM のフル バージョンには合計 1.2T のパラメータがありますが、推論中に各トークンがアクティブにするサブネットワークは 97B のパラメータ (1.2T の 8%) のみです。

拡張機能

GLaM は、次の 2 つの方法で拡張されます。1) レイヤーごとのエキスパートの数を拡張する方法 (各エキスパートは単一のコンピューティング デバイスでホストされます)。2) 各エキスパートのサイズを単一のデバイスの制限を超えて拡張する方法。スケーリング特性を評価するために、推論時のトークンあたりの FLOPS が同様の対応する密なモデルを比較します。

各エキスパートのサイズを大きくした場合のゼロショットとワンショットの平均パフォーマンス。エキスパートのサイズが大きくなるにつれて、推論時のトークン予測あたりの FLOPS も増加します。

上の図に示すように、タスク全体のパフォーマンスはエキスパートの規模に比例します。生成タスクの推論中、GLaM スパース活性化モデルは、同様の FLOP を持つ密なモデルよりも優れたパフォーマンスを発揮します。理解タスクについては、小規模では同様のパフォーマンスを示しましたが、大規模ではスパース活性化モデルの方がパフォーマンスが優れていることがわかりました。

データ効率

大規模な言語モデルのトレーニングには計算負荷がかかるため、効率を向上させることでエネルギー消費を削減できます。この研究では、GLaM のフルバージョンの計算コストを実証します。

モデル推論 (左) とトレーニング (右) の計算コスト (GFLOPS)。

これらの計算コストは​​、GLaM がより多くのトークンでトレーニングするためトレーニング中に多くの計算を使用するが、推論中ははるかに少ない計算を使用することを示しています。下の図は、異なる数のトークンを使用したトレーニングの比較結果を示し、モデルの学習曲線を評価しています。

トレーニング中に処理されるトークンが増えるにつれて、8 世代タスクにおけるスパース アクティベーション モデルと密なモデルのゼロ ショットおよびワン ショットの平均パフォーマンスが向上します。

トレーニング中に処理されるトークンが増えるにつれて、21 の理解タスクにおけるスパース アクティベーション モデルと密なモデルのゼロ ショットおよびワン ショットの平均パフォーマンスが向上します。

結果は、スパース活性化モデルが、トレーニングに使用するデータ量を大幅に減らしながら、密なモデルと同様のゼロショットおよびワンショットのパフォーマンスを達成することを示しています。さらに、同じ量のデータの場合、スパース モデルのパフォーマンスは大幅に向上します。

最後に、Google は GLam のエネルギー効率を評価しました。

トレーニング中の GLaM と GPT-3 のエネルギー消費量の比較。

GLaM はトレーニング中に多くの計算能力を使用しますが、GSPMD (Google が 5 月にリリースした一般的な機械学習計算グラフ用のコンパイラベースの自動並列システム) によって実現されるより効率的なソフトウェア実装と TPUv4 の利点により、トレーニング中の他のモデルよりも消費エネルギーが少なくなります。

<<:  組織のインテリジェントな進化に焦点を当てた百度Ruliuインテリジェントワークプラットフォーム2.0がリリース

>>:  データ構造とアルゴリズム: 単調に増加する数値

ブログ    
ブログ    
ブログ    

推薦する

疫病流行後、自動運転開発の方向性がより明確になりました!

自動運転は長い間、人々に「とても人気があるが、とても遠い存在」という印象を与えてきました。それは、何...

...

JDデジタルJDDコンペティションの優勝者が発表されました

現在、私たちはAIとビッグデータの急速な発展の時期を迎えています。これらの最先端技術は産業界に力を与...

画像認識が最も得意な会社はどこでしょうか? Microsoft、Amazon、Google、それともIBM?

[51CTO.com クイック翻訳] 認識ソフトウェアは、特定の種類の画像を正しく分類するのに非常...

8ヵ月後、制御された核融合が再び点火に成功しました!出力エネルギーが3.5メガジュールを超え、記録を更新

米国の制御された核融合実験は、再び純エネルギー増加を達成しました!昨年12月14日、ローレンス・リバ...

...

食糧生産・供給システムの改善 — AI が担う時代へ!

[[344152]] 人工知能は私たちの世界を急速に、さらには加速的に変えつつあります。しかし、そ...

AIが絵の描き方を教えてくれる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

COVID-19パンデミックにより非接触型生体認証の利用が拡大

[[403477]]調査会社ファクトMRの最新情報によると、新型コロナウイルス感染症のパンデミックに...

ディープラーニング/コンピュータービジョンでよくある8つの間違いとその回避方法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

クロスモーダルトランスフォーマー: 高速かつ堅牢な 3D オブジェクト検出に向けて

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

研究のアイデアがうまくいかない場合、それはアイデアが悪いからではなく、ハードウェアが追いついていないからかもしれません。

研究アイデアの成功は、そのアイデアが他の研究方向よりも優れているかどうかではなく、適切なハードウェア...

...