1.2兆パラメータ:Googleの汎用スパース言語モデルGLaM、小サンプル学習がGPT-3を上回る

1.2兆パラメータ:Googleの汎用スパース言語モデルGLaM、小サンプル学習がGPT-3を上回る

[[439859]]

近年、モデルの規模はどんどん大きくなっています。例えば、2018年に登場したGPTのパラメータ数は1億1,700万でした。1年後の2019年には、GPT-2のパラメータ数が15億に達しました。2020年には、1,750億のパラメータを持つGPT-3に拡張されました。 OpenAIが構築したスーパーコンピューターには285,000個のCPUコアと10,000個のGPUがあり、OpenAIはそこですべてのAIモデルをトレーニングしていると理解されている。

大規模言語モデルのトレーニングにはコストがかかりますが、読解や質問への回答など、さまざまなタスクで小規模な学習を実行できるなど、重要な側面もあります。ただし、これらのモデルでは、より多くのパラメータを使用するだけで、より優れたパフォーマンスを実現できます。しかし、これらのモデルをより効率的にトレーニングして使用する方法はあるのでしょうか?

この疑問に答えるために、Google は数兆の重みを持つ Generalist Language Model (GLaM) を発表しました。このモデルの主な特徴はスパース性であり、これにより効率的なトレーニングとサービス提供 (コンピューティングとリソースの使用の観点から) が可能になり、複数の小さなサンプルの学習タスクで競争力のあるパフォーマンスを実現します。

GLaM モデルの詳細を見てみましょう。

データセット

Google はまず、1.6 兆個のトークンを含む高品質のデータセットを構築しました。その大部分は、プロの執筆から低品質のレビューやフォーラム ページに至るまで、さまざまな Web ページから取得されています。さらに、Google は、Wikipedia と書籍のテキスト データセットでトレーニングされたテキスト品質フィルターを開発しました。フィルターのトレーニングに使用されるデータセットの品質は非常に高いため、Google はそれを使用して Web ページ コンテンツの品質をフィルタリングします。最後に、Google はこのフィルターを適用して Web ページの最終的なサブセットを生成し、それを書籍や Wikipedia のデータと組み合わせて最終的なトレーニング データセットを作成します。

GLaM モデルアーキテクチャ

GLaM は、異なる入力にそれぞれ特化した異なるサブモデル (またはエキスパート) を持つと考えられる、エキスパート混合 (MoE) モデルです。各レイヤーのエキスパートは、入力データに基づいてエキスパートをアクティブ化するゲーティング ネットワークによって制御されます。各トークン (通常は単語または単語の一部) ごとに、ゲーティング ネットワークはデータを処理するために最も適切な 2 人の専門家を選択します。完全な GLaM には合計 1.2T のパラメーターがあり、各 MoE には 64 人のエキスパートと合計 32 の MoE レイヤーが含まれますが、推論中、モデルは 97B のパラメーターのみをアクティブ化し、これは合計パラメーターの 8% を占めます。

GLaM のアーキテクチャでは、各入力トークンは予測のために 64 のエキスパート ネットワークから選択された 2 つのエキスパート ネットワークに動的にルーティングされます。

GShard MoE Transformer と同様に、Google は他のトランスフォーマー レイヤーの単一のフィードフォワード ネットワーク (上図の青いボックス内の Feedforward または FFN など、人工ニューラル ネットワークの最も単純なレイヤー) を MoE レイヤーに置き換えました。 MoE レイヤーには複数のエキスパートがあり、各エキスパートは同じアーキテクチャを持ちながら重みパラメータが異なるフィードフォワード ネットワークです。

MoE レイヤーには多くのパラメーターがありますが、エキスパートはまばらにアクティブ化されます。つまり、特定の入力トークンに対して 2 つのエキスパートのみが使用され、計算を制限しながらモデルの容量を増やすという利点があります。トレーニング中、各 MoE レイヤー ゲーティング ネットワークは、入力を使用して各トークンの最適な 2 人のエキスパートをアクティブ化するようにトレーニングされ、その後推論に使用されます。 MoE レイヤーの E エキスパートにとって、これは本質的に、従来の Transformer の 1 つの組み合わせではなく、E×(E-1) の異なるフィードフォワード ネットワークの組み合わせのコレクションを提供し、計算の柔軟性が向上します。

最終的に学習されたトークン表現は、2 人のエキスパートからの出力の加重組み合わせであり、これにより、異なるエキスパートが異なるタイプの入力をアクティブ化できるようになります。より大きなモデルへのスケーラビリティを実現するために、GLaM アーキテクチャの各エキスパートは複数のコンピューティング デバイスにまたがることができます。 Google は、GSPMD コンパイラ バックエンドを使用してエキスパートのスケーリングの課題に対処し、スパース アクティベーション言語モデルがどのようにスケーリングされるかを理解するために、複数のバリアント (エキスパートのサイズとエキスパートの数に基づく) をトレーニングします。

評価セットアップ

Google はゼロショット設定とワンショット設定の両方を使用しており、トレーニング中に目に見えないタスクが使用されます。評価基準は次のとおりです。

  • 穴埋め問題と補完問題。
  • オープンドメインの質問応答。
  • ウィノグラードスタイルのタスク。
  • 常識的な推論;
  • 文脈的読解力
  • SuperGLUE タスク。
  • 自然言語推論。

Google は、生成されたフレーズが真の値の目標に基づいて評価される合計 8 つの自然言語生成 (NLG) タスクと、条件付き対数尤度を使用して複数のオプションの中から予測が選択される 21 の自然言語理解 (NLU) タスクを使用しました。

実験結果

MoE レイヤーごとにエキスパートが 1 人だけの場合、GLaM は基本的な Transformer ベースの高密度モデル アーキテクチャに縮小されます。すべての実験において、Google は「ベース高密度モデルのサイズ / MoE レイヤーごとのエキスパート数」を使用して GLaM モデルを記述します。たとえば、1B/64E は、1B パラメータを持つ高密度モデル アーキテクチャを表し、1 つおきのレイヤーが 64 個のエキスパート MoE レイヤーに置き換えられます。

Google は、同じデータセットでトレーニングされたベースライン高密度モデルを含む GLaM のパフォーマンスとスケーリング特性をテストしました。 Microsoft と NVIDIA が最近発表した Megatron-Turing と比較すると、GLaM は 7 つの異なるタスクで 5% のマージンで同等のパフォーマンスを達成し、推論中に使用される計算能力を 4/5 削減します。

さらに、1.2T パラメータのスパース活性化モデル (GLaM) は、推論時の計算量を抑えながら、1.75B パラメータの高密度 GPT-3 モデルよりも多くのタスクで優れた平均結果を実現します。

NLG (左) および NLU (右) タスクにおける GLaM および GPT-3 の平均スコア (高いほど良い)。

Googleは、29のベンチマークにおけるGLaMとGPT-3のパフォーマンス比較結果をまとめました。結果は、GLaM がゼロショット タスクの約 80%、ワンショット タスクの約 90% で GPT-3 のパフォーマンスを上回るか同等であることを示しています。

さらに、GLaM のフル バージョンには合計 1.2T のパラメータがありますが、推論中に各トークンがアクティブにするサブネットワークは 97B のパラメータ (1.2T の 8%) のみです。

拡張機能

GLaM は、次の 2 つの方法で拡張されます。1) レイヤーごとのエキスパートの数を拡張する方法 (各エキスパートは単一のコンピューティング デバイスでホストされます)。2) 各エキスパートのサイズを単一のデバイスの制限を超えて拡張する方法。スケーリング特性を評価するために、推論時のトークンあたりの FLOPS が同様の対応する密なモデルを比較します。

各エキスパートのサイズを大きくした場合のゼロショットとワンショットの平均パフォーマンス。エキスパートのサイズが大きくなるにつれて、推論時のトークン予測あたりの FLOPS も増加します。

上の図に示すように、タスク全体のパフォーマンスはエキスパートの規模に比例します。生成タスクの推論中、GLaM スパース活性化モデルは、同様の FLOP を持つ密なモデルよりも優れたパフォーマンスを発揮します。理解タスクについては、小規模では同様のパフォーマンスを示しましたが、大規模ではスパース活性化モデルの方がパフォーマンスが優れていることがわかりました。

データ効率

大規模な言語モデルのトレーニングには計算負荷がかかるため、効率を向上させることでエネルギー消費を削減できます。この研究では、GLaM のフルバージョンの計算コストを実証します。

モデル推論 (左) とトレーニング (右) の計算コスト (GFLOPS)。

これらの計算コストは​​、GLaM がより多くのトークンでトレーニングするためトレーニング中に多くの計算を使用するが、推論中ははるかに少ない計算を使用することを示しています。下の図は、異なる数のトークンを使用したトレーニングの比較結果を示し、モデルの学習曲線を評価しています。

トレーニング中に処理されるトークンが増えるにつれて、8 世代タスクにおけるスパース アクティベーション モデルと密なモデルのゼロ ショットおよびワン ショットの平均パフォーマンスが向上します。

トレーニング中に処理されるトークンが増えるにつれて、21 の理解タスクにおけるスパース アクティベーション モデルと密なモデルのゼロ ショットおよびワン ショットの平均パフォーマンスが向上します。

結果は、スパース活性化モデルが、トレーニングに使用するデータ量を大幅に減らしながら、密なモデルと同様のゼロショットおよびワンショットのパフォーマンスを達成することを示しています。さらに、同じ量のデータの場合、スパース モデルのパフォーマンスは大幅に向上します。

最後に、Google は GLam のエネルギー効率を評価しました。

トレーニング中の GLaM と GPT-3 のエネルギー消費量の比較。

GLaM はトレーニング中に多くの計算能力を使用しますが、GSPMD (Google が 5 月にリリースした一般的な機械学習計算グラフ用のコンパイラベースの自動並列システム) によって実現されるより効率的なソフトウェア実装と TPUv4 の利点により、トレーニング中の他のモデルよりも消費エネルギーが少なくなります。

<<:  組織のインテリジェントな進化に焦点を当てた百度Ruliuインテリジェントワークプラットフォーム2.0がリリース

>>:  データ構造とアルゴリズム: 単調に増加する数値

ブログ    
ブログ    

推薦する

知っておきたい!AI を活用したサイバー犯罪対策に機械学習を活用する方法

[51CTO.com クイック翻訳] 今日のインターネット時代において、ネットワーク セキュリティは...

MIT が夢を創るマシン「ドリーム インキュベーター」を開発、インセプションの現実版をカスタマイズ

目が覚めているのと眠っているのを同時に経験したことがありますか?実はここは現実と夢を繋ぐ中継駅なので...

凌創志新は、AI商業化の閉ループを作成するための最初のデータアノテーションビジネスを立ち上げました

アジアのビッグデータおよび人工知能企業である凌創志信は、同社の伝統的なリテイン事業であるデータラベリ...

2024年のITトレンド、予測、推奨事項

2024 年は、人工知能 (AI) を先頭に、革新的なテクノロジーにとってエキサイティングな年となる...

チューリング賞受賞者のジュディア・パールが語る「データだけに頼るな」

[[412443]]現在の人工知能研究コミュニティでは、データ中心の方法が絶対的に優勢であり、その...

...

AIがハイパフォーマンスコンピューティングから学べる7つの教訓

効果的な IT 組織は、ハイパフォーマンス コンピューティング (HPC) から教訓を得て、システム...

ChatGPT のパフォーマンスが最大 214% 向上し、7 つのグラフが更新されました。 IDEA、HKUST GuazhouなどがToG思考マップを提案

大きなモデルは良いですが、「深刻なナンセンス」の問題をどのように解決するのでしょうか?金融、法律、医...

NSA、RSA暗号化アルゴリズムに2つ目のバックドアを追加

ロイター通信は12月、米国国家安全保障局(NSA)が、携帯端末で広く使用されている暗号化技術にバック...

AIとビッグデータ2017「成長痛」

2017 年、人工知能とビッグデータの開発では次の 10 の成長痛が発生しました。 [[21567...

掃除ロボットに抜け穴がある!あるいは数秒で盗聴ツールに変わる可能性もある

先日、陝西省西安市は「サイバーセキュリティは人々のためのものであり、サイバーセキュリティは人々に依存...

...

マスターカードがAIを活用して詐欺を阻止し、誤ったチャージバックを削減する方法

【51CTO.com クイック翻訳】チェックアウト時に銀行カード取引が拒否されると、イライラしたり恥...

1 つのニューロンには 5 ~ 8 層のニューラル ネットワークがあります。ディープラーニングの計算の複雑さは生物学によって克服されています。

人工知能の開発にはまだまだ長い道のりが残っているようです。エルサレムのヘブライ大学の研究者らは、単一...

Java ソートアルゴリズムの概要 (VI): ヒープソート

ヒープソートとは、ヒープツリー (ヒープ) のデータ構造を使用して設計されたソート アルゴリズムのこ...