GPT-4 はハイブリッド大規模モデルを使用しますか?研究により、MoE+命令チューニングにより大規模モデルのパフォーマンスが向上することが証明された

GPT-4 はハイブリッド大規模モデルを使用しますか?研究により、MoE+命令チューニングにより大規模モデルのパフォーマンスが向上することが証明された

GPT-4 の登場以来、優れた言語理解、生成、論理的推論など、その強力な創発能力に人々は驚嘆してきました。これらの機能により、GPT-4 は機械学習の分野で最も最先端のモデルの 1 つとなっています。しかし、OpenAI はまだ GPT-4 の技術的な詳細を明らかにしていません。

先月、George Hotz氏は、Latent SpaceというAI技術ポッドキャストのインタビューでGPT-4について言及し、GPT-4は実際にはハイブリッドモデルであると述べました。具体的には、ジョージ・ホッツ氏は、GPT-4 は 8 つのエキスパート モデルの統合システムを使用しており、各モデルには 2,200 億のパラメーター (GPT-3 の 1,750 億のパラメーターよりわずかに多い) があり、これらのモデルはさまざまなデータとタスクの分布に合わせてトレーニングされていると述べました。

Latent Spaceからのインタビューコンテンツ。

これはジョージ・ホッツの単なる推測かもしれませんが、このモデルには確かに合理性があります。最近、Google、カリフォルニア大学バークレー校、MITなどの研究者が共同で発表した論文では、専門家混合モデル(MoE)と命令チューニングを組み合わせることで、大規模言語モデル(LLM)のパフォーマンスを大幅に向上できることが確認されました。

写真

論文アドレス: https://arxiv.org/pdf/2305.14705.pdf

スパース専門家混合モデルは、推論コストを増やすことなく、大規模言語モデル (LLM) に学習可能なパラメータを追加できる特別なニューラル ネットワーク アーキテクチャです。命令チューニングは、LLM が命令に従うようにトレーニングするための手法です。この研究では、MoE モデルは密なモデルよりも命令チューニングの恩恵を受けることが判明したため、MoE と命令チューニングを組み合わせることが提案されています。

この研究は、以下の3つの実験設定で実証的に調査された。

  • 命令のチューニングなしで単一のダウンストリーム タスクを直接微調整します。
  • 命令のチューニング後、下流のタスクに対してコンテキスト内少数ショットまたはゼロショットの一般化を実行します。
  • 命令のチューニング後、個々のダウンストリーム タスクに対してさらに微調整が実行されます。

最初のケースでは、MoE モデルは、同じ計算能力を持つ密なモデルよりも全体的に劣っています。ただし、命令チューニングを導入すると (2 番目と 3 番目のケース)、FLAN-MoE_32B (Fine-tuned LAnguage Net、略して Flan は命令チューニング モデル、Flan-MoE は命令チューニング MoE) は 4 つのベンチマーク タスクで FLAN-PALM_62B よりも優れたパフォーマンスを発揮しますが、FLOP は 3 分の 1 しか使用しません。

下の図に示すように、命令チューニングを使用する前は、MoE→FT は T5→FT ほど良くありません。命令のチューニング後、Flan-MoE→FT は Flan-T5→FT よりも優れています。命令チューニングによる MoE ゲイン (+15.6) は、密なモデル (+10.2) よりも大きくなります。

写真

GPT-4 のハイブリッド モデルの採用はある程度正当化されているようで、MoE は確かに命令のチューニングからより大きなメリットを得ることができます。

写真

方法の概要

研究者らは、FLAN-MOE(指示によって微調整された専門家モデルのスパース混合セット)モデルでスパース活性化MoE(専門家の混合)を使用しました。さらに、他の Transformer レイヤーのフィードフォワード コンポーネントを MoE レイヤーに置き換えました。

各 MoE レイヤーは「エキスパート」として理解でき、これらのエキスパートはソフトマックス活性化関数を使用してモデル化され、確率分布を取得します。

各 MoE レイヤーには多くのパラメーターがありますが、エキスパートはまばらにアクティブ化されます。つまり、特定の入力トークンに対して、タスクを完了するために限られた専門家のサブセットのみが使用され、モデルの容量が大きくなります。

E 人のエキスパートを持つ MoE レイヤーの場合、これにより実質的に O (E^2) の異なるフィードフォワード ネットワークの組み合わせが提供され、計算の柔軟性が向上します。


FLAN-MoE は命令調整モデルであるため、命令調整が非常に重要です。本研究では、FLAN データセットに基づいて FLAN-MOE を微調整します。さらに、本研究では、各 FLAN-MOE の入力シーケンス長を 2048 に、出力長を 512 に調整しました。

実験と分析

平均すると、Flan-MoE は追加の計算を行わずに、すべてのモデル スケールにわたって高密度版 (Flan-T5) よりも優れたパフォーマンスを発揮します。

写真

専門家の数。図 4 は、専門家の数が増えるにつれて、最初はモデルがより豊富な専門サブネットワーク セットの恩恵を受け、それぞれのサブネットワークが問題空間内の異なるタスクや側面を処理できることを示しています。このアプローチにより、MoE は複雑なタスクを処理する際に高度な適応性と効率性を発揮し、全体的なパフォーマンスが向上します。ただし、専門家の数が増え続けると、モデルのパフォーマンスの向上は減少し始め、最終的には飽和点に達します。

写真

図 3 と表 1 は、さまざまなルーティング決定が命令チューニングのパフォーマンスにどのように影響するかを詳細に調査したものです。FLAN-Switch 戦略と FLAN-GS 戦略の比較では、より多くのエキスパートをアクティブ化すると、4 つのベンチマークすべてでパフォーマンスが向上することがわかります。これらのベンチマークでは、MMLU-Direct モデルが最も顕著な改善を示し、BASE/LARGE サイズ モデルでは 38.0% から 39.9% に増加しました。

特に、命令のチューニングにより、同等の容量の高密度モデルと比較して、MMLU、BBH、内部 QA および推論ベンチマークを保持する際の MoE モデルのパフォーマンスが大幅に向上します。これらの利点は、より大きな MoE モデルではさらに増幅されます。たとえば、命令チューニングにより ST_32B のパフォーマンスは 45.2% 向上しますが、FLAN-PALM_62B の場合、向上率は比較的小さく、約 6.6% です。

モデル拡張を実行すると、Flan-MoE (Flan-ST-32B) は Flan-PaLM-62B よりも優れたパフォーマンスを発揮します。

写真

さらに、本研究では、特定のモデルのゲーティング関数、エキスパートモジュール、および MoE パラメータを固定していくつかの分析実験を実施しました。以下の表 2 に示すように、実験結果から、エキスパート モジュールまたは MoE コンポーネントをフリーズすると、モデルのパフォーマンスに悪影響が出ることがわかります。

対照的に、ゲーティング関数をフリーズすると、モデルのパフォーマンスがわずかに向上しますが、有意ではありません。研究者らは、この観察結果は FLAN-MOE の適合不足に関連していると推測している。この研究では、微調整データの効率を調査するためにアブレーション実験も実施しました。図 5 はアブレーション研究を示しています。

最後に、直接微調整MoEとFLAN-MOEのギャップを比較するために、この研究では、シングルタスク微調整MoE、シングルタスク微調整FLAN-MoE、および高密度モデルに関する実験を実施しました。結果を下の図6に示します。

興味のある読者は、原著論文を読んで研究内容の詳細を知ることができます。

<<:  ビッグモデルの時代、周志華教授の「ラーニングウェア」の考え方を分析:小さなモデルでも大きなことができる

>>:  AIによる教育革命:自己主導型およびガイド型適応型学習の包括的分析

ブログ    

推薦する

従来の銀行は人工知能をどのように活用しているのでしょうか? ——2017年中国国際金融博覧会で光り輝く民生銀行の技術革新に関するメモ

【51CTO記者李玲玲が北京からレポート】先日、「イノベーション主導の着実な変革と共同金融」をテーマ...

人工知能は石油・ガス生産者の業務改善と温室効果ガス排出削減に貢献

[[437362]]石油・ガス生産者の操業実績を測る指標は数多くあり、効率性の向上、コストの削減、油...

...

AIは人間よりもチップ設計をよく理解しているのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

人工知能は今年のトップ10の新興職業の中で第1位にランクイン

どの企業もある程度はテクノロジーを取り入れる必要があったため、こうした急成長の仕事にもその傾向が反映...

...

巨大企業がAIビッグモデルに参入する背景

ChatGPT に代表されるコンセプトが出現し始めると、ますます多くのインターネット プレーヤーが関...

AIが自ら騙された!生成された写真詐欺はAI識別器の目を楽々と逃れ、マスクのロボットガールフレンドと3メートルの巨人は両方とも「実現」

AI が生成した画像は非常にリアルなので、AI 自身も違いを区別できません。マスク氏とロボットのガ...

Jiuzhang DataCanvasがシリーズCの資金調達を完了

最近、DataCanvasはシリーズCの資金調達を完了したことを発表しました。これはAdvantec...

...

自然言語処理にディープラーニングを使用するにはどうすればよいでしょうか?ベストプラクティスのリストはこちら

この記事の著者である Sebastian Ruder は、自然言語処理にディープラーニングを使用する...

AI モデルに新たな革命が起こるのでしょうか?脳の記憶は回転するのでしょうか?過去と未来は実際には「直交」した空間である

人間も他の動物も、目覚めるたびに過去の記憶を整理し、新しい記憶を迎える準備をします。私たちは、以前の...

2020年に中国で期待されるAI企業トップ10

近年の新興技術として、人工知能は人々の生活のあらゆる側面に静かに浸透し、比較的ホットな産業に発展しま...

アリババはどうやって1分で会話型ロボットを作ったのでしょうか?

[[319957]] Alimeiの紹介:2020年に突然発生したCOVID-19パンデミックに直...