マイクロソフトが小型モデルに推論の高度なバージョンを教える: Orca 2 のパフォーマンスはパラメータモデルの 10 倍に匹敵し、オープンソース化

皆さんもご存知のとおり、GPT-4 や PaLM などの最先端の言語モデルは、複雑な質問に答えたり、説明を生成したり、さらには複数段階の推論を必要とする問題を解決したりするなど、かつては AI の手に負えないと考えられていた優れた推論能力を発揮しています。このような機能は小規模な言語モデルでは明らかではないため、現在の課題は、大規模言語モデルの増大する知識を活用して小規模なモデルの機能を向上させることです。

以前、Microsoft Research は、130 億のパラメータを持つ言語モデルである Orca を発表しました。これは、より強力な LLM の段階的な推論プロセスを模倣することで、強力な推論機能を実証しました。

現在、研究者たちは努力を続け、Orca 2 を立ち上げ、トレーニング信号を改善することで、より小さな言語モデルの推論能力を向上させる方法を模索し続けています。

論文アドレス: https://arxiv.org/pdf/2311.11045.pdf
ハギングフェイスアドレス 1: https://huggingface.co/microsoft/Orca-2-13b
ハギングフェイスアドレス 2: https://huggingface.co/microsoft/Orca-2-7b

小規模な言語モデルのトレーニングに関する研究では、より強力なモデルの出力を再現するために模倣学習に依存することがよくあります。模倣を重視しすぎると、小型モデルの可能性が制限される可能性があります。アイデアは、小規模な言語モデルに、さまざまなタスクに対して、大規模なモデルで使用されるものとは異なる可能性のあるさまざまな解決戦略を使用するように教えることに焦点を当てることです。大規模なモデルは複雑なタスクに直接的な回答を提供できる可能性がありますが、小規模なモデルでは同じ機能が得られない可能性があります。

Orca 2 では、研究者はモデルにさまざまな推論手法 (ステップバイステップの推論、想起してから生成、想起-推論-生成、直接回答など) を教え、モデルが各タスクに対して最も効果的な解決戦略を決定できるようにすることを目指しました。

研究者らは、約100のタスクと36,000を超える固有の手がかりを含む、15種類のベンチマークの包括的なコレクションを使用してOrca 2を評価しました。ゼロショット環境での高度な推論機能を評価する複雑なタスクでは、Orca 2 は同様のサイズのモデルを大幅に上回り、5 ～ 10 倍の規模のモデルと同等かそれ以上のパフォーマンスレベルを実現します。 Orca 2 は、より小規模な言語モデルの開発、評価、アライメントに関するさらなる研究を促進するためにオープンソース化されました。

Orca 2 には 2 つのサイズ (70 億と 130 億のパラメータ) があり、どちらもカスタムの高品質合成データに基づいて対応する LLaMA 2 ベースモデルを微調整して作成されています。

図 1: 言語理解、常識的推論、多段階推論、数学的問題解決など、さまざまなベンチマークにおける Orca 2 (7B および 13B)、LLaMA-2-Chat (13B および 70B)、WizardLM (13B および 70B) のゼロショット結果。 Orca 2 モデルは、5 ～ 10 倍の大きさのモデルを含む他のすべてのモデルと同等かそれ以上の性能を発揮します。ここで紹介するモデルはすべて、同じサイズの LLaMA 2 ベースモデルを使用しています。

図 2: Orca 2、そのベースモデル LLaMA 2、LLaMA 2-Chat、および ChatGPT (GPT-3.5-Turbo) の推論質問に対する応答を示す例。 LLaMA 2 および LLaMA 2-Chat モデルの応答は、それぞれ replicate.com/meta/llama-2-13b および chat.lmsys.org を使用して生成されました。

技術詳細

Orca 2 は、異なるタスクには異なる解決戦略 (ステップバイステップの処理、想起後の生成、想起-推論-生成、検索-生成、直接回答など) が役立つ可能性があり、大規模モデルで採用されている解決戦略が小規模モデルにとって最適な選択ではない可能性があることを強く主張しています。たとえば、GPT-4 のようなモデルは直接的な応答を簡単に生成できるかもしれませんが、小規模なモデルではこの機能が不足しており、段階的な思考などの異なるアプローチが必要になる場合があります。

したがって、より強力なモデルの推論動作を「模倣」するように、より小さなモデルを単純に教えるだけでは最適ではない可能性があります。答えを段階的に説明する小規模なモデルをトレーニングすることは有益であることが示されていますが、複数のポリシーでトレーニングすると、タスクに適したポリシーをより柔軟に選択できるようになります。

研究者は「慎重な推論」という用語を、与えられた課題に対してどの解決戦略を選択するかを決定する行為を指すために使用しており、これには答えを直接生成することや、いくつかの「ゆっくり考える」戦略（ステップバイステップ、推測と確認、最初に説明してから答えるなど）のいずれかを採用することが含まれます。

慎重な推論ができる LLM を育成するプロセスは次のとおりです。

1. 多様なタスクのセットから始めます。

2. Orca のパフォーマンスに基づいて、どのタスクにどの解決戦略が必要かを決定します (例: 直接回答、段階的な処理、最初に説明してから回答など)。

3. 選択した戦略に対応する各タスクの特定のシステム命令を記述し、各タスクに対する「教師」システムからの応答を取得します。

4. プロンプト消去: トレーニング中は、「学生」システムの指示を、タスクの処理方法に関する詳細を含まない一般的な指示に置き換えます。

ステップ 3 は、「教師」システムからの応答を取得するのに時間がかかることに注意してください。複数回の呼び出しや非常に詳細な指示などが必要になる場合があります。

重要なアイデアは、タスクにどのように取り組むかを詳述する元のシステム指示がなくても、学生モデルがこの基本的な戦略とそれに伴う推論能力を学習するように促されるというものです。研究者たちはこの手法を「ヒント消去」と呼んでいます。これは、教師モデルが推論を構築する構造を削除するためです。研究者たちはこの技術を利用して、慎重な推論モデルであるOrca 2を実装しました。

Orca 2 は、拡張され、高度にカスタマイズされた合成データセットを使用してトレーニングされます。生成されたトレーニングデータは、ステップバイステップ処理、リコール-ポスト生成、リコール-理由生成、抽出-生成、直接回答方式などのさまざまな推論手法を Orca 2 に教えるために使用され、さまざまなタスクに対して異なる解決戦略を選択するように教えることもできます。

トレーニングデータは、より有能な「教師」システムモデルから取得されます。研究者は、タスクやモデルの望ましい動作に応じて、非常に詳細な指示や複数回の呼び出しを通じて「教師」システムからの応答を得ることができます。独自の指示、つまりタスクへの取り組み方に関する詳細な指示がない場合、「学生」システムモデルは、この基本的な戦略とそれが刺激する推論能力を学習するように促されます。

実験結果

推論

推論スキルは、LLM の有効性を判断する上で非常に重要です。研究者らは、AGI Eval、BigBench-Hard (BBH)、DROP、RACE、GSM8K、CRASS などのさまざまなベンチマークを実施して、Orca 2 モデルの推論能力を評価しました。これらのベンチマークの平均パフォーマンスを以下の図 4 に示します。

Orca 2 を他のモデルと比較した結果、研究者は次のことを発見しました。

同じサイズのモデルよりも優れた性能を発揮します。 Orca-2-13B は、ゼロショット推論タスクにおいて、同じサイズのモデルを大幅に上回ります。 LLaMA-2-Chat-13Bと比較すると、Orca-2-13Bは47.54%改善され、WizardLM-13Bと比較すると28.15%改善されます。注目すべきは、Orca-2-13B、LLaMA-2-Chat-13B、WizardLM-13B の 3 つのモデルが同じベースモデルに基づいていることです。これも、Orca 2 で採用されているトレーニングプロセスの有効性を強調しています。

5～10倍の大きいモデルに匹敵します。 Orca-2-13B は LLaMA-2-Chat-70B のパフォーマンスを上回り、WizardLM-70B や ChatGPT と同等のパフォーマンスを発揮します。すべての推論タスクにおいて、Orca-2-7B は LLaMA2-Chat-70B よりも優れているか、同等です。

個別のシステムメッセージにより、わずかな利益が得られます。慎重なシステムメッセージを使用すると、7B モデルと 13B モデルの両方で空のシステムメッセージを使用する場合よりもわずかな利点が得られます。

知識と言語理解

MMLU、ARC-Easy、ARC-Challenge は、LLM の言語理解、知識、推論力を評価します。他のベースラインと同様に、指示に従って微調整されたモデルとのみ比較してゼロショット評価を実行します。以下の表 2 は、知識と言語理解のベンチマークの結果を示しています。全体的に、推論タスクと同様の傾向が見られます。

テキスト補完

研究者らは、高レベルの推論能力を測定するためのベンチマークに加えて、HellaSwag と LAMBADA を使用してテキスト補完能力を測定しました。 HellaSwag は複数選択問題の形式でテキスト完成スキルを測定しますが、LAMBADA は単語完成タスクです。

下の図 5 は、テキスト補完ベンチマークにおけるさまざまなモデルのパフォーマンスを示しています。 HellaSwag では、Orca-2-7B と Orca 2-13B のパフォーマンスが優れており、13B および 70B ベンチマークを上回っています。 Orca-2-13B は LLaMA-2-Chat-13B より 33.13% 高く、WizardLM-13B より 61.94% 高くなっています。

複数のオープンな会話

研究者らは、MT Bench データセットを使用して、複数ターンの会話設定における LLM の機能を評価しました。各ラウンドのスコアとMTBenchの平均スコアは以下の表3に示されています。

Orca-2-13B は他の 13B モデルと同等のパフォーマンスを発揮します。 Orca-2-13B の第 2 ラウンドの平均スコアは第 1 ラウンドのスコアよりも低くなっています。これは、トレーニングデータに対話が含まれていないことが原因であると考えられます。ただし、Orca 2 は依然として会話に参加することができ、複数のゼロショット例を同じ入力シーケンスにパックすることでこの機能を強化します。 Orca 2 のマルチターン会話機能の改善は、研究者の今後の研究の一部となるでしょう。

特定のコンテキストでのパフォーマンス

特定のコンテキストで通知される応答を生成することは、多くの LLM アプリケーションで望ましい特性です。研究者らは、この評価に、クエリベースの会議要約、Web 質問応答 (長文回答で生成)、医師と患者の会話要約という 3 つの異なるタスクを使用しました。抽出要約と具体的な質問応答は、具体的な文脈を評価するためのテストプラットフォームとしてよく使用されます。

下の図 6 は、研究者が実験を行った 3 つのベンチマークにおけるさまざまなモデルの平均幻覚率の結果の比較を示しています。

Orca-2-13B は、Orca 2 のすべてのバリアントとその他の 13B および 70B LLM の中で最も低い幻覚率を示しました。 LLaMA-2-13B モデルおよび WizardLM-13B モデルと比較すると、Orca-2-13B の幻覚率はそれぞれ 76.92% および 61.71% 減少しました。ただし、この研究で取り上げた 3 つのタスクでは、慎重なシステムメッセージによって幻覚の発生率が上昇しました。

手動分析により、慎重なシステムメッセージによって導かれる推論プロセス中に、Orca 2 はコンテキスト内で利用可能な情報を推測し、推測されたコンテンツを使用して要約を作成する可能性があることがわかりました。生成されたコンテンツは事実上正確であることが多いですが、コンテキストによって裏付けられていません。

詳細については、元の論文を参照してください。

<<: OpenAI の宮殿戦の究極の秘密が明らかに！内部の女性監督が最初にアルトマンを解雇したことが暴露され、マイクロソフトが最大の勝者となった

>>: