マイクロソフトが小型モデルに推論の高度なバージョンを教える: Orca 2 のパフォーマンスはパラメータ モデルの 10 倍に匹敵し、オープンソース化

マイクロソフトが小型モデルに推論の高度なバージョンを教える: Orca 2 のパフォーマンスはパラメータ モデルの 10 倍に匹敵し、オープンソース化

皆さんもご存知のとおり、GPT-4 や PaLM などの最先端の言語モデルは、複雑な質問に答えたり、説明を生成したり、さらには複数段階の推論を必要とする問題を解決したりするなど、かつては AI の手に負えないと考えられていた優れた推論能力を発揮しています。このような機能は小規模な言語モデルでは明らかではないため、現在の課題は、大規模言語モデルの増大する知識を活用して小規模なモデルの機能を向上させることです。

以前、Microsoft Research は、130 億のパラメータを持つ言語モデルである Orca を発表しました。これは、より強力な LLM の段階的な推論プロセスを模倣することで、強力な推論機能を実証しました。

現在、研究者たちは努力を続け、Orca 2 を立ち上げ、トレーニング信号を改善することで、より小さな言語モデルの推論能力を向上させる方法を模索し続けています。


  • 論文アドレス: https://arxiv.org/pdf/2311.11045.pdf
  • ハギングフェイス アドレス 1: https://huggingface.co/microsoft/Orca-2-13b
  • ハギングフェイス アドレス 2: https://huggingface.co/microsoft/Orca-2-7b

小規模な言語モデルのトレーニングに関する研究では、より強力なモデルの出力を再現するために模倣学習に依存することがよくあります。模倣を重視しすぎると、小型モデルの可能性が制限される可能性があります。アイデアは、小規模な言語モデルに、さまざまなタスクに対して、大規模なモデルで使用されるものとは異なる可能性のあるさまざまな解決戦略を使用するように教えることに焦点を当てることです。大規模なモデルは複雑なタスクに直接的な回答を提供できる可能性がありますが、小規模なモデルでは同じ機能が得られない可能性があります。

Orca 2 では、研究者はモデルにさまざまな推論手法 (ステップバイステップの推論、想起してから生成、想起-推論-生成、直接回答など) を教え、モデルが各タスクに対して最も効果的な解決戦略を決定できるようにすることを目指しました。

研究者らは、約100のタスクと36,000を超える固有の手がかりを含む、15種類のベンチマークの包括的なコレクションを使用してOrca 2を評価しました。ゼロショット環境での高度な推論機能を評価する複雑なタスクでは、Orca 2 は同様のサイズのモデルを大幅に上回り、5 ~ 10 倍の規模のモデルと同等かそれ以上のパフォーマンス レベルを実現します。 Orca 2 は、より小規模な言語モデルの開発、評価、アライメントに関するさらなる研究を促進するためにオープンソース化されました。

Orca 2 には 2 つのサイズ (70 億と 130 億のパラメータ) があり、どちらもカス​​タムの高品質合成データに基づいて対応する LLaMA 2 ベース モデルを微調整して作成されています。

図 1: 言語理解、常識的推論、多段階推論、数学的問題解決など、さまざまなベンチマークにおける Orca 2 (7B および 13B)、LLaMA-2-Chat (13B および 70B)、WizardLM (13B および 70B) のゼロショット結果。 Orca 2 モデルは、5 ~ 10 倍の大きさのモデルを含む他のすべてのモデルと同等かそれ以上の性能を発揮します。ここで紹介するモデルはすべて、同じサイズの LLaMA 2 ベース モデルを使用しています。

図 2: Orca 2、そのベースモデル LLaMA 2、LLaMA 2-Chat、および ChatGPT (GPT-3.5-Turbo) の推論質問に対する応答を示す例。 LLaMA 2 および LLaMA 2-Chat モデルの応答は、それぞれ replicate.com/meta/llama-2-13b および chat.lmsys.org を使用して生成されました。

技術詳細

Orca 2 は、異なるタスクには異なる解決戦略 (ステップバイステップの処理、想起後の生成、想起-推論-生成、検索-生成、直接回答など) が役立つ可能性があり、大規模モデルで採用されている解決戦略が小規模モデルにとって最適な選択ではない可能性があることを強く主張しています。たとえば、GPT-4 のようなモデルは直接的な応答を簡単に生成できるかもしれませんが、小規模なモデルではこの機能が不足しており、段階的な思考などの異なるアプローチが必要になる場合があります。

したがって、より強力なモデルの推論動作を「模倣」するように、より小さなモデルを単純に教えるだけでは最適ではない可能性があります。答えを段階的に説明する小規模なモデルをトレーニングすることは有益であることが示されていますが、複数のポリシーでトレーニングすると、タスクに適したポリシーをより柔軟に選択できるようになります。

研究者は「慎重な推論」という用語を、与えられた課題に対してどの解決戦略を選択するかを決定する行為を指すために使用しており、これには答えを直接生成することや、いくつかの「ゆっくり考える」戦略(ステップバイステップ、推測と確認、最初に説明してから答えるなど)のいずれかを採用することが含まれます。

慎重な推論ができる LLM を育成するプロセスは次のとおりです。

1. 多様なタスクのセットから始めます。

2. Orca のパフォーマンスに基づいて、どのタスクにどの解決戦略が必要かを決定します (例: 直接回答、段階的な処理、最初に説明してから回答など)。

3. 選択した戦略に対応する各タスクの特定のシステム命令を記述し、各タスクに対する「教師」システムからの応答を取得します。

4. プロンプト消去: トレーニング中は、「学生」システムの指示を、タスクの処理方法に関する詳細を含まない一般的な指示に置き換えます。

ステップ 3 は、「教師」システムからの応答を取得するのに時間がかかることに注意してください。複数回の呼び出しや非常に詳細な指示などが必要になる場合があります。

重要なアイデアは、タスクにどのように取り組むかを詳述する元のシステム指示がなくても、学生モデルがこの基本的な戦略とそれに伴う推論能力を学習するように促されるというものです。研究者たちはこの手法を「ヒント消去」と呼んでいます。これは、教師モデルが推論を構築する構造を削除するためです。研究者たちはこの技術を利用して、慎重な推論モデルであるOrca 2を実装しました。

Orca 2 は、拡張され、高度にカスタマイズされた合成データセットを使用してトレーニングされます。生成されたトレーニング データは、ステップバイステップ処理、リコール-ポスト生成、リコール-理由生成、抽出-生成、直接回答方式などのさまざまな推論手法を Orca 2 に教えるために使用され、さまざまなタスクに対して異なる解決戦略を選択するように教えることもできます。

トレーニング データは、より有能な「教師」システム モデルから取得されます。研究者は、タスクやモデルの望ましい動作に応じて、非常に詳細な指示や複数回の呼び出しを通じて「教師」システムからの応答を得ることができます。独自の指示、つまりタスクへの取り組み方に関する詳細な指示がない場合、「学生」システム モデルは、この基本的な戦略とそれが刺激する推論能力を学習するように促されます。

実験結果

推論

推論スキルは、LLM の有効性を判断する上で非常に重要です。研究者らは、AGI Eval、BigBench-Hard (BBH)、DROP、RACE、GSM8K、CRASS などのさまざまなベンチマークを実施して、Orca 2 モデルの推論能力を評価しました。これらのベンチマークの平均パフォーマンスを以下の図 4 に示します。

Orca 2 を他のモデルと比較した結果、研究者は次のことを発見しました。

同じサイズのモデルよりも優れた性能を発揮します。 Orca-2-13B は、ゼロショット推論タスクにおいて、同じサイズのモデルを大幅に上回ります。 LLaMA-2-Chat-13Bと比較すると、Orca-2-13Bは47.54%改善され、WizardLM-13Bと比較すると28.15%改善されます。注目すべきは、Orca-2-13B、LLaMA-2-Chat-13B、WizardLM-13B の 3 つのモデルが同じベース モデルに基づいていることです。これも、Orca 2 で採用されているトレーニング プロセスの有効性を強調しています。

5~10倍の大きいモデルに匹敵します。 Orca-2-13B は LLaMA-2-Chat-70B のパフォーマンスを上回り、WizardLM-70B や ChatGPT と同等のパフォーマンスを発揮します。すべての推論タスクにおいて、Orca-2-7B は LLaMA2-Chat-70B よりも優れているか、同等です。

個別のシステム メッセージにより、わずかな利益が得られます。慎重なシステム メッセージを使用すると、7B モデルと 13B モデルの両方で空のシステム メッセージを使用する場合よりもわずかな利点が得られます。

知識と言語理解

MMLU、ARC-Easy、ARC-Challenge は、LLM の言語理解、知識、推論力を評価します。他のベースラインと同様に、指示に従って微調整されたモデルとのみ比較してゼロショット評価を実行します。以下の表 2 は、知識と言語理解のベンチマークの結果を示しています。全体的に、推論タスクと同様の傾向が見られます。

テキスト補完

研究者らは、高レベルの推論能力を測定するためのベンチマークに加えて、HellaSwag と LAMBADA を使用してテキスト補完能力を測定しました。 HellaSwag は複数選択問題の形式でテキスト完成スキルを測定しますが、LAMBADA は単語完成タスクです。

下の図 5 は、テキスト補完ベンチマークにおけるさまざまなモデルのパフォーマンスを示しています。 HellaSwag では、Orca-2-7B と Orca 2-13B のパフォーマンスが優れており、13B および 70B ベンチマークを上回っています。 Orca-2-13B は LLaMA-2-Chat-13B より 33.13% 高く、WizardLM-13B より 61.94% 高くなっています。

複数のオープンな会話

研究者らは、MT Bench データセットを使用して、複数ターンの会話設定における LLM の機能を評価しました。各ラウンドのスコアとMTBenchの平均スコアは以下の表3に示されています。

Orca-2-13B は他の 13B モデルと同等のパフォーマンスを発揮します。 Orca-2-13B の第 2 ラウンドの平均スコアは第 1 ラウンドのスコアよりも低くなっています。これは、トレーニング データに対話が含まれていないことが原因であると考えられます。ただし、Orca 2 は依然として会話に参加することができ、複数のゼロショット例を同じ入力シーケンスにパックすることでこの機能を強化します。 Orca 2 のマルチターン会話機能の改善は、研究者の今後の研究の一部となるでしょう。

特定のコンテキストでのパフォーマンス

特定のコンテキストで通知される応答を生成することは、多くの LLM アプリケーションで望ましい特性です。研究者らは、この評価に、クエリベースの会議要約、Web 質問応答 (長文回答で生成)、医師と患者の会話要約という 3 つの異なるタスクを使用しました。抽出要約と具体的な質問応答は、具体的な文脈を評価するためのテスト プラットフォームとしてよく使用されます。

下の図 6 は、研究者が実験を行った 3 つのベンチマークにおけるさまざまなモデルの平均幻覚率の結果の比較を示しています。

Orca-2-13B は、Orca 2 のすべてのバリアントとその他の 13B および 70B LLM の中で最も低い幻覚率を示しました。 LLaMA-2-13B モデルおよび WizardLM-13B モデルと比較すると、Orca-2-13B の幻覚率はそれぞれ 76.92% および 61.71% 減少しました。ただし、この研究で取り上げた 3 つのタスクでは、慎重なシステム メッセージによって幻覚の発生率が上昇しました。

手動分析により、慎重なシステム メッセージによって導かれる推論プロセス中に、Orca 2 はコンテキスト内で利用可能な情報を推測し、推測されたコンテンツを使用して要約を作成する可能性があることがわかりました。生成されたコンテンツは事実上正確であることが多いですが、コンテキストによって裏付けられていません。

詳細については、元の論文を参照してください。

<<:  OpenAI の宮殿戦の究極の秘密が明らかに!内部の女性監督が最初にアルトマンを解雇したことが暴露され、マイクロソフトが最大の勝者となった

>>: 

ブログ    
ブログ    
ブログ    

推薦する

...

AIの将来にとって人間の関与が重要な理由

人工知能技術の進歩は、自動化と革新の新しい時代の到来を告げるものとなるでしょう。しかし、機械知能の進...

2021年にデータセンターに起こる変化と傾向

2020 年は、IT プロフェッショナルがインフラストラクチャを管理およびプロビジョニングする方法を...

ディープラーニングは錬金術のようなものです。どんな迷信的な習慣がありますか?ユーザー: ランダムシード=42 は良い結果をもたらします

[[441423]]機械学習分野の研究者は皆、パラメータ調整という課題に直面していますが、言うほど簡...

Baidu CTO 王海峰氏:PaddlePaddle ディープラーニング プラットフォームは新しいインフラストラクチャの重要な部分です

産業インテリジェンスの急速かつ徹底的な進歩に伴い、人工知能インフラの構築は不可欠となっています。 5...

Google の 15 のオープンソース無料人工知能プロジェクト!開発者: 了解しました

開発者は人工知能に関するオープンソース プロジェクトを数多く目にしてきたと思いますし、Github ...

シリコンバレーの天才たちの没落: 才能から始まり、利益に転落し、「賢さ」のせいで失敗した

若い才能、輝かしい経歴、上司からの評価、順調なキャリア、明るい未来...これらは、2016 年初頭に...

顔認識はどのようにして国民の個人情報を侵害するのでしょうか?犯罪者がアリペイを騙し取るために3D顔モデルを作成

[[360029]]記者 | 趙孟近年、顔認識技術の普及に伴い、国民の個人情報のセキュリティに関する...

...

C# データ暗号化を実現する対称暗号化アルゴリズム

以下は、対称暗号化アルゴリズムの C# データ暗号化実装コードです。必要に応じて、さまざまなアルゴリ...

量子プロセッサのパフォーマンスはなぜ変動するのでしょうか? Googleが見つけた答えは、素材に欠陥があるということだ

量子プロセッサは最先端の研究テーマです。世界トップクラスの研究室や企業の研究機関が常に新たな進歩を遂...

...

中国のAI研究は米国を上回る?専門家:例えば、ディープラーニングに関する論文の発表数

現在、世界の人工知能分野には、業界で「神のような存在」とみなされるトップの専門家が3人いる。そのうち...

無料の Python 機械学習コース 9: K 平均法クラスタリング

K-クラスタリングとはどういう意味ですか? K-means クラスタリングは、最も人気があり、広く使...

PyTorch 1.12 がリリース、Apple M1 チップ GPU アクセラレーションを正式にサポート、多くのバグを修正

​PyTorch 1.12 が正式にリリースされました。まだアップデートしていない方は今すぐアップ...