マイクロソフトの小型モデルが大型モデルに勝利：27億のパラメータ、携帯電話で実行可能

先月、マイクロソフトのCEOであるサティア・ナデラ氏はIgniteカンファレンスで、自社開発の小型モデルPhi-2は完全にオープンソースとなり、常識推論、言語理解、論理的推論のパフォーマンスが大幅に向上すると発表しました。

本日、Microsoft は Phi-2 モデルとその新しいプロンプトテクノロジである promptbase に関する詳細を発表しました。わずか 27 億のパラメータを持つこのモデルは、ほとんどの常識的推論、言語理解、数学、コーディングタスクで Llama2 7B、Llama2 13B、Mistral 7B を上回り、Llama2 70B との差を縮めています (またはさらに上回っています)。

同時に、Phi-2 はサイズが小さいため、ノートパソコンや携帯電話などのモバイルデバイスでも実行できます。ナデラ氏は、マイクロソフトが最高級の Small Language Model (SLM) と SOTA プロンプトテクノロジを研究開発担当者と共有できることを非常に嬉しく思っていると述べました。

今年 6 月、マイクロソフトは「教科書だけで十分」と題した論文で、わずか 70 億トークンの「教科書品質」データを使用して、13 億パラメータのモデル phi-1 をトレーニングしました。データセットとモデルサイズの点で競合モデルよりも桁違いに小さいにもかかわらず、phi-1 は HumanEval の pass@1 で 50.6%、MBPP で 55.5% の精度を達成しています。 phi-1 は、高品質の「小さなデータ」によってモデルが優れたパフォーマンスを発揮できることを証明しています。

同年9月、マイクロソフトは「教科書だけで十分II：phi-1.5技術レポート」と題する論文を発表し、高品質な「スモールデータ」の可能性をさらに研究した。この記事では、13 億のパラメータを持ち、QA の質問応答、コード、その他のシナリオに適した Phi-1.5 を提案しています。

現在 27 億のパラメータを持つ Phi-2 は、再びその「小さなボディ」を活用して優れた推論機能と言語理解機能を提供し、130 億未満のパラメータを持つ基本言語モデルで SOTA パフォーマンスを実証しています。モデルのスケーリングとトレーニングデータ管理における革新により、Phi-2 は複雑なベンチマークにおいて 25 倍のサイズのモデルに匹敵、あるいはそれを上回ります。

Microsoft によれば、Phi-2 は、説明可能性の調査、セキュリティの改善、またはさまざまなタスクに関する実験の微調整を行う研究者にとって理想的なモデルになるという。 Microsoft は、言語モデルの開発を容易にするために、Phi-2 を Azure AI Studio モデルカタログで利用できるようにしました。

Phi-2の主なハイライト

言語モデルのサイズが数千億のパラメータに増加したことで、多くの新しい機能が実現し、自然言語処理の状況が再定義されました。しかし、疑問が残ります。これらの新しい機能は、トレーニング戦略の選択 (データ選択など) を通じて、より小規模なモデルで実現できるのでしょうか?

Microsoft の答えは、小さな言語モデルをトレーニングすることで大規模モデルと同様のパフォーマンスを実現する Phi シリーズのモデルです。 Phi-2 は、主に 2 つの側面で従来の言語モデルのスケーリングルールを破ります。

まず、トレーニングデータの品質はモデルのパフォーマンスに重要な役割を果たします。 Microsoft は、「教科書品質」のデータに焦点を当てることで、この認識を極限まで高めています。同社のトレーニングデータは、科学、日常活動、心理学などの常識的な知識と推論をモデルに教えるために特別に作成された合成データセットで構成されています。さらに、教育的価値とコンテンツの品質に応じてフィルタリングされた、厳選された Web データを使用してトレーニングコーパスをさらに拡張します。

次に、Microsoft は、13 億のパラメータ Phi-1.5 から始めて、27 億のパラメータ Phi-2 に徐々に知識を組み込むことで、革新的な技術を使用して拡張しました。この大規模な知識移転により、トレーニングの収束が加速され、Phi-2 ベンチマークスコアが大幅に向上します。

下の図 2 は、Phi-2 と Phi-1.5 の比較を示しています。BBH (3 ショット CoT) と MMLU (5 ショット) を除き、他のすべてのタスクは 0 ショットを使用して評価されます。

トレーニングの詳細

Phi-2 は、次の単語を予測するように設計された Transformer ベースのモデルで、NLP とコーディング用の合成データセットと Web データセットでトレーニングされ、96 個の A100 GPU で 14 日間かかりました。

Phi-2 は、人間のフィードバックによる強化学習 (RLHF) によって調整されておらず、指示によって微調整されていない基本モデルです。それにもかかわらず、Phi-2 は、下の図 3 に示すように、適応された既存のオープンソースモデルと比較して、毒性とバイアスの点で依然として優れたパフォーマンスを発揮します。

実験的評価

まず、この研究では、以下の複数のカテゴリーを網羅した学術ベンチマークにおいて、Phi-2 と共通言語モデルを実験的に比較します。

ビッグベンチハード（BBH）（CoT付き3ショット）
常識推論（PIQA、WinoGrande、ARCイージー＆チャレンジ、SIQA）、
言語理解 (HellaSwag、OpenBookQA、MMLU (5 ショット)、SQuADv2 (2 ショット)、BoolQ)
数学（GSM8k（8ショット））
コーディング（HumanEval、MBPP（3ショット））

Phi-2 には 27 億のパラメータしかありませんが、さまざまな総合ベンチマークにおいて、そのパフォーマンスは 7B および 13B Mistral モデルや Llama2 モデルを上回っています。注目すべきは、Phi-2 が、25 倍大きい Llama2-70B モデルと比較して、マルチステップ推論タスク (コーディングや数学など) でより優れたパフォーマンスを達成していることです。

さらに、小型モデルであるにもかかわらず、Phi-2 のパフォーマンスは、Google が最近リリースした Gemini Nano 2 に匹敵します。

多くの公開ベンチマークがトレーニングデータに漏れる可能性があるため、研究チームは、言語モデルのパフォーマンスをテストする最良の方法は、具体的な使用ケースでテストすることであると考えました。そのため、この研究では、複数の Microsoft 社内独自のデータセットとタスクを使用して Phi-2 を評価し、再び Mistral および Llama-2 と比較しました。平均すると、Phi-2 は Mistral-7B よりも優れており、Mistral-7B は Llama2 モデル (7B、13B、70B) よりも優れていました。

さらに、研究チームは、研究コミュニティで一般的に使用されているプロンプトについて広範なテストを実施しました。 Phi-2 は期待どおりに動作しました。たとえば、モデルの物理問題を解決する能力をテストするために使用されるプロンプト (最近、Gemini Ultra モデルの評価に使用) の場合、Phi-2 は次の結果を返しました。

<<: CLIPのフォーカスエリアを自由に指定！上海交通大学、復旦大学などがAlpha-CLIPをリリース：フルイメージ＋ローカル検出機能を同時に維持

>>: 2年半の訓練を経て、テスラのヒューマノイドロボット「オプティマス2」がオンラインになった。