マイクロソフトの小型モデルが大型モデルに勝利:27億のパラメータ、携帯電話で実行可能

マイクロソフトの小型モデルが大型モデルに勝利:27億のパラメータ、携帯電話で実行可能

先月、マイクロソフトのCEOであるサティア・ナデラ氏はIgniteカンファレンスで、自社開発の小型モデルPhi-2は完全にオープンソースとなり、常識推論、言語理解、論理的推論のパフォーマンスが大幅に向上すると発表しました。

本日、Microsoft は Phi-2 モデルとその新しいプロンプト テクノロジである promptbase に関する詳細を発表しました。わずか 27 億のパラメータを持つこのモデルは、ほとんどの常識的推論、言語理解、数学、コーディング タスクで Llama2 7B、Llama2 13B、Mistral 7B を上回り、Llama2 70B との差を縮めています (またはさらに上回っています)。

同時に、Phi-2 はサイズが小さいため、ノートパソコンや携帯電話などのモバイル デバイスでも実行できます。ナデラ氏は、マイクロソフトが最高級の Small Language Model (SLM) と SOTA プロンプト テクノロジを研究開発担当者と共有できることを非常に嬉しく思っていると述べました。

今年 6 月、マイクロソフトは「教科書だけで十分」と題した論文で、わずか 70 億トークンの「教科書品質」データを使用して、13 億パラメータのモデル phi-1 をトレーニングしました。データセットとモデルサイズの点で競合モデルよりも桁違いに小さいにもかかわらず、phi-1 は HumanEval の pass@1 で 50.6%、MBPP で 55.5% の精度を達成しています。 phi-1 は、高品質の「小さなデータ」によってモデルが優れたパフォーマンスを発揮できることを証明しています。

同年9月、マイクロソフトは「教科書だけで十分II:phi-1.5技術レポート」と題する論文を発表し、高品質な「スモールデータ」の可能性をさらに研究した。この記事では、13 億のパラメータを持ち、QA の質問応答、コード、その他のシナリオに適した Phi-1.5 を提案しています。

現在 27 億のパラメータを持つ Phi-2 は、再びその「小さなボディ」を活用して優れた推論機能と言語理解機能を提供し、130 億未満のパラメータを持つ基本言語モデルで SOTA パフォーマンスを実証しています。モデルのスケーリングとトレーニング データ管理における革新により、Phi-2 は複雑なベンチマークにおいて 25 倍のサイズのモデルに匹敵、あるいはそれを上回ります。

Microsoft によれば、Phi-2 は、説明可能性の調査、セキュリティの改善、またはさまざまなタスクに関する実験の微調整を行う研究者にとって理想的なモデルになるという。 Microsoft は、言語モデルの開発を容易にするために、Phi-2 を Azure AI Studio モデル カタログで利用できるようにしました。

Phi-2の主なハイライト

言語モデルのサイズが数千億のパラメータに増加したことで、多くの新しい機能が実現し、自然言語処理の状況が再定義されました。しかし、疑問が残ります。これらの新しい機能は、トレーニング戦略の選択 (データ選択など) を通じて、より小規模なモデルで実現できるのでしょうか?

Microsoft の答えは、小さな言語モデルをトレーニングすることで大規模モデルと同様のパフォーマンスを実現する Phi シリーズのモデルです。 Phi-2 は、主に 2 つの側面で従来の言語モデルのスケーリング ルールを破ります。

まず、トレーニング データの品質はモデルのパフォーマンスに重要な役割を果たします。 Microsoft は、「教科書品質」のデータに焦点を当てることで、この認識を極限まで高めています。同社のトレーニング データは、科学、日常活動、心理学などの常識的な知識と推論をモデルに教えるために特別に作成された合成データセットで構成されています。さらに、教育的価値とコンテンツの品質に応じてフィルタリングされた、厳選された Web データを使用してトレーニング コーパスをさらに拡張します。

次に、Microsoft は、13 億のパラメータ Phi-1.5 から始めて、27 億のパラメータ Phi-2 に徐々に知識を組み込むことで、革新的な技術を使用して拡張しました。この大規模な知識移転により、トレーニングの収束が加速され、Phi-2 ベンチマーク スコアが大幅に向上します。

下の図 2 は、Phi-2 と Phi-1.5 の比較を示しています。BBH (3 ショット CoT) と MMLU (5 ショット) を除き、他のすべてのタスクは 0 ショットを使用して評価されます。

トレーニングの詳細

Phi-2 は、次の単語を予測するように設計された Transformer ベースのモデルで、NLP とコーディング用の合成データセットと Web データセットでトレーニングされ、96 個の A100 GPU で 14 日間かかりました。

Phi-2 は、人間のフィードバックによる強化学習 (RLHF) によって調整されておらず、指示によって微調整されていない基本モデルです。それにもかかわらず、Phi-2 は、下の図 3 に示すように、適応された既存のオープン ソース モデルと比較して、毒性とバイアスの点で依然として優れたパフォーマンスを発揮します。

実験的評価

まず、この研究では、以下の複数のカテゴリーを網羅した学術ベンチマークにおいて、Phi-2 と共通言語モデルを実験的に比較します。

  • ビッグベンチハード(BBH)(CoT付き3ショット)
  • 常識推論(PIQA、WinoGrande、ARCイージー&チャレンジ、SIQA)、
  • 言語理解 (HellaSwag、OpenBookQA、MMLU (5 ショット)、SQuADv2 (2 ショット)、BoolQ)
  • 数学(GSM8k(8ショット))
  • コーディング(HumanEval、MBPP(3ショット))

Phi-2 には 27 億のパラメータしかありませんが、さまざまな総合ベンチマークにおいて、そのパフォーマンスは 7B および 13B Mistral モデルや Llama2 モデルを上回っています。注目すべきは、Phi-2 が、25 倍大きい Llama2-70B モデルと比較して、マルチステップ推論タスク (コーディングや数学など) でより優れたパフォーマンスを達成していることです。

さらに、小型モデルであるにもかかわらず、Phi-2 のパフォーマンスは、Google が最近リリースした Gemini Nano 2 に匹敵します。

多くの公開ベンチマークがトレーニング データに漏れる可能性があるため、研究チームは、言語モデルのパフォーマンスをテストする最良の方法は、具体的な使用ケースでテストすることであると考えました。そのため、この研究では、複数の Microsoft 社内独自のデータセットとタスクを使用して Phi-2 を評価し、再び Mistral および Llama-2 と比較しました。平均すると、Phi-2 は Mistral-7B よりも優れており、Mistral-7B は Llama2 モデル (7B、13B、70B) よりも優れていました。


さらに、研究チームは、研究コミュニティで一般的に使用されているプロンプトについて広範なテストを実施しました。 Phi-2 は期待どおりに動作しました。たとえば、モデルの物理問題を解決する能力をテストするために使用されるプロンプト (最近、Gemini Ultra モデルの評価に使用) の場合、Phi-2 は次の結果を返しました。

<<:  CLIPのフォーカスエリアを自由に指定!上海交通大学、復旦大学などがAlpha-CLIPをリリース:フルイメージ+ローカル検出機能を同時に維持

>>:  2年半の訓練を経て、テスラのヒューマノイドロボット「オプティマス2」がオンラインになった。

ブログ    

推薦する

K 分割交差検証とグリッドサーチ

みなさんこんにちは、私はZhibinです〜今日は、GridSearch グリッド検索と K 分割相互...

スマートホームとは何ですか?そしてそれは必要ですか?

スマートホームのコンセプトを最も簡単に説明すると、それは家の自然な進化であるということです。スマート...

人工知能 (AI) は、研究室から実際のアプリケーションまでどのように異なるのでしょうか?

人工知能が実際の応用に入ると、遭遇する問題のほとんどは複雑になります。 しかし、現段階では、人工知能...

物流業界における人工知能の応用と発展の動向の概要

北京科技大学機械工学部物流工学科羅磊、趙寧人工知能(AI)は、人間の知能をシミュレート、拡張、拡大す...

...

研究者は人工知能を使ってSARS-CoV-2のような次のウイルスを見つける

ジョージタウン大学の科学者が率いる国際研究チームは、COVID-19パンデミックの原因ウイルスである...

...

...

AIがビジネスプロセス管理を根本的に変える方法

BPM に AI の検出機能と自動化機能を導入すると、フロントオフィス プロセス、プロセス データ分...

ランウェイの最強のライバルが登場、ワンクリックでショートビデオを生成、期間限定で無料

近年、AI による絵画のレベルは飛躍的に向上しています。 Midjourney と Adob​​e ...

自動運転のための強化学習:人間主導の経験ベースのアプローチ

[[428302]] 2021年9月26日にarXivにアップロードされた論文「人間のガイダンスによ...

...

製造バリューチェーンにおいて RPA に真のチャンスはあるのでしょうか?

[[421304]]製造業における自動化の推進力は非常に単純です。自動化は人間の作業をシミュレート...

...