マイクロソフトの小型モデルが大型モデルに勝利:27億のパラメータ、携帯電話で実行可能

マイクロソフトの小型モデルが大型モデルに勝利:27億のパラメータ、携帯電話で実行可能

先月、マイクロソフトのCEOであるサティア・ナデラ氏はIgniteカンファレンスで、自社開発の小型モデルPhi-2は完全にオープンソースとなり、常識推論、言語理解、論理的推論のパフォーマンスが大幅に向上すると発表しました。

本日、Microsoft は Phi-2 モデルとその新しいプロンプト テクノロジである promptbase に関する詳細を発表しました。わずか 27 億のパラメータを持つこのモデルは、ほとんどの常識的推論、言語理解、数学、コーディング タスクで Llama2 7B、Llama2 13B、Mistral 7B を上回り、Llama2 70B との差を縮めています (またはさらに上回っています)。

同時に、Phi-2 はサイズが小さいため、ノートパソコンや携帯電話などのモバイル デバイスでも実行できます。ナデラ氏は、マイクロソフトが最高級の Small Language Model (SLM) と SOTA プロンプト テクノロジを研究開発担当者と共有できることを非常に嬉しく思っていると述べました。

今年 6 月、マイクロソフトは「教科書だけで十分」と題した論文で、わずか 70 億トークンの「教科書品質」データを使用して、13 億パラメータのモデル phi-1 をトレーニングしました。データセットとモデルサイズの点で競合モデルよりも桁違いに小さいにもかかわらず、phi-1 は HumanEval の pass@1 で 50.6%、MBPP で 55.5% の精度を達成しています。 phi-1 は、高品質の「小さなデータ」によってモデルが優れたパフォーマンスを発揮できることを証明しています。

同年9月、マイクロソフトは「教科書だけで十分II:phi-1.5技術レポート」と題する論文を発表し、高品質な「スモールデータ」の可能性をさらに研究した。この記事では、13 億のパラメータを持ち、QA の質問応答、コード、その他のシナリオに適した Phi-1.5 を提案しています。

現在 27 億のパラメータを持つ Phi-2 は、再びその「小さなボディ」を活用して優れた推論機能と言語理解機能を提供し、130 億未満のパラメータを持つ基本言語モデルで SOTA パフォーマンスを実証しています。モデルのスケーリングとトレーニング データ管理における革新により、Phi-2 は複雑なベンチマークにおいて 25 倍のサイズのモデルに匹敵、あるいはそれを上回ります。

Microsoft によれば、Phi-2 は、説明可能性の調査、セキュリティの改善、またはさまざまなタスクに関する実験の微調整を行う研究者にとって理想的なモデルになるという。 Microsoft は、言語モデルの開発を容易にするために、Phi-2 を Azure AI Studio モデル カタログで利用できるようにしました。

Phi-2の主なハイライト

言語モデルのサイズが数千億のパラメータに増加したことで、多くの新しい機能が実現し、自然言語処理の状況が再定義されました。しかし、疑問が残ります。これらの新しい機能は、トレーニング戦略の選択 (データ選択など) を通じて、より小規模なモデルで実現できるのでしょうか?

Microsoft の答えは、小さな言語モデルをトレーニングすることで大規模モデルと同様のパフォーマンスを実現する Phi シリーズのモデルです。 Phi-2 は、主に 2 つの側面で従来の言語モデルのスケーリング ルールを破ります。

まず、トレーニング データの品質はモデルのパフォーマンスに重要な役割を果たします。 Microsoft は、「教科書品質」のデータに焦点を当てることで、この認識を極限まで高めています。同社のトレーニング データは、科学、日常活動、心理学などの常識的な知識と推論をモデルに教えるために特別に作成された合成データセットで構成されています。さらに、教育的価値とコンテンツの品質に応じてフィルタリングされた、厳選された Web データを使用してトレーニング コーパスをさらに拡張します。

次に、Microsoft は、13 億のパラメータ Phi-1.5 から始めて、27 億のパラメータ Phi-2 に徐々に知識を組み込むことで、革新的な技術を使用して拡張しました。この大規模な知識移転により、トレーニングの収束が加速され、Phi-2 ベンチマーク スコアが大幅に向上します。

下の図 2 は、Phi-2 と Phi-1.5 の比較を示しています。BBH (3 ショット CoT) と MMLU (5 ショット) を除き、他のすべてのタスクは 0 ショットを使用して評価されます。

トレーニングの詳細

Phi-2 は、次の単語を予測するように設計された Transformer ベースのモデルで、NLP とコーディング用の合成データセットと Web データセットでトレーニングされ、96 個の A100 GPU で 14 日間かかりました。

Phi-2 は、人間のフィードバックによる強化学習 (RLHF) によって調整されておらず、指示によって微調整されていない基本モデルです。それにもかかわらず、Phi-2 は、下の図 3 に示すように、適応された既存のオープン ソース モデルと比較して、毒性とバイアスの点で依然として優れたパフォーマンスを発揮します。

実験的評価

まず、この研究では、以下の複数のカテゴリーを網羅した学術ベンチマークにおいて、Phi-2 と共通言語モデルを実験的に比較します。

  • ビッグベンチハード(BBH)(CoT付き3ショット)
  • 常識推論(PIQA、WinoGrande、ARCイージー&チャレンジ、SIQA)、
  • 言語理解 (HellaSwag、OpenBookQA、MMLU (5 ショット)、SQuADv2 (2 ショット)、BoolQ)
  • 数学(GSM8k(8ショット))
  • コーディング(HumanEval、MBPP(3ショット))

Phi-2 には 27 億のパラメータしかありませんが、さまざまな総合ベンチマークにおいて、そのパフォーマンスは 7B および 13B Mistral モデルや Llama2 モデルを上回っています。注目すべきは、Phi-2 が、25 倍大きい Llama2-70B モデルと比較して、マルチステップ推論タスク (コーディングや数学など) でより優れたパフォーマンスを達成していることです。

さらに、小型モデルであるにもかかわらず、Phi-2 のパフォーマンスは、Google が最近リリースした Gemini Nano 2 に匹敵します。

多くの公開ベンチマークがトレーニング データに漏れる可能性があるため、研究チームは、言語モデルのパフォーマンスをテストする最良の方法は、具体的な使用ケースでテストすることであると考えました。そのため、この研究では、複数の Microsoft 社内独自のデータセットとタスクを使用して Phi-2 を評価し、再び Mistral および Llama-2 と比較しました。平均すると、Phi-2 は Mistral-7B よりも優れており、Mistral-7B は Llama2 モデル (7B、13B、70B) よりも優れていました。


さらに、研究チームは、研究コミュニティで一般的に使用されているプロンプトについて広範なテストを実施しました。 Phi-2 は期待どおりに動作しました。たとえば、モデルの物理問題を解決する能力をテストするために使用されるプロンプト (最近、Gemini Ultra モデルの評価に使用) の場合、Phi-2 は次の結果を返しました。

<<:  CLIPのフォーカスエリアを自由に指定!上海交通大学、復旦大学などがAlpha-CLIPをリリース:フルイメージ+ローカル検出機能を同時に維持

>>:  2年半の訓練を経て、テスラのヒューマノイドロボット「オプティマス2」がオンラインになった。

ブログ    
ブログ    

推薦する

...

...

人間の運転、交通事故の最大の欠陥 | 自動運転車の交通安全に関する白書が発表

今年の自動運転業界は商用化がキーワードです。年末に、百度、中国自動車技術研究センター、同済大学が共同...

122の古典的なSOTAモデルと223のアルゴリズム実装リソースを1つの記事にまとめました。

春節休暇期間中、Syncedの「SOTA! Model」は「Tiger Roller Operati...

Google X、手作業でラベル付けすることなく一目で対象部品を見つけられるグリッパーアームをオープンソース化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能産業の急速な発展の背後にある4つの大きな無駄

[[258526]]過去7年間、中国のプライベートエクイティ投資市場における人工知能分野への投資額は...

...

モノのインターネットにおける人工知能の主要技術と手法

人工知能は、IoT の機能を実現する上で重要な役割を果たします。 AI と IoT の融合を推進し、...

合成データは AI/ML トレーニングの未来を推進するでしょうか?

人工知能や機械学習 (AI/ML) をトレーニングするために現実世界のデータを収集することは、時間が...

バックトラッキングアルゴリズム: 組み合わせ問題を解決しましょう!

[[379493]]バックトラッキングアルゴリズムをほとんど忘れてしまいましたか?組み合わせ問題を...

複数のAI企業の人事担当者/面接官が明かす:機械学習エンジニアの採用方法

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

GPT-4 は AGI です! Googleとスタンフォード大学の科学者が、大規模モデルがいかにして超知能化できるかを明らかに

汎用人工知能(AGI)は実際に実現されているのでしょうか?最近、Google Research と ...

ソフトウェアは世界を飲み込んでいるが、AIはソフトウェアを飲み込んでいる

COVID-19が世界を席巻したとき、人工知能はなぜ大きな空白を埋めることができるのか?教育、セキュ...

AI企業がソフトウェアサプライチェーンの脆弱性の犠牲になると何が起こるか

OpenAI の侵害を調査し、AI 企業 SSC のハッキングの可能性とその影響の可能性を推測します...

...