2.7B は Llama 2 70B に勝てる、Microsoft は「小さな言語モデル」を提供! 96台のA100が14日間でPhi-2を訓練し、Google Gemini nanoを圧倒

大きなモデルの髪は、本当にどんどんカールしてきています！

11月に、OpenAIはまずGPTを使用してGPTに革命を起こし、その後、膨大なトラフィックを獲得するために取締役会を犠牲にしました。

追い詰められたグーグルは、年末に急遽、マルチモーダル化を加速させ、さらには「動画詐欺」にまで手を染めながら、超大型モデル「ジェミニ」をリリースした。

ちょうど本日、Microsoft は 11 月の Ignite カンファレンスで発表された Phi-2 を正式にリリースしました。

27 億のパラメータを持つ「Small Language Model (SLM)」Phi-2 は、Google の最新の Gemini Nano 2 を含む、13 億未満のすべての大規模モデルをほぼ凌駕します。

モデル拡張とトレーニングデータ管理における革新により、Phi-2 は優れた推論機能と言語理解機能を実証しました。複雑なベンチマークテストでは、Phi-2 のパフォーマンスは、それよりも 25 倍大きいモデルと同等か、それよりわずかに優れています。

非常にスリムなサイズで優れたパフォーマンスを実現します。

これにより、研究者やモデル開発者は Phi-2 を使用して解釈可能性やセキュリティを改善し、他のタスクに合わせて微調整することが容易になります。

Phi-2 は現在、Azure AI Studio を通じて利用可能です。

ただし、他のオープンソースモデルと比較すると、基本的に Apache 2.0 ライセンス契約に基づいており、商用利用をサポートできることは注目に値します。 Phi-2 は研究目的でのみ使用でき、商用利用はサポートされていません。

Microsoft の最も強力な「小型モデル」が登場!

大規模言語モデルは現在、数千億のパラメータにまで成長しています。この巨大なスケールにより、強力なパフォーマンスがもたらされ、自然言語処理の状況は一変しました。

しかし、適切なトレーニング方法（データ選択など）を通じて、小規模な言語モデルでも同様の機能を獲得できるようにすることは可能でしょうか?

Microsoft の Phi-2 がその答えを提供します。

Phi-2 は従来の言語モデルのスケーリング法則を破り、そのテストスコアは自身よりも 25 倍大きいモデルと競合することができます。

Microsoft は、Phi-2 の成功に関する 2 つの重要な洞察について詳しく説明しています。

最初のポイント: トレーニングデータの品質はモデルのパフォーマンスに重要な役割を果たします。

大規模モデルの開発者の間での総意として、Microsoft の研究者は「教科書品質」のデータを使用することでさらに一歩前進しました。

Phi-1 がリリースされたとき、開発チームは「必要なのは教科書だけ」を提案しました。

Phi-2 の開発では、チームはこれを極限まで追求しました。

Phi-2 が使用するトレーニングデータには、モデルに常識的な推論と一般知識 (科学、日常活動、心の理論など) を教えるために特別に設計された合成データセットが含まれています。

さらに、R&D チームは、教育的価値とコンテンツの品質に基づいて慎重に選択されたオンラインデータをフィルタリングすることで、トレーニングコーパスをさらに拡張しました。

2 番目のポイント: 革新的なテクノロジーを使用してモデルを拡張します。

1.3B パラメータ Phi-1.5 に基づいて、その知識は 2.7B パラメータ Phi-2 に埋め込まれます。この大規模な知識移転により、トレーニングの収束が加速されるだけでなく、Phi-2 ベンチマークスコアも大幅に向上します。

上の図は、さまざまなテストにおける Phi-2 と Phi-1.5 の比較を示しています (BBH と MMLU はそれぞれ 3 と 5 の CoT (Chain of Thought) を使用します)。

革新的なテクノロジーのサポートにより、Phi-2 のパフォーマンスが大幅に向上したことがわかります。

96 A100 14日間

Phi-2 は、1.4T トークン (NLP およびエンコーディング用の合成データセットと Web データセットを含む) でトレーニングされた Transformer ベースのモデルです。

Phi-2 のトレーニングには 96 個の A100 GPU が使用され、14 日かかりました。

Phi-2 は、強化学習と人間のフィードバック (RLHF) によって調整されておらず、微調整もされていない基本モデルです。

それにもかかわらず、Phi-2 は、毒性とバイアスの点では、既存のオープンソースモデルよりも優れたパフォーマンスを発揮します。 ——これは、テーラーメイドのデータソート技術の活用によるものです。

上の図は、ToxiGen の 13 の人口統計データに基づいて計算された安全性スコアを示しています。

ここでは、6541 個の文のサブセットが選択され、複雑さと文の毒性に基づいて 0 から 1 の間でスコアが付けられました。スコアが高いほど、モデルが有害な文を生成する可能性が低くなります。

評価する

以下では、R&D チームが、一般的な言語モデルと比較した学術ベンチマークにおける Phi-2 のパフォーマンスをまとめています。

ベンチマークは、Big Bench Hard (BBH) (CoT を使用した 3 つのテスト)、Common Sense Reasoning (PIQA、WinoGrande、ARC easy and challenge、SIQA)、Language Understanding (HellaSwag、OpenBookQA、MMLU (5 回)、SQuADv2 (2 回)、BoolQ)、Mathematics (GSM8k (8 回))、および Coding (HumanEval、MBPP (3 回)) など、複数のカテゴリをカバーしています。

Phi-2 には 27 億個のパラメータしかなく、さまざまなベンチマークで Mistral 7B および Llama-2 13B モデルよりも優れた性能を発揮します。

さらに、このモデルは、25 倍大きい Llama-2-70B モデルよりも、多段階の推論タスク (コーディングや数学など) で優れたパフォーマンスを発揮します。

さらに、Phi-2 はサイズが若干小さいものの、最近リリースされた Google Gemini Nano 2 よりもパフォーマンスが優れています。

多くのモデルテストベンチマークがトレーニングデータによって汚染されている可能性があることを考慮して、研究チームは Phi-1 の開発時にトレーニングデータの汚染の可能性を回避するよう努めました。

Microsoft の研究チームは、言語モデルのパフォーマンスを判断する最良の方法は、実際の使用シナリオでテストすることだと考えています。

マイクロソフトは、真実の探求と実用主義の精神に基づき、社内独自のデータセットとタスクをいくつか使用して Phi-2 を評価し、Mistral および Llama-2 と再度比較しました。結果はまた、Phi-2 の平均パフォーマンスが Mistral-7B および Llama-2 ファミリー (7B、13B、および 70B) よりも優れていることを示しています。

これらのベンチマークに加えて、マイクロソフトは、今や批判の的となっているグーグルのGeminiデモビデオを批判せざるを得なかった。

このビデオでは、Google の次期最強の人工知能モデルである Gemini Ultra が、かなり複雑な物理学の問題を解き、さらには生徒の間違いを訂正する方法を紹介しています。

結局、Gemini Ultra よりもパラメータの数がはるかに少ないにもかかわらず、Phi-2 も同じプロンプトを使用して質問に正しく答え、生徒を訂正することができました。

上の画像は、ほぼ正確な平方根計算を含む単純な物理問題に対する Phi-2 の出力を示しています。

ジェミニテストと同様に、ここでは生徒の誤った回答を使用して Phi-2 をさらに調べ、Phi-2 がエラーの場所を特定できるかどうかを確認します。

Phi-2 はチャットやコマンドの追跡用に調整されていないにもかかわらず、問題を識別していることがわかります。

ただし、Google のデモビデオでは入力として生徒の手書きテキストの画像が使用されていたのに対し、Phi-2 テストではテキストが直接入力されていたことに注意する必要があります。

魔法改造ヒントエンジニアリング、GPT-4がジェミニウルトラに反撃

Microsoft は、Medprompt と呼ばれるプロンプトエンジニアリングに関する調査を発表しました。 LLM が推進する革新的なエンジニアリング技術を通じて、これまでは専門的なトレーニングや微調整が必要だった医療分野のパフォーマンス向上を実現しました。

論文アドレス: https://www.microsoft.com/en-us/research/publication/can-generalist-foundation-models-outcompete-special-purpose-tuning-case-study-in-medicine/

このプロンプトプロジェクトに基づいて、Microsoft はプロンプト戦略がより普遍的な効果をもたらす可能性があることを発見しました。最終的に、Microsoft は Medprompt の修正バージョンを使用して GPT-4 をガイドすることで、MMLU で SOTA 結果を達成しました。

Google Gemini がリリースされたときよりもほんの少しだけ良くなりました。

この「不注意な」結果により、Microsoft は、Gemini がリリースされたときに Google の CoT@32 が GPT-4 を 5 打差で破ったという結果を狙撃しました。

この秘密のライバル関係は、一見簡単なもののように見えますが、私たちが学生の頃、クラスのトップクラスの生徒二人が競争心からお互いを妨害しようとしていた場面と非常によく似ています。

ネットユーザーの間で熱い議論

以前、マイクロソフトの重役たちは、MT ベンチでいくつかのモデルのテスト結果を発表しました。

わずか 2.7B の Phi-2 シリーズが非常に優れたパフォーマンスを発揮することがわかります。

ネットユーザーもPhi-2のパフォーマンスを称賛した。

「すごいですね、Phi-2 はゲームチェンジャーのようですね。大規模な言語モデルに匹敵するほど強力でありながら、ラップトップやモバイルデバイスで実行できるほど小さいというのは素晴らしいことです。これにより、ハードウェアが制限されたデバイスでの自然言語処理の可能性がまったく新しい世界へと広がります。」

一部のネットユーザーは不安を表明した。

「Microsoft の新しい Phi-2 を Mac で実行する方法を知っている人はいますか?」

もちろん、より「鋭い」ネットユーザーの中には OpenAI を持ち出す者もいた。

「そもそもモデルにゴミを流し込まなければ、アライメントを気にする必要はないようです。@Openai」

ネットユーザーの中には、小型言語モデルの将来性に期待を寄せる人もいる。

「Phi-3 がすべてのタスクで GPT-3.5 を上回ることを心から願っています。」

<<: RLHFの2%ハッシュレートを使用してLLMからの有害な出力を阻止するために、ByteはLLM忘却学習を提案した。

>>: Xing Bo 氏のチームの LLM360 は、大規模なモデルを真に透明化する総合的なオープンソースプロジェクトです。