マイクロソフトが27億パラメータのPhi-2モデルを発表、多くの大規模言語モデルを上回る性能を発揮

マイクロソフトが27億パラメータのPhi-2モデルを発表、多くの大規模言語モデルを上回る性能を発揮

マイクロソフトは、Phi-2 と呼ばれる人工知能モデルをリリースしました。このモデルは、その 25 倍の規模を持つ、より大規模で確立されたモデルに匹敵するか、それを上回る優れた性能を発揮します。

マイクロソフトは本日のブログ投稿で、Phi-2 は 27 億のパラメータを持つ言語モデルであり、推論、言語理解、数学、コーディング、常識能力を評価する複雑なベンチマークで他のベースモデルと比較して「最先端のパフォーマンス」を示したと発表した。 Phi-2 は現在、Microsoft Azure AI Studio のモデル カタログを通じて利用可能であり、研究者や開発者は今すぐにサードパーティ アプリケーションに統合できます。

11月のIgniteカンファレンスでマイクロソフトの最高経営責任者サティア・ナデラ氏(写真)が初めて公開したPhi-2は、同社が「教科書品質」と呼ぶデータ、特に知識と、他のモデルによってもたらされる洞察を学習する技術によって強力になっている。

Phi-2 の興味深い点は、伝統的に、大規模言語モデルの能力は常に、パラメータで測定される全体的なサイズと密接に関連していることです。通常、パラメータが大きいモデルの方が強力ですが、Phi-2 の出現によりこの状況は変わりました。

Microsoft によれば、Phi-2 はいくつかのベンチマークで、Mistral AI の 70 億パラメータの Mistral、Meta Platforms の 130 億パラメータの Llama 2 など、より大規模なベースモデルの能力に匹敵するか、あるいは上回っていることを示し、さらにいくつかのベンチマークでは 700 億パラメータの Llama-2 を上回っているという。

おそらく最も驚くべき主張は、先週リリースされた Gemini シリーズの LLM の中で最も効率的な Google の Gemini Nano よりも優れた性能を発揮するという点です。デバイス上のタスク用に設計された Gemini Nano は、スマートフォン上で実行でき、テキストの要約、高度な校正、文法の修正、コンテキストに応じたスマートな返信などの機能を有効にできます。

マイクロソフトの研究者によると、Phi-2 でカバーされるテストは、言語理解、推論、数学、コーディング課題など、広範囲に及ぶという。

同社によれば、Phi-2がこのような優れた結果を達成したのは、推論、知識、常識を教えるために設計された、厳選された教科書レベルのデータで訓練されているためであり、つまり、より少ない情報からより多くのことを学習できるのだ。 Microsoft の研究者は、より小さなモデルから知識を獲得できる技術も使用しました。

注目すべきことに、Phi-2は、AIモデルの動作を改善するためによく使用される、人間のフィードバックに基づく強化学習や指導の微調整などの技術を使用せずに、その優れたパフォーマンスを達成していると研究者らは述べている。これらの技術を使用していないにもかかわらず、Phi-2 は、これらの技術を使用する他のオープンソース モデルよりも、バイアスと有害コンテンツの削減において優れたパフォーマンスを発揮します。同社はこれをカスタマイズされたデータの編集によるものだと考えている。

Phi-2 は、Microsoft の研究者が「小規模言語モデル (SLM)」と呼ぶ一連のモデルの最新版です。このシリーズの最初のモデルは Phi-1 で、今年初めに初めてリリースされ、13 億のパラメータを持ち、基本的な Python コーディング タスク向けに微調整されています。同社は9月に、13億のパラメータを持ち、自然言語プログラミングを使用して生成されたさまざまな合成テキストを含む新しいデータソースを使用してトレーニングされるPhi-1.5をリリースしました。

マイクロソフトは、Phi-2 の効率性により、研究者が AI の安全性、説明可能性、言語モデルの倫理的開発の強化などの分野を研究するのに理想的なプラットフォームになると述べています。

<<:  インテリジェントロボットを活用してビジネス運営を強化する方法

>>:  RayDF: リアルタイムレンダリング!光線に基づく3D再構成の新しい方法

ブログ    
ブログ    

推薦する

AIがいかにして将来の採用担当者のスキルを生み出すか

AI が採用業務を自動化し続けるにつれて、採用担当者のスキルが変化するという共通認識が広まりつつあり...

JVM 世代別ガベージコレクションのプロセスとアルゴリズムの選択の図解説明

この記事は、JVM の世代別ガベージ コレクション プロセスを紹介し、さまざまなガベージ コレクショ...

機械学習におけるモデルドリフト

今日、機械学習モデルはビジネス上の意思決定の主な原動力となっています。他のビジネス戦略と同様に、これ...

108 言語をサポートする Google 翻訳は、AI をどのように活用して翻訳の品質を向上させているのでしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

清華大学の学生が強化学習プラットフォーム「TianShou」を開発:数千行のコードが完成、オープンソース化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

機械学習、ディープラーニング、強化学習の関係と違いは何ですか?

これには、機械学習のサブフィールドの分類が含まれます。すべての分類において、最初に尋ねるべき質問は、...

人工知能:古典コンピュータから量子コンピュータまで、弱い AI は強い AI の時代へ進むのでしょうか?

人工知能(AI)は通常、通常のコンピュータ プログラムを通じて人間の知能を表現する技術を指します。コ...

2つのセッションが始まります!自動運転とスマートカーに関する最新の提案13選

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

時代の流れに乗り、華麗に変革を遂げる UiPath RPA が上海ノキアベルの新たな航海をサポートします。

上海ノキアベル株式会社(以下、「ノキアベル」)は、ノキアグループと中国保利集団の子会社である華新郵電...

自動運転技術はすでにかなり成熟しているのに、なぜまだ普及していないのでしょうか?この技術を待っている

自動運転技術は人類社会の未来を変える科学技術であり、私たちの生活にどんどん浸透し、すでに多くの自動運...

機械学習と古典的なアルゴリズムの概念をわかりやすい言葉で説明しました。初心者必読

データ分野では、多くの人が機械学習について語っていますが、それが何であるかを明確に説明できる人はごく...

人工ニューラル ネットワークのドライバー: 活性化関数とは何ですか?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...