マイクロソフトが27億パラメータのPhi-2モデルを発表、多くの大規模言語モデルを上回る性能を発揮

マイクロソフトが27億パラメータのPhi-2モデルを発表、多くの大規模言語モデルを上回る性能を発揮

マイクロソフトは、Phi-2 と呼ばれる人工知能モデルをリリースしました。このモデルは、その 25 倍の規模を持つ、より大規模で確立されたモデルに匹敵するか、それを上回る優れた性能を発揮します。

マイクロソフトは本日のブログ投稿で、Phi-2 は 27 億のパラメータを持つ言語モデルであり、推論、言語理解、数学、コーディング、常識能力を評価する複雑なベンチマークで他のベースモデルと比較して「最先端のパフォーマンス」を示したと発表した。 Phi-2 は現在、Microsoft Azure AI Studio のモデル カタログを通じて利用可能であり、研究者や開発者は今すぐにサードパーティ アプリケーションに統合できます。

11月のIgniteカンファレンスでマイクロソフトの最高経営責任者サティア・ナデラ氏(写真)が初めて公開したPhi-2は、同社が「教科書品質」と呼ぶデータ、特に知識と、他のモデルによってもたらされる洞察を学習する技術によって強力になっている。

Phi-2 の興味深い点は、伝統的に、大規模言語モデルの能力は常に、パラメータで測定される全体的なサイズと密接に関連していることです。通常、パラメータが大きいモデルの方が強力ですが、Phi-2 の出現によりこの状況は変わりました。

Microsoft によれば、Phi-2 はいくつかのベンチマークで、Mistral AI の 70 億パラメータの Mistral、Meta Platforms の 130 億パラメータの Llama 2 など、より大規模なベースモデルの能力に匹敵するか、あるいは上回っていることを示し、さらにいくつかのベンチマークでは 700 億パラメータの Llama-2 を上回っているという。

おそらく最も驚くべき主張は、先週リリースされた Gemini シリーズの LLM の中で最も効率的な Google の Gemini Nano よりも優れた性能を発揮するという点です。デバイス上のタスク用に設計された Gemini Nano は、スマートフォン上で実行でき、テキストの要約、高度な校正、文法の修正、コンテキストに応じたスマートな返信などの機能を有効にできます。

マイクロソフトの研究者によると、Phi-2 でカバーされるテストは、言語理解、推論、数学、コーディング課題など、広範囲に及ぶという。

同社によれば、Phi-2がこのような優れた結果を達成したのは、推論、知識、常識を教えるために設計された、厳選された教科書レベルのデータで訓練されているためであり、つまり、より少ない情報からより多くのことを学習できるのだ。 Microsoft の研究者は、より小さなモデルから知識を獲得できる技術も使用しました。

注目すべきことに、Phi-2は、AIモデルの動作を改善するためによく使用される、人間のフィードバックに基づく強化学習や指導の微調整などの技術を使用せずに、その優れたパフォーマンスを達成していると研究者らは述べている。これらの技術を使用していないにもかかわらず、Phi-2 は、これらの技術を使用する他のオープンソース モデルよりも、バイアスと有害コンテンツの削減において優れたパフォーマンスを発揮します。同社はこれをカスタマイズされたデータの編集によるものだと考えている。

Phi-2 は、Microsoft の研究者が「小規模言語モデル (SLM)」と呼ぶ一連のモデルの最新版です。このシリーズの最初のモデルは Phi-1 で、今年初めに初めてリリースされ、13 億のパラメータを持ち、基本的な Python コーディング タスク向けに微調整されています。同社は9月に、13億のパラメータを持ち、自然言語プログラミングを使用して生成されたさまざまな合成テキストを含む新しいデータソースを使用してトレーニングされるPhi-1.5をリリースしました。

マイクロソフトは、Phi-2 の効率性により、研究者が AI の安全性、説明可能性、言語モデルの倫理的開発の強化などの分野を研究するのに理想的なプラットフォームになると述べています。

<<:  インテリジェントロボットを活用してビジネス運営を強化する方法

>>:  RayDF: リアルタイムレンダリング!光線に基づく3D再構成の新しい方法

ブログ    
ブログ    
ブログ    

推薦する

機械学習について知っておくべき6つの革命的な教訓

私たちは、ロボット工学、スマート家電、スマート小売店、自動運転車技術などによって推進される新しい時代...

2019年の技術予測: クラウド、ビッグデータ、AI、IoT、ブロックチェーン

[[258103]]テンセントテクノロジーニュース:フォーブスの寄稿者であるスティーブ・ウィルクス氏...

ロボティックプロセスオートメーションから価値を引き出すためにプロセスをマイニングする方法

成功するロボティック プロセス オートメーション (RPA) プログラムを実証し、維持する上での共通...

NLP モデルは人間のレベルを超えるか?大きな詐欺に遭ったかもしれない

[[276457]]ビッグデータダイジェスト制作出典: thegradient編纂者:張瑞怡、呉帥、...

人工知能は建設ロボットを誇大広告から現実のものへと変える

ロボットが建設業界で重要な役割を果たすことは間違いありませんが、マッキンゼーのレポートによると、プロ...

...

...

大学生が、1時間で600本の鉄筋を結束できる鉄筋結束ロボットを発明。建設労働者は再び失業することになるのだろうか?

人工知能の発展により、肉体労働のみに頼っている労働者の中には、徐々に失業に直面している者もいる。例え...

TensorFlow で RNN 実装を開く正しい方法

[[198810]]この記事の主な内容は、TensorFlow で RNN のいくつかの構造を実装す...

...

人工知能を導入する際にプライバシーを保護するための 3 つの重要なセキュリティ対策

AI 戦略を導入する前に、企業はプライバシーを保護し、セキュリティ標準への準拠を確保するために新しい...

もう在宅勤務​​はしないのですか? GANの父イアン・グッドフェローは怒りのあまりアップルを辞職した

アップルに3年間在籍した後、同社の機械学習担当ディレクターのイアン・グッドフェロー氏が突然辞任を発表...

AIはデザインにおいて具体的にどのように使用されるのでしょうか?

人工知能は、過去数十年で最も大きな技術進歩の一つになりました。可能性は刺激的で無限であり、さまざまな...

新しいディープラーニング プログラムは、ロボット工学の課題をどのように克服できるのでしょうか?

データ サイエンティストがディープラーニングについて話すとき、通常は画像の生成、検出、分類、回帰タス...