マイクロソフトが27億パラメータのPhi-2モデルを発表、多くの大規模言語モデルを上回る性能を発揮

マイクロソフトが27億パラメータのPhi-2モデルを発表、多くの大規模言語モデルを上回る性能を発揮

マイクロソフトは、Phi-2 と呼ばれる人工知能モデルをリリースしました。このモデルは、その 25 倍の規模を持つ、より大規模で確立されたモデルに匹敵するか、それを上回る優れた性能を発揮します。

マイクロソフトは本日のブログ投稿で、Phi-2 は 27 億のパラメータを持つ言語モデルであり、推論、言語理解、数学、コーディング、常識能力を評価する複雑なベンチマークで他のベースモデルと比較して「最先端のパフォーマンス」を示したと発表した。 Phi-2 は現在、Microsoft Azure AI Studio のモデル カタログを通じて利用可能であり、研究者や開発者は今すぐにサードパーティ アプリケーションに統合できます。

11月のIgniteカンファレンスでマイクロソフトの最高経営責任者サティア・ナデラ氏(写真)が初めて公開したPhi-2は、同社が「教科書品質」と呼ぶデータ、特に知識と、他のモデルによってもたらされる洞察を学習する技術によって強力になっている。

Phi-2 の興味深い点は、伝統的に、大規模言語モデルの能力は常に、パラメータで測定される全体的なサイズと密接に関連していることです。通常、パラメータが大きいモデルの方が強力ですが、Phi-2 の出現によりこの状況は変わりました。

Microsoft によれば、Phi-2 はいくつかのベンチマークで、Mistral AI の 70 億パラメータの Mistral、Meta Platforms の 130 億パラメータの Llama 2 など、より大規模なベースモデルの能力に匹敵するか、あるいは上回っていることを示し、さらにいくつかのベンチマークでは 700 億パラメータの Llama-2 を上回っているという。

おそらく最も驚くべき主張は、先週リリースされた Gemini シリーズの LLM の中で最も効率的な Google の Gemini Nano よりも優れた性能を発揮するという点です。デバイス上のタスク用に設計された Gemini Nano は、スマートフォン上で実行でき、テキストの要約、高度な校正、文法の修正、コンテキストに応じたスマートな返信などの機能を有効にできます。

マイクロソフトの研究者によると、Phi-2 でカバーされるテストは、言語理解、推論、数学、コーディング課題など、広範囲に及ぶという。

同社によれば、Phi-2がこのような優れた結果を達成したのは、推論、知識、常識を教えるために設計された、厳選された教科書レベルのデータで訓練されているためであり、つまり、より少ない情報からより多くのことを学習できるのだ。 Microsoft の研究者は、より小さなモデルから知識を獲得できる技術も使用しました。

注目すべきことに、Phi-2は、AIモデルの動作を改善するためによく使用される、人間のフィードバックに基づく強化学習や指導の微調整などの技術を使用せずに、その優れたパフォーマンスを達成していると研究者らは述べている。これらの技術を使用していないにもかかわらず、Phi-2 は、これらの技術を使用する他のオープンソース モデルよりも、バイアスと有害コンテンツの削減において優れたパフォーマンスを発揮します。同社はこれをカスタマイズされたデータの編集によるものだと考えている。

Phi-2 は、Microsoft の研究者が「小規模言語モデル (SLM)」と呼ぶ一連のモデルの最新版です。このシリーズの最初のモデルは Phi-1 で、今年初めに初めてリリースされ、13 億のパラメータを持ち、基本的な Python コーディング タスク向けに微調整されています。同社は9月に、13億のパラメータを持ち、自然言語プログラミングを使用して生成されたさまざまな合成テキストを含む新しいデータソースを使用してトレーニングされるPhi-1.5をリリースしました。

マイクロソフトは、Phi-2 の効率性により、研究者が AI の安全性、説明可能性、言語モデルの倫理的開発の強化などの分野を研究するのに理想的なプラットフォームになると述べています。

<<:  インテリジェントロボットを活用してビジネス運営を強化する方法

>>:  RayDF: リアルタイムレンダリング!光線に基づく3D再構成の新しい方法

ブログ    
ブログ    

推薦する

...

ChatGPT でより良いコードを書く方法

翻訳者 |李睿レビュー | Chonglouコードの生成は、ChatGPT や指示に従うその他の大規...

Python で KNN アルゴリズムを使用して欠損データを処理する

欠損データの処理は簡単な作業ではありません。 方法は、単純な平均補完や観察結果の完全な削除から、MI...

UiPath が前進中!企業が包括的な自動化を実現する可能性を探るのを支援する

[51CTO.com からのオリジナル記事] RPA は人間の働き方をシミュレートし、ルールベースの...

なぜ人工知能はテクノロジーの未来なのか?

人類の知恵はさまざまな文明を生み出してきました。人間の知能はさまざまな形態の人工知能を通じて強化する...

...

無料の Python 機械学習コース 6: ニューラル ネットワーク アルゴリズム

ニューラルネットワークは人間の脳を模倣するために開発されました。まだ実現されていないものの、ニューラ...

フードデリバリー広告向け大規模ディープラーニングモデルのエンジニアリング実践

著者: Yajie Yingliang、Chen Long 他導入美団のフードデリバリー事業が成長を...

...

チューリングマシン: コンピューターが存在しないときに計算についてどのように話せばいいのでしょうか?

1950 年 10 月に、「機械は考えることができるか?」と題する論文が発表されました。この論文で...

...

スマート教育を開発することの価値は何でしょうか? 5GとAIが重要な役割を果たす

国内の感染予防・抑制状況が基本的に安定してきたため、各地で大学や小中学校などで「授業再開」が実施され...

6つの権威あるリストを制覇したDAMOアカデミー独自の深層言語モデルシステムAliceMindはオープンソースです

[[406821]]自然言語処理 (NLP) は、AI の最高傑作として知られています。従来の NL...

AI導入で避けるべき5つの間違い

人工知能と機械学習は、ビジネスの成功にとって貴重な資産となるでしょう。 AI を実装することで、企業...