1.3>7? Microsoft の新しいモデルは、「小さな勝利で大きな勝利」戦略で Llama2 を打ち負かしました。ネットユーザーは質問しました: Benchmark でトレーニングされたのですか?

1.3>7? Microsoft の新しいモデルは、「小さな勝利で大きな勝利」戦略で Llama2 を打ち負かしました。ネットユーザーは質問しました: Benchmark でトレーニングされたのですか?

わずか 13 億のパラメータを持つ大規模なモデルが、なぜインターネット上で白熱した議論を引き起こしたのでしょうか?

パラメータ数は多くないにもかかわらず、7BパラメータのLlama2を上回る効果が得られていることがわかりました。

この「レバレッジ」モデルは、マイクロソフトの最新の研究成果です。その核心は、少量の高品質データのみを使用することです。

写真

今回マイクロソフトが公開したオープンソースモデルはphi-1.5と呼ばれ、コードのみをサポートするバージョン1.0に、汎用的なシナリオダイアログを追加したものです。

多数のパラメータを持つ多くのモデルと比較すると、phi は「異なるアプローチを採用」し、「大きな」モデルを「小さく」することを目指していると言えます。

写真

ファイチームは、データの質は量よりもはるかに重要であると常に信じてきました。論文のタイトルも「必要なのは教科書だけ」で、「教科書」は高品質のデータを象徴しています。

チームには、マイクロソフトリサーチ レドモンドの機械学習理論グループの責任者であるセバスチャン ブベック氏、2023 年スローン研究賞受賞者のユアンジ リー氏、2023 年数学ニューホライズン賞受賞者のロネン エルダン氏、2020 年スローン研究賞受賞者のイン タット リー氏など、多くの重鎮が含まれています。

写真

これほど多くの有力者が一致してそのような結論に達したという事実は、当然のことながら広く注目を集め、ファイ1.5のテスト結果は確かに十分に「とんでもない」ものでした。

phi-1.5 は、AGIEval や LM-Eval などの複数のベンチマークで Llama2 よりも優れた結果を達成しました。

これが直感的にわかりにくい場合、その効果をどのように説明すればよいでしょうか?

言い換えれば、phi-1.5 の優れた評価結果は、OpenAI や MetaAI などの多くの有名な機関で働いてきた大物に、これが Benchmark で直接トレーニングされたのかどうか直接疑わせるものでした。

写真

上級データサイエンティストのヤム・ペレグ氏はまた、ファイ1.5はわずか13億のパラメータで70億モデルのリーダーを上回ることができ、規模が大きければ、大規模モデルのトップに到達できるかもしれないと述べた。

写真

しかし、phi-1.5 がうまく機能する理由は、データ ソースが 1 つだけであり、スタイルを予測しやすいためだと考える人もいます。

写真

しかし、全体的に評価結果は依然として非常に印象的です。詳しく見てみましょう〜

Llama2よりも効果的

phi-1.5 は Llama2 の 5 分の 1 未満のパラメータを持つだけでなく、トレーニング中に使用するトークンも 1 桁少なくなります。

Llama2-7B のトレーニング データ サイズは 2 兆トークンで、前世代の Llama も 1 兆トークン、phi-1.5 は 3000 億トークンしかありません。

写真

しかし、結果は冒頭で述べたとおりで、phi-1.5 は複数のベンチマークで Llama2-7B を上回りました。

これらのベンチマークは、常識的推論、言語理解、多段階推論などのタスクをカバーします。

パラメータ数が 10 倍の Vicuna-13B でも、phi-1.5 よりわずかに優れているだけです。

写真

公式論文に記載されている結果に加えて、phi-1.5 は AIGEval および LM-Eval データセットでもテストされています。

その結果、AIGEval テストでは、phi-1.5 と Llama2 のパフォーマンスは非常に近いものとなりました。

写真

AGIEval テストでは、phi-1.5 が平均スコア 0.236、平均スコア 0.247 で Llama2 に勝利しました。

写真

phi-1.5 は、能力評価における優れたパフォーマンスに加えて、Llama2 と同等の安全性も備えています。

誰かがそれぞれ Falcon、Llama2、phi にこの質問をしました。

その結果、ファルコンはサメによってすべての人間を殺すと直接言い、一方ラマ2は、まず自分が何者なのかを理解しなければならないと言いました。

ファイの答えは、人間の考えや感情を理解し、それに応じて行動を調整することです。

写真

評価結果では、phi の安全性も確認されました。ToxiGen の 13 の敏感なトピックの中で、phi は例外なく最高の安全性スコアを達成しました。

写真

私たちは皆、phi のパフォーマンスを見てきましたが、そのパフォーマンスはどうでしょうか?

結局のところ、パラメータとトレーニングトークンの数が少ないので、トレーニングと推論の速度が速くなります。

Llama のトレーニングには 80,000 GPU 時間以上かかりました。これは最初の世代にかかった時間であり、phi には 1,500 GPU 時間しかかからなかったことに注意してください。

推論中、phi はトークンあたり 3 ミリ秒未満しかかからず、Llama のメモリの 5 分の 1 未満しか占有しません。

写真

チームメンバーによると、8 台の A100 を使用して phi-1.5 をトレーニングするのに 2 週間もかかりませんでした。

写真

一部のネットユーザーも、パフィンデータセットを使用して Phi-1.5 をトレーニングしましたが、4090 で 20 分しかかかりませんでした。

写真

これらのテストデータは、データ品質が高ければ多少劣っても問題ないという研究チームの見解を裏付ける証拠となります。

実は、「量より質」という考え方がマイクロソフトのモデルに反映されたのは今回が初めてではない。

「大きな」モデルを「小さな」モデルにする

「大きな」モデルを「小さく」することは、常に Microsoft の研究方向であり、phi-1.5 論文の最初の文はこの点を強調しています。

写真

コードの問題に重点を置いた phi-1.5 の前身である phi-1.0 についても同様です。

トレーニングデータはすべてプログラミングの教科書から抽出されます。

その結果、わずか 13 億のパラメータで、155 億の StarCoder や 161 億の CodeGen をはるかに上回ります。

写真

この新しいバージョンは phi-1.0 を継承し、一般的なシーンダイアログ機能が追加されています。

phi-1.5 のデータの 20% は 1.0 から取得され、残りの 80% は知識ニーズに基づいて特別に生成された高品質のデータです。

したがって、私たちが目にするテスト結果は次のようになります。

しかし、Phi シリーズは Microsoft の最小モデルではありません。

マイクロソフトは以前、パラメータ数がさらに少なく、わずか 100 万個しかない TinyStories というトレーニング データ セットを公開しました。

TinyStories のデータはすべて、GPT を使用して生成された「3 歳または 4 歳の子供が読むのに適した」短編小説です。

適用範囲はそれほど広くはありませんが、TinyStories でトレーニングされたモデルは依然として言語生成特性を示し、文法と一貫性の面でテストに合格しています。

では、マイクロソフトが発表した「小型」モデルについてどう思いますか?

論文アドレス: https://arxiv.org/abs/2309.05463

<<:  Transformer ニューラル ネットワーク モデルを 1 つの記事で理解する

>>: 

ブログ    
ブログ    
ブログ    

推薦する

インテリジェント車両認識技術がスマートシティへの道を開く

著者:Chris Kadoch 氏は Rekor Systems の最高技術責任者です。 [[376...

...

トレーニング時間とパラメータの数は100分の1に削減され、ラベルは予測に直接使用され、GNNを超えるパフォーマンスを実現

従来のラベル伝播法とシンプルなモデルを組み合わせると、一部のデータセットでは現在の最適な GNN の...

GPTストアはオンラインになるとすぐに混乱に陥り、偽造品、偽のトラフィック、禁止されたコンテンツが次々と出現します

新しくオープンしたGPTストアが「混沌」していることで有名になるとは思ってもいませんでした。見てくだ...

...

業界に革命を起こすスマートパッケージング技術トップ10

ほとんどの人がサプライチェーン技術について考えるとき、パッケージングは​​おそらく最初に思い浮かぶも...

OpenAI、超知能AIの制御に関する中核的な技術的課題に取り組むため新チームを結成

7月7日、OpenAIは、共同設立者で主任科学者のイリヤ・スツケバー氏とアラインメント責任者のヤン・...

ついに、データ、情報、アルゴリズム、統計、確率、データマイニングをわかりやすく説明した人がいました。

[[328804]] 【ガイド】AI時代では、データ、情報、アルゴリズム、統計、確率、データマイニ...

AIが人間社会に与える影響

今後 25 年間は、既存の制御可能かつプログラム可能ないわゆる「人工知能」を活用して、人類が生物学の...

ブリッジで人間の世界チャンピオン8人が全員AIに負ける

最近、人工知能(AI)が再び人間に勝利しました。今回、人工知能はチェッカーやチェス、囲碁をプレイせず...

大規模モデルのRLHFは必ずしも人間に依存するものではなく、Google:AIフィードバックも同様に効果的

今日の大規模モデルをトレーニングするための中核的な方法となると、RLHF は避けられないトピックです...

...

AIのリスクと安全性をどのように管理するのか?

AI モデルのトレーニングには、大規模で機密性の高いデータセットが使用されることが多く、プライバシ...

人気のディープラーニングライブラリ23選のランキング

[[209139]] Data Incubator は最近、Github と Stack Overf...

AIと機械学習の詐欺を見抜くための7つの原則

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...