Gemini ProはGPT-3.5ほど優れていません。CMUは徹底的な比較研究を実施し、公平性、透明性、再現性を確保しています。

Gemini ProはGPT-3.5ほど優れていません。CMUは徹底的な比較研究を実施し、公平性、透明性、再現性を確保しています。

Google Gemini はどれほど強力ですか?カーネギーメロン大学は、専門的かつ客観的な第三者による比較を実施しました。

公平性を保証するために、すべてのモデルは同じプロンプトと生成パラメータを使用し、再現可能なコードと完全に透明な結果を提供します

これは、CoT@32 を使用して 5 ショットを比較した Google の公式記者会見のようなものではありません。

結果を一言で表すと、 Gemini Pro バージョンは GPT-3.5 Turbo に近いもののわずかに劣り、GPT-4 はまだはるかに優れています。

詳細な分析により、多肢選択式の質問で D を選択する傾向など、双子座の奇妙な特徴も明らかになりました...

多くの研究者は、ジェミニがリリースからわずか数日後にこれほど詳細なテストを実施するのはあまりにも無理があると述べた。

6つの主要タスクの詳細なテスト

このテストでは、対応するデータ セットを使用して、具体的に 6 つの主要なタスクを比較します。

  • トリビア: MMLU
  • 理由: ビッグベンチハード
  • 数学: GSM8k、SVAMP、ASDIV、MAWPS
  • コード: HumanEval、ODEX
  • 翻訳: フローレス
  • インターネットサーフィン: WebArena

知識クイズ: 私はDが好きです

結果は、思考連鎖プロンプトを使用しても、必ずしもこのタイプのタスクの改善につながるわけではないことを示しています。

MMLU データ セットには、複数選択の質問が含まれています。結果をさらに分析すると、奇妙な現象が明らかになりました。ジェミニは D を選択する傾向があるのです。

4 つの選択肢に関する GPT シリーズの分布は、はるかにバランスが取れています。チームは、これはGemini が複数選択問題に対してあまり指示の微調整を行っていないことが原因である可能性があると示唆しました。

さらに、ジェミニのセキュリティフィルタリングは非常に厳しく、倫理に関する質問の回答率は85%にとどまり、人間の性行動に関する質問の回答率は28%にとどまりました。

Gemini ProがGPT-3.5を上回った2つの科目はセキュリティ研究と高校のミクロ経済学だったが、その差は大きくなく、チームは分析で特別なことは何も見つからなかったと述べている。

理由: 長い質問は苦手

Gemini Pro は、より長く複雑な問題ではパフォーマンスが低下しますが、GPT シリーズの方が堅牢です。

これは特に GPT-4 Turbo に当てはまり、長い質問でもパフォーマンスの低下がほとんど見られず、複雑な問題を理解する優れた能力を示しています。

問題の種類別に分析すると、Gemini は、人々がアイテムを交換し、どのアイテムが誰の所有物であるかを AI に判断させる「tracking_shuffled_objects」のような問題が特に苦手です。

ジェミニは、スポーツの理解、記号のスタックの操作、単語のアルファベット順の並べ替え、表の解析など、世界に関する知識を必要とするタスクに優れています。

数学:複雑な課題が引き継がれる

今回は質問が長すぎたため、Gemini ProとGPT-3.5のパフォーマンスが低下しました。GPT-4のみが安定したレベルを維持できました。

しかし、使用された思考連鎖プロンプトの長さが最も長かった場合、Gemini は GPT-3.5 を上回りました。

コード: matplotlib が得意

コーディングに関する質問では、Gemini は参照回答が長い質問に対してパフォーマンスが悪かったです。

呼び出されるライブラリで分類すると、ほとんどのタイプで GPT シリーズが強力ですが、matplotlib はまったく不十分です。

翻訳:答えさえ出れば質は高い

翻訳タスクでは、Geminiが回答を拒否した種類が12種類ありましたが、すべての回答の翻訳品質は非常に高く、全体的なパフォーマンスはGPT-4を上回りました。

Gemini が翻訳を拒否する言語の種類には、主にラテン語とアラビア語が含まれます。

ウェブナビゲーション: クロスサイトサーフィンが得意

WebArena は、電子商取引、ソーシャル フォーラム、GitLab 共同開発、コンテンツ管理システム、オンライン マップなど、サイト間で情報を検索したりタスクを完了したりするために AI が必要なインターネット環境を AI 向けにシミュレートします。

Gemini は全体的に GPT-3.5 Turbo よりもパフォーマンスが劣りますが、複数のサイトにまたがるタスクではわずかに優れたパフォーマンスを発揮します。

ユーザー:でも無料ですよ

最後に、CMU の Graham Neubig 准教授は、この研究にはいくつかの限界があることを認めた。

  • APIベースのモデルの動作はいつでも変更される可能性があります
  • 試された手がかりの数は限られており、異なる手がかりはモデルによって異なる効果を発揮する可能性があります。
  • テストセットが漏洩するかどうかを制御できない

Google の大規模モデル推論チームの責任者 Dengyong Zhou 氏は、Gemini の温度を 0 に設定すると推論タスクが 5 ~ 10 パーセントポイント向上すると指摘しました。

このテストには、Gemini および GPT シリーズに加えて、最近人気のオープンソース MoE モデル Mixtral も含まれていました。

しかし、強化学習の専門家であるノアム・ブラウン氏は、Mixtral の結果は公式実装ではなくサードパーティの API を使用しているため無視できると考えています。

Mistral AI の創設者は、より良い結果が得られると信じて、チームに公式バージョンのアクセス権も提供しました。

つまり、Gemini Pro はまだ GPT-3.5 ほど優れてはいませんが、1 分あたりの通話数が 60 を超えない場合は無料です。

そのため、多くの個人開発者はすでに陣営を変更しています。

現在、Gemini の最高バージョンである Ultra はまだリリースされていませんが、CMU チームは時期が来たらこの研究を継続する予定です。

Gemini Ultra は GPT-4 のレベルに到達できると思いますか?

論文: https://arxiv.org/abs/2312.11444.

参考リンク:
[1]https://twitter.com/gneubig/status/1737108977954251216.

<<:  ChatGPT がデータを取得しました!プログラミング言語ランキングを作る方法はありません!

>>:  遠隔医療と増加する高齢者人口:高齢者ヘルスケアの強化

ブログ    
ブログ    
ブログ    

推薦する

レノボグループが従業員の払い戻しの内部監査を実施できるようRPAロボットを導入

数万人の従業員を抱える大企業にとって、従業員の払い戻しに関する内部監査の難しさは想像に難くありません...

ロボティック・プロセス・オートメーションは小売業界の運営と成長にどのように役立ちますか?

利益率が圧迫されている中、ロボティック・プロセス・オートメーション (RPA) を導入することでコス...

インタビュー必須:バックトラッキングアルゴリズムの詳細な説明

序文みなさんこんにちは。私はカタツムリを採っている小さな男の子です。 LeetCode を練習してい...

星が輝くとき - WOT グローバル テクノロジー イノベーション カンファレンス 2021 が間もなく開催されます

【51CTO.comオリジナル記事】​​​ 100年前、シュテファン・ツヴァイクは彼の有名な著作「星...

人間と機械のコラボレーションが顧客に力を与え、インテリジェントな顧客サービスが企業のマーケティング環境を一変させています。

「ロボットはアフターサービスにしか適していません。」 「ロボットはどのようにして人手によるマーケテ...

人工知能の主要技術分野のレビュー

[[441598]] AI への準備プロセスの多くは組織の変更です。人工知能の利用には、ニューカラー...

...

人工知能が世界を席巻し、人類はサイボーグへと向かう必要がある

テスラのCEOイーロン・マスク氏はドバイでのイベントで人工知能の将来について語った。同氏は、人間より...

...

CNN が RNN に取って代わる?シーケンスモデリングで再帰ネットワークが不要になったとき

過去数年間はリカレントニューラルネットワークが主流でしたが、現在では自己回帰 Wavenet や T...

ChatGPT の実際のパラメータはわずか 200 億であり、これは Microsoft によって初めて公開されました。ネットユーザー:OpenAIがオープンソースに不安を感じるのも無理はない

突然、大規模なモデリングコミュニティ全体が同じことについて話すようになりました。マイクロソフトの論文...

...

インテリジェントロボットはCOVID-19の流行とどのように戦うのでしょうか?

【51CTO.comオリジナル記事】 COVID -19の流行がもたらした厳しい課題に直面して、科...

10,000倍速い!バークレーはSQLクエリを最適化するためにディープRLを使用することを提案している

SQL 結合を最適化する方法は、データベース コミュニティが何十年にもわたって研究してきた大きな問題...

Alipay のディープラーニング エンジン xNN を公開

この記事では、Alipay アプリのディープラーニング エンジンである xNN を紹介します。 xN...