Google の最近の Gemini のリリースは大きな騒ぎを引き起こしました。 結局のところ、OpenAI の GPT は、大規模言語モデルの分野を支配しているほぼ唯一のモデルです。 しかし、観客としては、もちろん、すべてのテクノロジー企業が本腰を入れて取り組み、すべての大手モデルが戦うことを期待しています。 したがって、テクノロジーの巨人である Google の息子として、Gemini は当然ながら大きな期待を寄せられています。 しかし、ジェミニのリリース後には、偽のビデオや、誰かが彼をウェン・シン・イーヤンだと思っているなど、奇妙なことがいくつか起こりました。 しかし、それは大きな問題ではありません。私たちは広告ではなく、効果に注目しています。 最近、CMU の研究者らは、さまざまなタスクにおける Gemini と GPT の長所と短所を比較することに焦点を当て、オープンソースの競合製品 Mixtral も追加した、公平で詳細かつ反復可能な一連の実験テストを実施しました。 論文アドレス: https://arxiv.org/abs/2312.11444 コードアドレス: https://github.com/neulab/gemini-benchmark 論文の中で、研究者らはGoogle Geminiの言語機能について詳細な調査を行った。 第三者の視点から、OpenAI GPTとGoogle Geminiモデルの機能を客観的に比較し、コードと比較結果が公開されました。 2 つのモデルが優れている領域がわかります。 研究者たちは、6つの異なるタスクの精度を比較しました。 - 知識ベースQA(MMLU) - 推論(ビッグベンチハード) - 数学 (GSM8k、SVAMP、ASDIV、MAWPS) - コード生成 (HumanEval、ODEX) - 翻訳(フローレス) - Web コマンド トレース (WebArena) 公平を期すために、私たちは実験ですべての変数を制御し、すべてのモデルに同じプロンプト、生成パラメータ、評価を使用するように努めています。 評価では、モデルを統一的にクエリするために LiteLLM が使用され、包括的かつ詳細な分析を実行するために try_zeno が使用されました。 モデルのテスト この調査では、Gemini Pro、GPT-3.5 Turbo、GPT-4 Turbo、Mixtral を比較し、それぞれの機能の違いを指摘しました。 機能: Gemini Pro はマルチモーダルで、ビデオ、テキスト、画像を使用してトレーニングされます。 GPT-3.5 Turbo と GPT-4 Turbo は主にテキストトレーニングに基づいており、その中で GPT-4 Turbo はマルチモーダルです。 テスト再現方法 より便利な再現方法:以下のテストタスクへのリンクをクリックして、CMUの統合ZenoベースのAI評価プラットフォームにアクセスし、検証してください。 GitHub リンク: [https://github.com/neulab/gemini-benchmark] 特定のテストタスク 知識ベースのQA 2020年にカリフォルニア大学バークレー校が提案したMMLU(Massive Multitask Language Understanding)大規模モデル評価に基づいて評価 このテストは、初等数学、米国の歴史、コンピューターサイエンス、法律などを含む 57 のタスクをカバーしています。課題は幅広い知識をカバーし、英語で教えられ、大規模モデルの基礎知識の範囲と理解力を評価するために使用されます。 5ショットと思考連鎖プロンプトを使用したMMLUタスクの全体的な精度は、下の図に示されています。Gemini ProはGPT-3.5 Turboよりわずかに遅れています。 また、この記事では、思考連鎖プロンプトを使用した場合のパフォーマンスの違いは大きくないことも指摘しています。これは、MMLU が主に知識ベースの質問応答タスクであり、より強力な推論指向のプロンプトから大きな恩恵を受けられない可能性があるためである可能性があります。 次の図は、複数選択問題に対する Gemini-pro、gpt3.5-turbo、gpt-4-turbo によって出力された回答の比率を示しています。結果から、Gemini-pro と gpt3.5-turbo には回答の偏りがあり、特に Gemini-pro はオプション D に非常に偏っていることがわかります。 これは、Gemini が複数選択問題を解くためにまだ広範囲に調整されていないことを示唆しており、それがモデルの回答ランキングに偏りを生じさせている可能性があります。 Gemini-pro は、MMLU の 57 個のサブタスクのうち 2 個のみで GPT3.5-turbo を上回りました。 次の図は、GPT3.5 が Gemini-Pro を上回っている最初の 4 つのタスクの精度と、Gemini-Pro が GPT3.5 を上回っている 2 つのタスクの精度を示しています。 汎用推論 このテストは、算術、記号および多言語推論、事実理解のタスクを含む一般推論データセット BBH (BIG-Bench Harch) に基づいています。 まず、以下の全体的な精度グラフから、Gemini Pro によって達成された精度は GPT 3.5 Turbo よりもわずかに低く、GPT 4 Turbo よりも大幅に低いことがわかります。対照的に、Mixtral モデルの精度ははるかに低くなります。 次に、詳細な分析を行います。まず、質問の長さに基づいて精度をテストします。結果は下の図に示されています。 著者らは、Gemini Pro はより長く複雑な質問に対してパフォーマンスが悪かったのに対し、GPT モデルはこれに対してより堅牢であることを発見しました。 これは特に GPT-4 Turbo に当てはまり、長い質問でもパフォーマンスの低下がほとんど見られず、より長く複雑なクエリを理解する優れた能力を示しています。 GPT-3.5 Turbo の堅牢性は中程度です。 Mixtral は質問の長さに関しては特に安定していますが、全体的な精度は低くなります。 下の図は、GPT-3.5 Turbo が Gemini Pro よりも最も優れたパフォーマンスを発揮するタスクを具体的に示しています。 Gemini Pro は、tracking_shuffled_objects タスクのパフォーマンスが低い 一部のタスク、つまり multistep_arithmetic_two、salient_translation_error_detection、snarks、disambiguation_qa、および 2 つの tracking_shuffled_objects タスクでは、Gemini Pro のパフォーマンスは Mixtral モデルよりもさらに悪くなります。 もちろん、Gemini Pro が GPT3.5 よりも優れているタスクもいくつかあります。 下の図は、Gemini Pro が GPT 3.5 Turbo よりも優れている 6 つのタスクを示しています。これらのタスクには、世界に関する知識 (sports_understanding)、シンボル スタックの操作 (dyck_languages)、単語のアルファベット順の並べ替え (word_sorting)、テーブルの解析 (penguins_in_a_table) などが必要です。 この記事のこのセクションの最後には、一般的な推論タスクでは、Gemini も GPT も絶対的な優位性はないようであるため、両方を試してみることができると述べられています。 数学の問題評価は 4 つの数学の文章題に基づいています。 - GSM8K、小学校数学ベンチマーク - SVAMPデータセットは、堅牢な推論能力をチェックするために異なる語順の質問を生成し、 - さまざまな言語パターンと質問タイプを含む ASDIV データセット - 算数と代数の文章題で構成される MAWPS ベンチマーク。 次のグラフは、4つの数学的推論課題の全体的な正確さを示しています。 図からわかるように、GSM8K、SVAMP、ASDIVタスクでは、多様な言語パターンを含むGemini Proの精度はGPT-3.5 Turboよりもわずかに低く、GPT-4 Turboよりも大幅に低くなっています。 MAWPS タスクでは、すべてのモデルが 90% 以上の精度を達成していますが、Gemini Pro は GPT モデルよりもわずかに劣っています。 興味深いことに、このタスクでは GPT-3.5 Turbo が GPT-4 Turbo をわずかに上回ります。 対照的に、Mixtral モデルの精度は他のモデルよりもはるかに低くなります。 BBH での以前の推論タスクと同様に、タスクが長くなると推論パフォーマンスが低下することがわかります。 また、以前と同様に、GPT 3.5 Turbo は短い質問では Gemini Pro よりも優れていますが、低下が早く、Gemini Pro は長い質問では同様の (ただし、わずかに劣る) 精度を達成しています。 ただし、Gemini Pro は、思考の連鎖 (CoT) の長さが 100 を超える最も複雑な例では GPT 3.5 Turbo よりもパフォーマンスが優れていますが、短い例ではパフォーマンスが低下します。 最後に、この記事では、異なる数字の回答を生成する際の比較モデルの精度を調査します。 回答の桁数に基づいて、1 桁、2 桁、3 桁の回答の 3 つのカテゴリが作成されました (回答が 2 桁以下の MAWPS タスクを除く)。 下の図に示すように、GPT-3.5 Turbo は複数桁の数学問題に対してより堅牢であるように見えますが、Gemini Pro のパフォーマンスは桁数が多い問題ではさらに低下します。 コード生成このカテゴリの記事では、HumanEval と ODEX という 2 つのコード生成データセットを使用して、モデルのエンコード能力を調べます。 前者は、Python 標準ライブラリ内の限られた関数セットの基本的なコード理解をテストします。 後者は、Python エコシステム全体からより広範囲のライブラリを使用する能力をテストします。 これらはすべて、人間が書いた英語のタスク記述 (通常はテストケースを含む) を入力として受け取ります。これらの質問は、言語、アルゴリズム、初等数学の理解度を評価します。 合計で、HumanEval には 164 個のテスト サンプルがあり、ODEX には 439 個のテスト サンプルがあります。 コード生成の全体的な状況は次のとおりです。 Gemini Pro の Pass@1 スコアは、両方のタスクで GPT-3.5 Turbo よりも低く、GPT-4 Turbo よりもはるかに低くなっています。 次に、ソリューションの長さは、対応するコード生成タスクの難易度をある程度示すことができるため、最適なソリューションの長さとモデルのパフォーマンスの関係を分析します。 この論文では、ソリューションの長さが 100 未満の場合 (つまり、単純な問題を表す場合)、Gemini Pro は GPT-3.5 に匹敵する Pass@1 を達成できるが、ソリューションが長くなると (つまり、より難しい問題を扱う場合)、Gemini Pro は GPT-3.5 に大きく遅れをとることがわかっています。 この記事では、次の図に示すように、各ソリューションに必要なライブラリがモデルのパフォーマンスにどのように影響するかも分析します。 結果分析によると、mock、pandas、numpy、datetime などのライブラリが使用されるほとんどの場合、Gemini Pro のパフォーマンスは GPT-3.5 よりも劣ります。 ただし、matplotlib の場合は GPT-3.5 や GPT-4 よりも優れており、コードを介してプロットの視覚化を実行する場合はより強力な機能を発揮します。 具体的な失敗例をいくつか挙げます。 まず、Gemini は Python API から関数とパラメータを正しく選択するのが少し苦手です。 例えば、次のコマンドを実行すると
Gemini Pro は次のコードを生成し、型不一致エラーが発生します。 対照的に、GPT 3.5 Turbo は次のコードを使用して期待される結果を実現します。 さらに、Gemini Pro では、実装されたコードは構文的には正しいものの、複雑な意図に適切に一致していないエラーの割合が高くなりました。 例えば、次のコマンドの場合
Gemini Pro によって提供されるコードは、複数回出現する番号を削除せずに、一意の番号のみを抽出します。 機械翻訳FLORES-200 機械翻訳ベンチマークは、モデルの多言語機能、特にさまざまな言語ペア間の翻訳機能を評価するために使用されます。 テスト セット内の 1012 個の文は、選択されたすべての言語ペアに対して評価されます。この研究の第一段階として、本論文では、英語から他の言語への翻訳(ENG→X)のみに範囲を限定しています。 結果は下の図の通りです。Gemini Proは翻訳タスクにおいて全般的に他のモデルよりも優れています。20言語中8言語でGPT-3.5 TurboやGPT-4 Turboよりも優れており、4言語で最高のパフォーマンスを達成しています。 英語以外の言語の翻訳では専用の機械翻訳システムよりまだ優れているわけではないが、一般的な言語モデルは強力な競争力を示している。 Gemini Proは、ゼロショットと5ショットの両方のプロンプトタスクで他のモデルよりも優れています。 ウェブエージェント最後に、各モデルが Web ナビゲーション エージェントとして機能する能力を検証します。これは、長期的な計画と複雑なデータの理解を必要とするタスクです。 コマンド実行に基づくシミュレーション環境である WebArena を使用します。成功基準は実行結果に基づきます。エージェントに割り当てられるタスクには、情報の検索、サイトのナビゲーション、コンテンツと構成の操作が含まれます。 これらのタスクは、電子商取引プラットフォーム、ソーシャル フォーラム、共同ソフトウェア開発プラットフォーム (GitLab など)、コンテンツ管理システム、オンライン マップなど、さまざまな Web サイトにわたります。 以下の記事の全体的な結果からわかるように、Gemini-Pro のパフォーマンスは GPT-3.5-Turbo と同等ですが、わずかに劣っています。 GPT-3.5-Turbo と同様に、タスクが完了しない可能性があることを示すプロンプト (UA プロンプト) が表示された場合、Gemini-Pro のパフォーマンスが向上します。 UA プロンプトを使用すると、Gemini-Pro は全体的な成功率 7.09% を達成しました。 次に、この記事ではネットワーク別にパフォーマンスを分類しています。下の図に示すように、Gemini-Pro は gitlab と maps では GPT-3.5-Turbo よりもパフォーマンスが劣りますが、shopping management、reddit、Shopping では GPT-3.5-Turbo に近いパフォーマンスを示しています。マルチサイトタスクでは GPT-3.5-Turbo よりも優れたパフォーマンスを発揮します。 テスト結果の概要 この論文では、著者らは Google の Gemini モデルを OpenAI の GPT 3.5 および 4 モデル、オープンソースの Mixtral モデルと比較し、初めて公平かつ詳細に調査しています。 CMU 評価の主な結果は黒の太字で示され、最良モデルを示しています。下線付きのモデルは 2 番目に優れたモデルを示しています。 最後に、著者はいくつかの鎧を積み重ねました。 これらは常に変化し不安定な API に対して動作するため、すべての結果はこの記事の執筆時点 (2023 年 12 月 19 日) のものですが、モデルや周辺システムがアップグレードされるにつれて将来変更される可能性があります。 結果は、選択された特定のプロンプトと生成パラメータによって異なる場合があります。 著者は、テスト時に Google のように複数のサンプルと自己一貫性を使用しませんでしたが、一貫したプロンプトを使用して複数のタスクでさまざまなモデルをテストすることで、テストされたモデルの堅牢性と一般的な指示に従う能力を合理的に実証できると考えています。 著者らは、データ漏洩が現在の大規模モデル評価タスクにおける問題であると指摘しています。著者らはこの漏洩を明示的に測定してはいませんが、この問題を軽減するためのさまざまな方法も試しています。 展望では、著者は、Gemini Pro を使用する前に、この論文に基づいて、Gemini Pro が宣伝どおり GPT 3.5 Turbo に匹敵するかどうかを誰もが自分で評価できることを期待して、提案も行いました。また、作者は、GeminiのUltraバージョンはまだリリースされておらず、リリース後に、報告されているGPT4と同等かどうかが検証される予定であると述べています。 |
<<: Googleの創設者が個人的にGeminiのコードを書いたが、これは非常に核心的なものだ
>>: 視覚的な「脳の読み取り」:脳の活動から見える世界を再構築する
[[423697]]分散システムでは、グローバルに一意の ID が必要になるシナリオがいくつかあり...
「機械に人間から学ばせてはいけない。機械には独自の方法と手段がなければならない。」 「機械に独自の知...
人工知能が話題になるにつれ、コーディングも親たちの注目の的になっています。実は、子どもにプログラミン...
最近、CSRankingsは2018年のコンピューターサイエンスのトップスクールのランキングを発表し...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
これは、これまで見た中で最もわかりやすいニューラル ネットワーク パラメータの説明です。数式も最小限...
[[384489]]広告システムに取り組んでいたとき、接続されたプラットフォーム上のほとんどの広告シ...
AIビデオ生成は最近最もホットな分野の一つです。さまざまな大学の研究室、インターネット大手の AI ...
テンセントAIラボ機械学習センターは本日、世界初の自動ディープラーニングモデル圧縮フレームワーク「P...
[[277716]] 9月21日、CCTV-1の「スーパースマート」番組では、杭州の霊隠寺に毎日訪れ...
これは日本の東京国際展示場にあるデンソーの双腕協働ロボットの写真です。写真提供:新華社記者 華毅国連...
パーセプトロンは、バイナリ分類タスク用の線形機械学習アルゴリズムです。これは、人工ニューラル ネット...
ロボティック・プロセス・オートメーション (RPA) は、ビジネス プロセスの合理化に役立つ重要なテ...