Google Geminiはリリース直後から疑問視されていた：テスト基準に偏りがあり、エフェクトビデオは編集されている疑いがある

Google待望の大躍進、 Gemini大型モデルがついに発売！最も目を引くのは、次の写真とビデオです。

図 1、MMLU マルチタスク言語理解データセットテスト、 Gemini Ultra は GPT-4 を上回るだけでなく、人間の専門家をも上回ります。

この動画では、人間の落書きや仕草に対してAIがリアルタイムでコメントや苦情を述べます。滑らかでユーモラスで、ジャービスのエピソードに最も近い内容となっています。

、再生時間 04:03

しかし、驚きから落ち着きを取り戻し、公開された60ページに及ぶ技術レポートを注意深く読んでみると、何かおかしいことが分かりました。

（そうです、論文はありません。OpenAICloseAI はなんと悪い前例を作ってしまったのでしょう。）

MMLU テストでは、Gemini の結果の下の灰色のテキストに CoT@32 というラベルが付いています。これは、思考連鎖プロンプト手法が使用され、最良の結果を選択するために 32 回の試行が行われたことを意味します。

対照的に、GPT-4 にはプロンプト単語スキルがなく、5 回しか試行しません。この基準では、Gemini Ultra は実際には GPT-4 ほど優れていません。

元の画像のスケールも少し不公平です。90.0% は人間のベンチマークである 89.8% とわずかに異なるだけですが、y 軸上では大きく離れています。

HuggingFace のテクニカルディレクターである Philipp Schmid 氏は、より公平かつ適切な技術レポートで公開されたデータを使用してこの図を修正しました。

こういうことが起こると、絵文字を作る人が戦場に駆けつけます。

幸いなことに、同じ基準の思考連鎖を促すスキル + 32 回の試行を使用した場合、Gemini Ultra は GPT-4 を上回りました。

ジェフ・ディーンは議論の中でこの質問に答えたが、誰も信じなかった。

また、その素晴らしい動画に関して、冒頭のテキスト免責事項に問題があると指摘する人もいました。

機械学習の講師であるサンティアゴ・バルダラマ氏は、この声明は、示された結果が良い結果になるように慎重に選択され、リアルタイムで記録されたのではなく編集されたことを示唆している可能性があると考えている。

その後、Google はブログ投稿でマルチモーダルインタラクションプロセスについて説明し、その効果は静止画像と複数のプロンプトワードを使用することによってのみ達成できることをほぼ認めました。

しかし、いずれにせよ、Google Gemini のリリースは他のチームに大きな自信を与え、 GPT-4 はもはや唯一無二で達成不可能なものではなくなりました。

AI 検索製品 PerplexityAI の創設者 Aravind Srinivas 氏は次のようにまとめています。

1. Geminiは、OpenAI以外のチームでもGPT-4を超えるモデルを作成できることを証明した
2. 十分に訓練された密なモデルはGPT-4の疎なモデルアーキテクチャを上回ることができる
推論: 大規模な教師モデルから小規模の高密度モデルを抽出することが将来のトレンドとなり、効率と機能の最適な組み合わせを実現します。

多くのネットユーザーが懸念しているのは、 ChatGPT Plusに月額20ドルを支払い続ける必要があるのか、ということです。 ?

現在、Gemini Pro バージョンは Google チャットボット Bard にアップデートされています。宣伝どおりのパフォーマンスかどうかを確認できます。

Gemini は本当に ChatGPT を上回るのでしょうか?

まず最初に、現在誰もがプレイできるのは、GPT-3.5 に匹敵するミディアムカップである Gemini Pro バージョンであることを明確にしておきましょう。

GPT-4 の大型カップ競合製品である Gemini Ultra は来年まで発売されない予定です。

なお、Geminiは現在英語のみをサポートしており、中国語やその他の言語は後日リリースされる予定です。

Gemini Ultra は今のところ利用できませんが、ウィスコンシン大学マディソン校の准教授 Dimitris Papailiopoulos 氏は良い解決策を見つけました。

Geminiがリリースされたときに表示されたオリジナルの質問は、比較のためにGPT-4に送られました。その結果、GPT-4は14の質問のうち約12ポイントを獲得しました。

2 つの質問については、スクリーンショットをより明確にすることができなかったため、GPT-4 に 0.5 ポイントが与えられました。

GPT-4 が間違えた数学の問題もありましたが、他の質問は基本的に同じでした。

次に、大規模モデルの総合的な機能を最もよく反映するものについて言えば、コードを書くことは間違いなく不可欠です。

皆様のテスト結果によれば、 Gemini のプログラミングレベルは保証されています。

開発者は、Pytorch を使用してシンプルな CNN ネットワークを実装するテストを行いました。Gemini では 2 秒しかかからず、コードの品質も高くなりました。

もちろん、速度が速いのは、Bard が搭載する Gemini Pro のサイズが小さいためかもしれません。GPT-4 が現在どれほど遅いかは誰もが知っています。

しかし、SQL ステートメントの記述に関しては、開発者は Gemini のパフォーマンスはあまり良くないと考えています。

しかし、開発者にとっては良いニュースがあります。指示に従うという点では、Gemini は Bard のアップグレード前と比べて飛躍的な進歩を遂げています。

エンジニアのパイオニアであるライリー・グッドサイド氏は、以前、バードに前後のナンセンスのない純粋な JSON 形式を出力することを望んでいたが、あらゆる点で失敗したと語っています。最終的には、そうしなければ無実の人を殺すと AI を脅すふりをしなければなりませんでした。

アップデート後は、要件を言うだけで、プロンプトの単語スキルがなくても完了できます。

Gemini のもう 1 つの大きなセールスポイントは、そのマルチモーダル機能です。冒頭のアヒルを描くビデオでは、8 つのキーフレームを抽出し、それらについて個別に質問して、Gemini のパフォーマンスがそれほど魔法のようであるかどうかを確認しました。

(ビデオに Ultra バージョンと Pro バージョンのどちらが表示されているかは不明です。現在テストできるのは Pro バージョンのみです)

図 1-4 では、「この人は何をしているのですか?」という質問をしましたが、Gemini は次のように答えました。

たぶんマーカーで書いているのでしょうが、それが何なのかはわかりません。
鉛筆で蛇を描いているのですが、それはコブラです。
鉛筆で亀を描いています。まだ描き始めの段階です。
黒いマーカーで、左を向き、頭を右に向け、枝の上に立ち、翼を広げていない鳥を描きます。

図 1 と図 2 の場合、手がかりは確かにあまり明白ではないので、このような結果になるのは理解できます。ただし、図 3 の「カメ」の答えは少し説得力がありません。

図 4 に関しては、少なくともアヒルが鳥であることは確かですが、その他の詳細の分析はまだ正確さに欠けています。

図5の完成品を取り出すと、最終的にGeminiはそれがアヒルであると解析し、水の波紋も正しく解析されました。

しかし、分析された描画ツールは鉛筆であることが判明し、頭の方向もまだ正しくなく、くちばしは開いていると言われ、いくつかの葦が想像されました。

次は図6と図7の色付け工程です。通常、アヒルは青くないので、絵の中に何か異常がないか（何か異常がありますか？）をジェミニさんに聞いてみました。

図6に関して、ジェミニの回答はあまり正確とは言えません。無関係としか言いようがなく、全く関係のない絵が添えられています。

図 7 の完成品について、ジェミニは、何も問題はなく、そこにあるものはすべてそこにあり、背景は非常にリアルであると直接述べました。彼は、葦がどこから来たのかわからないとさえ言いました。

しかし、「これがあなたが送った画像です」という次の文は本当にわかりにくいです。

ジェミニは私たちがアップロードした写真を見ていなかったが、アヒルとして読み上げたと言われています。また、ジェミニは写真を見たが、まったく違う写真を表示し、私たちがアップロードしたものだと読み上げたとも言われています。

そこで、「深呼吸」と「ステップごとに解いてください」というプロンプトを使用して、Gemini のパフォーマンスを改善できるかどうか確認することにしました。深呼吸は、Google の旧世代の大型モデル PaLM に適用されるプロンプトです。

その結果、今回の答えは人々を大笑いさせました。

異常なのは、アヒルが紙に描かれていることです。アヒルは生き物であり、紙の上には存在できません...

ビデオの最後に、ブロガーはゴム製のアヒルのおもちゃも取り出しました。私たちもこのフレーム (図 8) を撮影し、アヒルの素材を Gemini に分析してもらいました。

ゴムの分析は正しく行われましたが、青いアヒルは黄色だと言われました。前の写真では何も問題がないと書かれていたのも当然です...

フレームごとのクエリを完了した後、8 枚の写真をまとめて再度質問したところ、アヒルだけが正解という結果になりました。

このビデオを「暴露」した後、GPT-4V のテストに使用した「チワワとマフィン」の写真で Gemini をテストしました。

その結果、ジェミンは諦めて、写真はすべて「マフィンの上に座っているチワワ」で、写真の数も正確に数えていなかったと言いました...

そこで私たちは質問の仕方を変えて、どれがチワワでどれがマフィンか答えるように頼みました。

今回ジェミニはとても正直で、チワワとパンケーキはあまりにも似ているので区別がつかないと直接私たちに話しました。

青いアヒルの問題と同じように、「深呼吸」はここでも機能せず、ジェミニは依然としてその数さえも把握できませんでした。

かろうじて説明した8枚（2枚は重複しているので実際は6枚）の絵のうち、正解は左下と右下の2枚のみ。真ん中が何列目かは不明ですが…

おそらく、このような小さな違いは双子座にとっては難しすぎるので、次はグラフィック推論の問題に挑戦してみましょう。

最初の質問の最初の 4 つの記号は、1 から 4 までの 4 つの数字と鏡像で構成されているため、次の図は 5 とその鏡像になります。答えは C です。（青いブロックは見やすくするためのもので、ジェミニに送信された画像には含まれていません）

冒頭にちょっとしたエピソードがありました。最後の文が最初のプロンプトに含まれていなかったのです (文字自体が記号ではないことに注意してください)。その結果、ジェミニは 4 つの文字 ABCD を代替記号とみなしたのです。

調整後、上記の Gemini による分析は基本的に正しかったのですが、残念ながら最終的には間違ったオプション D が選択されました。

質問 2 では、各ボックスの 3 番目の記号は最初の 2 つの記号の交点です。答えは A です。

その結果、ジェミニはこれらの表現を研究し、激しく分析しましたが、最終的に出した答えは依然として間違っていました。

2問回答した結果、1問は70～80％正解でしたが、もう1問は完全に不正解でした。Gemini Proのグラフィカル推論能力にはまだまだ改善の余地があるようです。

しかし、人生のシナリオに焦点を当てると、ジェミニのパフォーマンスは依然として評価に値します。

ChatGPT (DALL·E) を使用して、鶏肉、ニンジン、キュウリを含む画像を生成しました。Gemini はこれら 3 つの材料を正しく識別し、調理可能なさまざまな料理をそれぞれ写真とチュートリアルリンクとともに提供しました。

たくさんのテスト結果を見た後、最初の質問に戻りましょう。Gemini をお持ちの場合、GPT-4 の料金を支払う必要がありますか?

ウォートン校の准教授イーサン・モリック氏は良い提案をしている。

どちらも無料の Bard と Claude に追い抜かれた今、ChatGPT の無料バージョンを使用する理由はほとんどありません。
しかし、おそらく GPT-4 を使い続けるべきでしょう。これはまだ主流であり、Bing では無料です (クリエイティブモードのみが GPT-4 です)。

来年にはAlphaGoと統合され、その能力が強化される予定だ。

ジェミニの実際の効果に加えて、60ページに及ぶ技術レポートで公開された詳細も研究者や開発者にとって関心事となっている。

パラメータスケールに関しては、最小のNanoバージョンのみが発表されており、1.8B Nano-1と3.25B Nano-2の2つのモデルに分かれています。4ビットの量子化が蒸留されており、Pixelスマートフォンなどのローカルデバイスで実行できます。

Pro版とUltra版の規模は秘密にされており、コンテキストウィンドウの長さは32kに統一され、アテンションメカニズムはMulti-Query Attentionを採用しています。それ以外にはあまり詳細はありません。

注目すべきは、レポートでは、微調整段階で、SFT + RLHF命令の微調整の組み合わせ、つまりChatGPTメソッドが使用されたことが明らかになったことです。

さらに、 Claude のアライメント法を組み合わせたAnthropic の Constitutional AI も引用されています。

トレーニングデータについての詳細はあまり明らかにされていないが、Googleが教科書から著作権のあるデータを削除したという噂がある。

Geminiはリリースまでに長らく延期されており、Googleの創設者セルゲイ・ブリン氏がモデルの評価やトレーニングの支援に個人的に関わっていたなど、これまでにも多くの情報が明らかにされていました。

OpenAI Q* プロジェクトに関する最近の噂と合わせて、誰もが最も懸念しているのは次の点です。

Gemini は本当に AlphaGo の能力を備えているのでしょうか? RLHF 以外の強化学習や検索アルゴリズムなど。

この点に関して、DeepMindの創設者ハサビス氏は、最近のWired Magazineのインタビューで次のように答えた。

私たちには世界最高の強化学習の専門家がいます...AlphaGo の作業により、将来的にはモデルの推論機能と計画機能が向上することが期待されます...来年はさらに急速な進歩が見られるでしょう。

トラフィック節約バージョン: まだ追加されていませんが、来年追加される予定です。

今回のGeminiの開発には、元祖Google BrainとDeepMindのチームが統合されており、開発チーム全体では800人以上が参加しています（比較すると、OpenAI社全体の人員は約770人です）。

最初の 6 人のコア貢献者の名前の頭文字を組み合わせると、 Gemini という単語が形成されますが、これはちょっとしたイースターエッグとも言えます。

参加者の多くは、個人的なアカウントでも感想を述べた。その中には、ベテランのDeepMind社員であるジャック・レイ氏もいる。同氏は、かつて一時期OpenAIで働いていたが、今年7月にOpenAIからGoogleに戻ってきた。同氏は、GPT-4とGeminiの両方に貢献した唯一の人間かもしれない。

逆の方向へ飛び移る人々もいる。USTCの卒業生であるJiahui Yu氏は、10月にGoogleからOpenAIへ移った。同氏は以前、Geminiマルチモーダルチームのビジョンの共同リーダーを務めていた。

チームメンバーに加えて、Gemini は今日の AI 業界全体で最大の話題でもあります。

その中で、有名なOpenAI内部告発者アカウントのJimmy Apples氏と@Sam Altman氏は、OpenAIにはまだ公開されていない大きなトリックがいくつかあることを示唆しました。

HuggingFace の共同設立者 Thomas Wolf 氏は、Google が重要な機会を逃したと考えている。

もし Gemini がオープンソースであれば、それは OpenAI と Meta の両方にとって致命的な打撃となるだろう。Google が前回 Bert をオープンソース化した際には、AI 業界全体が再編された。

ジェミニ技術レポート: https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf

<<: 遅めのエクスタシー！動画の動きがどんなに大きくても、写真はスムーズに主役の代わりを務めることができる｜Meta & シンガポール国立大学

>>: 超音波脳読み取りはマスクの脳コンピューターインターフェースよりも正確で侵襲性が低い