ジェミニのオンライン初日:ユーザーからの評価はまちまち、デモは「偽物」と疑われ、Googleはそれを認めた

ジェミニのオンライン初日:ユーザーからの評価はまちまち、デモは「偽物」と疑われ、Googleはそれを認めた

「Googleさん、ちょっと恥ずかしいです。」

Gemini のローンチ初日に、人気のコメントがこのようになるとは予想していませんでした。

水曜日、Google の Gemini は生成 AI のネイティブ マルチモーダル時代の幕開けを告げました。人々はすぐに新しいモデルを搭載したバードに集まり、AIの機能を試したが、評価はまちまちだった。

最も注目すべきは、Gemini がリリースされた際に Google が行った一連のデモの中で最も目を引く部分は偽物だったと指摘する人がいたことです。

「ジェミニを実際に操作:マルチモーダルAIとのやり取り」と題されたこの動画は、現在140万回視聴されており、グーグルが「ジェミニとのやり取りのお気に入りの例」と考えるものを特集しており、言語と視覚的理解を理解して組み合わせるマルチモーダルモデルが、さまざまな入力に柔軟に対応できることを示している。

Google は、絵筆を使ってアヒルのスケッチを描き、1 本の曲線から完全な絵までを描くという、人間を理解し対話する Gemini の驚くべき能力を実演しました。AI は、青は動物にとって非現実的な色であるとコメントしました。

その後、AIは実物の青いおもちゃのアヒルを見て驚きを表現しました。すると、地球上のどこにアヒルがいるのか、さまざまな言語でアヒルはどのように発音するのかなど、アヒルに関して人間が抱くさまざまな質問に答えてくれるようになります。

デモンストレーションはその後も続き、AI はカップ交換ゲームで正しいトラッキングを実現し、影絵のジェスチャーを認識し、材料を識別して組み合わせを提案し、惑星のスケッチを並べ替えるなど、さまざまなことを行いました。

しかし、YouTube の動画の説明をクリックすると、Google からの重要な免責事項が表示されます。「デモンストレーションの目的で、レイテンシーが短縮され、簡潔にするために Gemini の出力が短縮されています。」

ブルームバーグによると、コメントを求められたグーグルは、ビデオデモはリアルタイムではなく、元の映像から静止画像フレームを使用し、ジェミニが応答するテキストプロンプトをプログラムしたことを認めた。

ビデオは美しく見えますが、ビデオが本物ではないという問題も反映されています。人々は、ビデオのスクリーンショットを使用してバードのジェミニに質問するなど、さまざまな方法を使用して検証しましたが、AIは質問に正確に答えることができなかったことがわかりました。

Google は単に誇張したビデオを作成し、それを静止画像フレームとテキストを使用して Gemini プロンプトとして組み合わせたのではないかと疑う理由があります。つまり、ビデオデモは慎重な選択の結果です。

おそらく、Gemini はビデオに示されているとおりに動作できたのに、Google はそれをせず、代わりに速度を上げたのでしょう。あるいは、Gemini はビデオに示されているほどスムーズではなく、誰かがいくつかの誤った結果から正しい結果を素材として選び出したのかもしれません。

しかし、いずれにせよ、Gemini のデモは、実際のやり取りを注意深く調整して歪曲して表現したもののように見えました。

Google は、「How it's Made: Interacting with Gemini through multimodal prompting」というタイトルのブログで、マルチモーダル インタラクション プロセス、つまりマルチモーダル プロンプトを通じて Gemini と対話する方法についても説明しています。

注: Gemini のプロンプトは、マルチモーダル プロンプト (画像やテキストなどのさまざまなモードの組み合わせ) にすることができ、次に何が起こるかを Gemini が予測し、それに応じて応答します。

たとえば、じゃんけんのゲームでは、Google の実験は次のようになりました。Gemini に写真を見せて、見たものを説明するように求めました。

まず、デモンストレーションでは、ジェミニはビデオに示されているような反応を確かに生み出したように見えました。しかしその一方で、モデルとのやり取りの速度と正確さの点で、視聴者は誤解される可能性があります。

たとえば、ビデオの 2:45 では、手が静かに一連のジェスチャーを行っています。ジェミニはすぐに答えました。「あなたが何をしているか分かっています!じゃんけんをしているんです!」

しかし、Google ブログでは、ユーザーは 3 つのジェスチャーを同時に表示する必要があり、「私が何をしていると思いますか?」というプロンプトが表示されます。ボーナスヒント: これはゲームです。すると、Gemini は「じゃんけんをしています」と応答しました。下の図に示すように、ユーザーが 2 本の指を伸ばしても、Gemini はこれがじゃんけんのゲームであることを認識しません。 3 つの画像がすべて完成した場合にのみ、Gemini は正しく推測できます。

ビデオとブログで紹介されている推論プロセスを比較すると、人々にはまったく異なるやりとりの方法が示されます。ビデオで示されている「やりとり」のプロセスは発生しませんでした。

その後のデモンストレーションでは、太陽、土星、地球の落書きが描かれたスケッチが 3 つジェミニに示されました。動画では、ユーザーが「これが正しい順序ですか?」と質問し、ジェミニは「いいえ、太陽、地球、土星です」と答えました。元の動画では、ユーザーは「これが正しい順序ですか?」という文以外には何も情報を提供していないことに注意してください。ジェミニには答えがあります。

しかし、実際のプロンプト(書かれたもの)では、「これは正しい順序ですか?太陽からの距離を考慮して、理由を説明してください。」というものでした。ジェミニは、「正しい順序は、太陽、地球、土星です。」と答えました。太陽系の中心には太陽が最も近く、次に地球、そして土星が続きます。

ビデオでは、Gemini の回答には追加の支援が必要である可能性があるが、Google はそれを示しなかったと推測できます。

ビデオに示されている別の例では、紙のボールがカップ間で交換されますが、Gemini はそれを即座に直感的に検出して追跡します。

しかし、ブログでは、このプロセスを完了するのは依然として複雑です。

移動するたびに、大きなモデルと通信する必要があります。おそらく、Google の AI デモの機能はすべて誇張されていると考えるべきでしょう。

人々の疑問に対して、Google は直接それを認めたと答えました。

この記事が公開された後に公開されたソーシャルメディアの投稿で、Google DeepMindの研究担当副社長であるオリオール・ヴィニャルズ氏は、このビデオを録画する際にジェミニがどのように使用されたかを詳しく説明しました。

オリオール・ヴィニャルズ氏は、Google が Gemini に提供しているマルチモーダル機能と即時応答は、12 月 13 日に Pro アクセスが開始されると開発者に提供される予定だと述べた。ただし、デモ ビデオの内容は Ultra モデルを使用して実現されました。ビデオ内の人間の合図と AI 出力はすべて本物ですが、簡潔にするために短縮されています。

Google Gemini の共同責任者であるオリオール・ヴィニャルス氏は次のようにツイートした。

画像ソース: https://x.com/OriolVinyalsML/status/1732885990291775553?s=20

ネットユーザーはそれを信じていません。それは真実だと言っているのに、実際の大規模モデル推論速度ではないと言っているのは矛盾ではありませんか?

ジェミニは自社の従業員から批判され、プロ版はGPT-3.5に勝てなかった

ブルームバーグなどのメディアは、グーグルがデモ動画を宣伝していた一方で、自社の従業員からも批判があったと指摘した。特にアヒルを描く際、Gemini は描きながらリアルタイムに解析したり、ユーザーに話しかける際に人間の声で応答したりできるようでした。

GoogleのCEO、ピチャイ氏はデモを宣伝し、Geminiの潜在的かつ驚くべき機能を理解するには、実際に動作しているのを見るのが一番良いと語った。観客もデモを賞賛し、エキサイティングで非現実的だと評した。

画像出典: https://twitter.com/sundarpichai/status/1732433036929589301

しかし、すぐに Gemini は期待したほど優れておらず、デモのように敏感でインテリジェントであるとは期待できないことが指摘されました。グーグルの社員の中には、そこに「トリック」があると指摘した者もいた。

従業員はブルームバーグに対し、デモでは非現実的な絵が描かれており、ジェミニから驚くべき効果を出すのがいかに簡単かを誇張していると語った。

別の従業員は、デモには驚かなかったとし、同社が自社製品を位置付ける際にある程度のマーケティングの誇大宣伝には慣れていると語った。もちろん、すべての企業がこれを行います。その結果、LLM テクノロジーを使用したことのある従業員のほとんどは、デモを鵜呑みにしないことを知っていると彼は考えています。

Google DeepMindの製品担当副社長、イーライ・コリンズ氏はブルームバーグに対し、アヒルのお絵かきデモはまだ開発中の研究レベルの機能であり、少なくとも現時点では実際の製品ではないと語った。

グーグルの社員の中には、真実を明らかにせずにビデオを公開すると世間に誤解を与える可能性があるかどうか議論している者もいる。アヒルのビデオが不正に編集されたことを示唆するミームをシェアした人もいた。 「ビデオクリエイターはストーリーを伝える能力をより重視していると思います。」

デモビデオが一般の人々や社内の従業員から疑問視されていることに加えて、Gemini は本当に主張されているほど強力なのでしょうか?今回、Gemini には 3 つのバージョンがあることがわかっています。最も強力な Gemini Ultra、マルチタスクの Gemini Pro、タスク固有のエンドサイド Gemini Nano です。

現在、Google の ChatGPT のようなアプリケーション Bard は、Gemini Pro バージョンに無料でアップグレードでき、Gemini Ultra は来年初めに Bard Advanced を通じてユーザーに提供される予定です。

GPT-4との比較では、Googleが提供したデータによると、Gemini Ultraはあらゆる面でGPT-4を上回り、Proはほとんどの指標でGPT-3.5を上回っています。

しかし、実際の効果は何でしょうか? Twitter ユーザーの Brett Winton 氏は、Gemini Pro、Claude、GPT-3.5 を初めてベンチマークし、各モデルに 8 年生のストーリーの質問を与えました。彼の結論は、GPT-3.5 は満点、Claude は約 67 ポイント、Gemini Pro にはまったくそのような特徴がないというものです。

画像出典: https://twitter.com/wintonARK/status/1732527909376815419

3 つのモデルから得られた答えは次のとおりです。

左から右へ: Bard (Gemini Pro)、Claude、GPT-3.5。

この結果を見ると、「アップグレードされたが完全にはアップグレードされていない」というのが唯一の説明のようです。同氏は、ジェミニ・ウルトラが最終的に打ち上げられるまでその能力についてはコメントしないと述べた。

Gemini は新しいアーキテクチャを開拓し、トラフィックを集め、批判も受けました。では、Google の Microsoft への反撃計画は成功したようですね?

少なくとも投資家の観点からは、良いスタートだ。

グーグルの株価は木曜日に急騰し、時価総額は800億ドル増加した。 2月にGoogleがBardを立ち上げたとき、Googleの株価が1日で1000億ドル下落したことを覚えておくことが重要です。

Gemini は、Google が大規模モデルにおいて Microsoft や OpenAI との差を縮めるのに役立つと考えられています。

おそらく、Gemini のバージョン 1.0 はほんの始まりに過ぎず、私たちはまだ忍耐強く、大型モデルのさらなる技術的アップグレードを待つ必要があるでしょう。

<<: 

>>:  3Dタスク(知覚、推論、計画、行動)に精通した初の具現化されたジェネラリストエージェント

ブログ    

推薦する

OpenAI CEO が自ら実演します!カスタムコマンドを使用して独自のカスタマイズされた AI アシスタントをトレーニングするためのガイド

おそらく、新しく導入されたカスタム指示機能はあまり議論を呼んでいないと感じたため、アルトマン氏は個人...

3つの側面での共同の取り組みにより、人工知能はスマート交通の発展に貢献します。

[[442361]]都市化の継続的な進展と自動車保有数の急速な増加により、我が国の交通発展は困難な...

速報です!ヒントンがロボットスタートアップに参入、同社は9000万ドルの新規投資を受ける

チューリング賞受賞者であり、ディープラーニングの父であるジェフリー・ヒントンの次の旅が決まりました。...

Python で KNN アルゴリズムを使用して欠損データを処理する

欠損データの処理は簡単な作業ではありません。 方法は、単純な平均補完や観察結果の完全な削除から、MI...

...

AI応用分野トップ10: AIはかつてないほど優れている

1956 年のダートマス会議で AI が提案されて以来、AI 研究はいくつかの浮き沈みを経験してきま...

たくさん学びました!世界で最も遅いソートアルゴリズム!

今日は、世界で最も遅いソートアルゴリズムである Bogo ソートについてお話ししたいと思います。では...

復旦大学などがAnyGPTをリリース:画像、音楽、テキスト、音声をサポートする任意のモーダル入出力

最近、OpenAIのビデオ生成モデルSoraが人気を集めており、生成AIモデルのマルチモーダル機能が...

人工知能は何ができるのでしょうか?今日はそれを総合的に見ていきましょう。

電子廃棄物[[277263]]環境の持続可能性のために AI と IoT を活用すると、現在の環境保...

...

靴下が山積みになっています。靴下をペアにするには、最も速くて効率的なアルゴリズムをどのように使用すればよいでしょうか?

[問題の説明]昨日、コインランドリーで靴下の山を整理していたのですが、自分が使っていた方法がとても...

ジャック・マー:私は人工知能を恐れていない。今後30年間で私がやることは1つだけだ

[[223784]]ジャック・マー氏は以前、世界経済フォーラムでこう語った。「将来、多くの仕事が人工...

メリット、PyTorch中国語版の公式チュートリアルはこちら

[[275569]] PyTorchは近年人気のディープラーニングフレームワークですが、公式の中国語...

機械学習アルゴリズムが NDA の法的分析テストで 20 人の弁護士に勝利

ロボット工学と人工知能の発展により、多くの仕事が機械に置き換えられるでしょう。機械は、一部のタスク、...

人工知能とビッグデータは私たちの生活をこのように変えるだろう

現在、知能ロボットが急速に発展していますが、機械を知能化するための鍵は実はビッグデータです。ビッグデ...