ジェミニのオンライン初日：ユーザーからの評価はまちまち、デモは「偽物」と疑われ、Googleはそれを認めた

「Googleさん、ちょっと恥ずかしいです。」

Gemini のローンチ初日に、人気のコメントがこのようになるとは予想していませんでした。

水曜日、Google の Gemini は生成 AI のネイティブマルチモーダル時代の幕開けを告げました。人々はすぐに新しいモデルを搭載したバードに集まり、AIの機能を試したが、評価はまちまちだった。

最も注目すべきは、Gemini がリリースされた際に Google が行った一連のデモの中で最も目を引く部分は偽物だったと指摘する人がいたことです。

「ジェミニを実際に操作：マルチモーダルAIとのやり取り」と題されたこの動画は、現在140万回視聴されており、グーグルが「ジェミニとのやり取りのお気に入りの例」と考えるものを特集しており、言語と視覚的理解を理解して組み合わせるマルチモーダルモデルが、さまざまな入力に柔軟に対応できることを示している。

Google は、絵筆を使ってアヒルのスケッチを描き、1 本の曲線から完全な絵までを描くという、人間を理解し対話する Gemini の驚くべき能力を実演しました。AI は、青は動物にとって非現実的な色であるとコメントしました。

その後、AIは実物の青いおもちゃのアヒルを見て驚きを表現しました。すると、地球上のどこにアヒルがいるのか、さまざまな言語でアヒルはどのように発音するのかなど、アヒルに関して人間が抱くさまざまな質問に答えてくれるようになります。

デモンストレーションはその後も続き、AI はカップ交換ゲームで正しいトラッキングを実現し、影絵のジェスチャーを認識し、材料を識別して組み合わせを提案し、惑星のスケッチを並べ替えるなど、さまざまなことを行いました。

しかし、YouTube の動画の説明をクリックすると、Google からの重要な免責事項が表示されます。「デモンストレーションの目的で、レイテンシーが短縮され、簡潔にするために Gemini の出力が短縮されています。」

ブルームバーグによると、コメントを求められたグーグルは、ビデオデモはリアルタイムではなく、元の映像から静止画像フレームを使用し、ジェミニが応答するテキストプロンプトをプログラムしたことを認めた。

ビデオは美しく見えますが、ビデオが本物ではないという問題も反映されています。人々は、ビデオのスクリーンショットを使用してバードのジェミニに質問するなど、さまざまな方法を使用して検証しましたが、AIは質問に正確に答えることができなかったことがわかりました。

Google は単に誇張したビデオを作成し、それを静止画像フレームとテキストを使用して Gemini プロンプトとして組み合わせたのではないかと疑う理由があります。つまり、ビデオデモは慎重な選択の結果です。

おそらく、Gemini はビデオに示されているとおりに動作できたのに、Google はそれをせず、代わりに速度を上げたのでしょう。あるいは、Gemini はビデオに示されているほどスムーズではなく、誰かがいくつかの誤った結果から正しい結果を素材として選び出したのかもしれません。

しかし、いずれにせよ、Gemini のデモは、実際のやり取りを注意深く調整して歪曲して表現したもののように見えました。

Google は、「How it's Made: Interacting with Gemini through multimodal prompting」というタイトルのブログで、マルチモーダルインタラクションプロセス、つまりマルチモーダルプロンプトを通じて Gemini と対話する方法についても説明しています。

注: Gemini のプロンプトは、マルチモーダルプロンプト (画像やテキストなどのさまざまなモードの組み合わせ) にすることができ、次に何が起こるかを Gemini が予測し、それに応じて応答します。

たとえば、じゃんけんのゲームでは、Google の実験は次のようになりました。Gemini に写真を見せて、見たものを説明するように求めました。

まず、デモンストレーションでは、ジェミニはビデオに示されているような反応を確かに生み出したように見えました。しかしその一方で、モデルとのやり取りの速度と正確さの点で、視聴者は誤解される可能性があります。

たとえば、ビデオの 2:45 では、手が静かに一連のジェスチャーを行っています。ジェミニはすぐに答えました。「あなたが何をしているか分かっています！じゃんけんをしているんです！」

しかし、Google ブログでは、ユーザーは 3 つのジェスチャーを同時に表示する必要があり、「私が何をしていると思いますか?」というプロンプトが表示されます。ボーナスヒント: これはゲームです。すると、Gemini は「じゃんけんをしています」と応答しました。下の図に示すように、ユーザーが 2 本の指を伸ばしても、Gemini はこれがじゃんけんのゲームであることを認識しません。 3 つの画像がすべて完成した場合にのみ、Gemini は正しく推測できます。

ビデオとブログで紹介されている推論プロセスを比較すると、人々にはまったく異なるやりとりの方法が示されます。ビデオで示されている「やりとり」のプロセスは発生しませんでした。

その後のデモンストレーションでは、太陽、土星、地球の落書きが描かれたスケッチが 3 つジェミニに示されました。動画では、ユーザーが「これが正しい順序ですか？」と質問し、ジェミニは「いいえ、太陽、地球、土星です」と答えました。元の動画では、ユーザーは「これが正しい順序ですか？」という文以外には何も情報を提供していないことに注意してください。ジェミニには答えがあります。

しかし、実際のプロンプト（書かれたもの）では、「これは正しい順序ですか？太陽からの距離を考慮して、理由を説明してください。」というものでした。ジェミニは、「正しい順序は、太陽、地球、土星です。」と答えました。太陽系の中心には太陽が最も近く、次に地球、そして土星が続きます。

ビデオでは、Gemini の回答には追加の支援が必要である可能性があるが、Google はそれを示しなかったと推測できます。

ビデオに示されている別の例では、紙のボールがカップ間で交換されますが、Gemini はそれを即座に直感的に検出して追跡します。

しかし、ブログでは、このプロセスを完了するのは依然として複雑です。

移動するたびに、大きなモデルと通信する必要があります。おそらく、Google の AI デモの機能はすべて誇張されていると考えるべきでしょう。

人々の疑問に対して、Google は直接それを認めたと答えました。

この記事が公開された後に公開されたソーシャルメディアの投稿で、Google DeepMindの研究担当副社長であるオリオール・ヴィニャルズ氏は、このビデオを録画する際にジェミニがどのように使用されたかを詳しく説明しました。

オリオール・ヴィニャルズ氏は、Google が Gemini に提供しているマルチモーダル機能と即時応答は、12 月 13 日に Pro アクセスが開始されると開発者に提供される予定だと述べた。ただし、デモビデオの内容は Ultra モデルを使用して実現されました。ビデオ内の人間の合図と AI 出力はすべて本物ですが、簡潔にするために短縮されています。

Google Gemini の共同責任者であるオリオール・ヴィニャルス氏は次のようにツイートした。

画像ソース: https://x.com/OriolVinyalsML/status/1732885990291775553?s=20

ネットユーザーはそれを信じていません。それは真実だと言っているのに、実際の大規模モデル推論速度ではないと言っているのは矛盾ではありませんか？

ジェミニは自社の従業員から批判され、プロ版はGPT-3.5に勝てなかった

ブルームバーグなどのメディアは、グーグルがデモ動画を宣伝していた一方で、自社の従業員からも批判があったと指摘した。特にアヒルを描く際、Gemini は描きながらリアルタイムに解析したり、ユーザーに話しかける際に人間の声で応答したりできるようでした。

GoogleのCEO、ピチャイ氏はデモを宣伝し、Geminiの潜在的かつ驚くべき機能を理解するには、実際に動作しているのを見るのが一番良いと語った。観客もデモを賞賛し、エキサイティングで非現実的だと評した。

画像出典: https://twitter.com/sundarpichai/status/1732433036929589301

しかし、すぐに Gemini は期待したほど優れておらず、デモのように敏感でインテリジェントであるとは期待できないことが指摘されました。グーグルの社員の中には、そこに「トリック」があると指摘した者もいた。

従業員はブルームバーグに対し、デモでは非現実的な絵が描かれており、ジェミニから驚くべき効果を出すのがいかに簡単かを誇張していると語った。

別の従業員は、デモには驚かなかったとし、同社が自社製品を位置付ける際にある程度のマーケティングの誇大宣伝には慣れていると語った。もちろん、すべての企業がこれを行います。その結果、LLM テクノロジーを使用したことのある従業員のほとんどは、デモを鵜呑みにしないことを知っていると彼は考えています。

Google DeepMindの製品担当副社長、イーライ・コリンズ氏はブルームバーグに対し、アヒルのお絵かきデモはまだ開発中の研究レベルの機能であり、少なくとも現時点では実際の製品ではないと語った。

グーグルの社員の中には、真実を明らかにせずにビデオを公開すると世間に誤解を与える可能性があるかどうか議論している者もいる。アヒルのビデオが不正に編集されたことを示唆するミームをシェアした人もいた。「ビデオクリエイターはストーリーを伝える能力をより重視していると思います。」

デモビデオが一般の人々や社内の従業員から疑問視されていることに加えて、Gemini は本当に主張されているほど強力なのでしょうか?今回、Gemini には 3 つのバージョンがあることがわかっています。最も強力な Gemini Ultra、マルチタスクの Gemini Pro、タスク固有のエンドサイド Gemini Nano です。

現在、Google の ChatGPT のようなアプリケーション Bard は、Gemini Pro バージョンに無料でアップグレードでき、Gemini Ultra は来年初めに Bard Advanced を通じてユーザーに提供される予定です。

GPT-4との比較では、Googleが提供したデータによると、Gemini Ultraはあらゆる面でGPT-4を上回り、Proはほとんどの指標でGPT-3.5を上回っています。

しかし、実際の効果は何でしょうか? Twitter ユーザーの Brett Winton 氏は、Gemini Pro、Claude、GPT-3.5 を初めてベンチマークし、各モデルに 8 年生のストーリーの質問を与えました。彼の結論は、GPT-3.5 は満点、Claude は約 67 ポイント、Gemini Pro にはまったくそのような特徴がないというものです。

画像出典: https://twitter.com/wintonARK/status/1732527909376815419

3 つのモデルから得られた答えは次のとおりです。

左から右へ: Bard (Gemini Pro)、Claude、GPT-3.5。

この結果を見ると、「アップグレードされたが完全にはアップグレードされていない」というのが唯一の説明のようです。同氏は、ジェミニ・ウルトラが最終的に打ち上げられるまでその能力についてはコメントしないと述べた。

Gemini は新しいアーキテクチャを開拓し、トラフィックを集め、批判も受けました。では、Google の Microsoft への反撃計画は成功したようですね?

少なくとも投資家の観点からは、良いスタートだ。

グーグルの株価は木曜日に急騰し、時価総額は800億ドル増加した。 2月にGoogleがBardを立ち上げたとき、Googleの株価が1日で1000億ドル下落したことを覚えておくことが重要です。

Gemini は、Google が大規模モデルにおいて Microsoft や OpenAI との差を縮めるのに役立つと考えられています。

おそらく、Gemini のバージョン 1.0 はほんの始まりに過ぎず、私たちはまだ忍耐強く、大型モデルのさらなる技術的アップグレードを待つ必要があるでしょう。

<<:

>>: 3Dタスク（知覚、推論、計画、行動）に精通した初の具現化されたジェネラリストエージェント

iSoftStone ロボットカスタマーサービス Rglam (Ange): ナレッジグラフと NLP エンジンを備えた高精度の会話型ロボットの構築

ジェミニのオンライン初日：ユーザーからの評価はまちまち、デモは「偽物」と疑われ、Googleはそれを認めた

ジェミニは自社の従業員から批判され、プロ版はGPT-3.5に勝てなかった

iSoftStone ロボットカスタマーサービス Rglam (Ange): ナレッジグラフと NLP エンジンを備えた高精度の会話型ロボットの構築

OpenAI主任科学者：ChatGPTはすでに意識を示しており、将来人間はAIと融合するだろう

ポストコロナ時代の住宅建設において、スマート建築はどのように変化するのでしょうか？

ARMの機能によりIBMの包括的なAI自動化ポートフォリオが強化される

Chen Danqi 氏のグループによるマスク言語モデルに関する研究: 15% のマスク率は最適ではないが、40% は維持可能か?

機械学習初心者必読: 6 つのシンプルで実用的なアルゴリズムと学習曲線

AIが高性能鋼材の設計を支援：破壊強度と破壊寿命を正確に予測

[ディープラーニングシリーズ] PaddlePaddle と Tensorflow を使用したクラシック CNN ネットワーク GoogLeNet の実装

顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった

推薦する

AI音声クローンが著作権紛争を巻き起こし、全米レコード協会が政府に介入を求める

写真とテキスト付き！推奨アルゴリズムのアーキテクチャ - 大まかなランキング

人工知能のおかげで、赤信号待ちは過去のものになるだろう

ヴィーナステックのヤン・ワンジア氏：人工知能を活用した産業用インターネットセキュリティの開発促進に関する提案

人工知能が新たな領域を切り開く：バーチャルクリエイターの背後にある戦い

スタンフォード大学の64歳の学長が辞任！学術不正スキャンダルが勃発、95ページの調査報告書が公表

この記事では、人工知能がクラウドコンピューティングをどのように変え、私たちの生活にどのような影響を与えるかを説明します。

脆弱なニューラルネットワーク: カリフォルニア大学バークレー校が敵対的サンプル生成のメカニズムを説明します。

馬化騰と李延紅の対談：基礎技術は巨大産業の変革の基盤

DeepMindらが優秀論文賞を受賞、IBMスーパーコンピュータDeep Blueが古典に、IJCAI2023の賞が発表

2023年第18回中国企業年次選定リストが発表されました：Venustech Pan Xiaoguセキュリティモデルが2023年中国IT産業セキュリティイノベーション製品賞を受賞

ブロックチェーンが人工知能に役立つ10の方法