ジェミニのオンライン初日:ユーザーからの評価はまちまち、デモは「偽物」と疑われ、Googleはそれを認めた

ジェミニのオンライン初日:ユーザーからの評価はまちまち、デモは「偽物」と疑われ、Googleはそれを認めた

「Googleさん、ちょっと恥ずかしいです。」

Gemini のローンチ初日に、人気のコメントがこのようになるとは予想していませんでした。

水曜日、Google の Gemini は生成 AI のネイティブ マルチモーダル時代の幕開けを告げました。人々はすぐに新しいモデルを搭載したバードに集まり、AIの機能を試したが、評価はまちまちだった。

最も注目すべきは、Gemini がリリースされた際に Google が行った一連のデモの中で最も目を引く部分は偽物だったと指摘する人がいたことです。

「ジェミニを実際に操作:マルチモーダルAIとのやり取り」と題されたこの動画は、現在140万回視聴されており、グーグルが「ジェミニとのやり取りのお気に入りの例」と考えるものを特集しており、言語と視覚的理解を理解して組み合わせるマルチモーダルモデルが、さまざまな入力に柔軟に対応できることを示している。

Google は、絵筆を使ってアヒルのスケッチを描き、1 本の曲線から完全な絵までを描くという、人間を理解し対話する Gemini の驚くべき能力を実演しました。AI は、青は動物にとって非現実的な色であるとコメントしました。

その後、AIは実物の青いおもちゃのアヒルを見て驚きを表現しました。すると、地球上のどこにアヒルがいるのか、さまざまな言語でアヒルはどのように発音するのかなど、アヒルに関して人間が抱くさまざまな質問に答えてくれるようになります。

デモンストレーションはその後も続き、AI はカップ交換ゲームで正しいトラッキングを実現し、影絵のジェスチャーを認識し、材料を識別して組み合わせを提案し、惑星のスケッチを並べ替えるなど、さまざまなことを行いました。

しかし、YouTube の動画の説明をクリックすると、Google からの重要な免責事項が表示されます。「デモンストレーションの目的で、レイテンシーが短縮され、簡潔にするために Gemini の出力が短縮されています。」

ブルームバーグによると、コメントを求められたグーグルは、ビデオデモはリアルタイムではなく、元の映像から静止画像フレームを使用し、ジェミニが応答するテキストプロンプトをプログラムしたことを認めた。

ビデオは美しく見えますが、ビデオが本物ではないという問題も反映されています。人々は、ビデオのスクリーンショットを使用してバードのジェミニに質問するなど、さまざまな方法を使用して検証しましたが、AIは質問に正確に答えることができなかったことがわかりました。

Google は単に誇張したビデオを作成し、それを静止画像フレームとテキストを使用して Gemini プロンプトとして組み合わせたのではないかと疑う理由があります。つまり、ビデオデモは慎重な選択の結果です。

おそらく、Gemini はビデオに示されているとおりに動作できたのに、Google はそれをせず、代わりに速度を上げたのでしょう。あるいは、Gemini はビデオに示されているほどスムーズではなく、誰かがいくつかの誤った結果から正しい結果を素材として選び出したのかもしれません。

しかし、いずれにせよ、Gemini のデモは、実際のやり取りを注意深く調整して歪曲して表現したもののように見えました。

Google は、「How it's Made: Interacting with Gemini through multimodal prompting」というタイトルのブログで、マルチモーダル インタラクション プロセス、つまりマルチモーダル プロンプトを通じて Gemini と対話する方法についても説明しています。

注: Gemini のプロンプトは、マルチモーダル プロンプト (画像やテキストなどのさまざまなモードの組み合わせ) にすることができ、次に何が起こるかを Gemini が予測し、それに応じて応答します。

たとえば、じゃんけんのゲームでは、Google の実験は次のようになりました。Gemini に写真を見せて、見たものを説明するように求めました。

まず、デモンストレーションでは、ジェミニはビデオに示されているような反応を確かに生み出したように見えました。しかしその一方で、モデルとのやり取りの速度と正確さの点で、視聴者は誤解される可能性があります。

たとえば、ビデオの 2:45 では、手が静かに一連のジェスチャーを行っています。ジェミニはすぐに答えました。「あなたが何をしているか分かっています!じゃんけんをしているんです!」

しかし、Google ブログでは、ユーザーは 3 つのジェスチャーを同時に表示する必要があり、「私が何をしていると思いますか?」というプロンプトが表示されます。ボーナスヒント: これはゲームです。すると、Gemini は「じゃんけんをしています」と応答しました。下の図に示すように、ユーザーが 2 本の指を伸ばしても、Gemini はこれがじゃんけんのゲームであることを認識しません。 3 つの画像がすべて完成した場合にのみ、Gemini は正しく推測できます。

ビデオとブログで紹介されている推論プロセスを比較すると、人々にはまったく異なるやりとりの方法が示されます。ビデオで示されている「やりとり」のプロセスは発生しませんでした。

その後のデモンストレーションでは、太陽、土星、地球の落書きが描かれたスケッチが 3 つジェミニに示されました。動画では、ユーザーが「これが正しい順序ですか?」と質問し、ジェミニは「いいえ、太陽、地球、土星です」と答えました。元の動画では、ユーザーは「これが正しい順序ですか?」という文以外には何も情報を提供していないことに注意してください。ジェミニには答えがあります。

しかし、実際のプロンプト(書かれたもの)では、「これは正しい順序ですか?太陽からの距離を考慮して、理由を説明してください。」というものでした。ジェミニは、「正しい順序は、太陽、地球、土星です。」と答えました。太陽系の中心には太陽が最も近く、次に地球、そして土星が続きます。

ビデオでは、Gemini の回答には追加の支援が必要である可能性があるが、Google はそれを示しなかったと推測できます。

ビデオに示されている別の例では、紙のボールがカップ間で交換されますが、Gemini はそれを即座に直感的に検出して追跡します。

しかし、ブログでは、このプロセスを完了するのは依然として複雑です。

移動するたびに、大きなモデルと通信する必要があります。おそらく、Google の AI デモの機能はすべて誇張されていると考えるべきでしょう。

人々の疑問に対して、Google は直接それを認めたと答えました。

この記事が公開された後に公開されたソーシャルメディアの投稿で、Google DeepMindの研究担当副社長であるオリオール・ヴィニャルズ氏は、このビデオを録画する際にジェミニがどのように使用されたかを詳しく説明しました。

オリオール・ヴィニャルズ氏は、Google が Gemini に提供しているマルチモーダル機能と即時応答は、12 月 13 日に Pro アクセスが開始されると開発者に提供される予定だと述べた。ただし、デモ ビデオの内容は Ultra モデルを使用して実現されました。ビデオ内の人間の合図と AI 出力はすべて本物ですが、簡潔にするために短縮されています。

Google Gemini の共同責任者であるオリオール・ヴィニャルス氏は次のようにツイートした。

画像ソース: https://x.com/OriolVinyalsML/status/1732885990291775553?s=20

ネットユーザーはそれを信じていません。それは真実だと言っているのに、実際の大規模モデル推論速度ではないと言っているのは矛盾ではありませんか?

ジェミニは自社の従業員から批判され、プロ版はGPT-3.5に勝てなかった

ブルームバーグなどのメディアは、グーグルがデモ動画を宣伝していた一方で、自社の従業員からも批判があったと指摘した。特にアヒルを描く際、Gemini は描きながらリアルタイムに解析したり、ユーザーに話しかける際に人間の声で応答したりできるようでした。

GoogleのCEO、ピチャイ氏はデモを宣伝し、Geminiの潜在的かつ驚くべき機能を理解するには、実際に動作しているのを見るのが一番良いと語った。観客もデモを賞賛し、エキサイティングで非現実的だと評した。

画像出典: https://twitter.com/sundarpichai/status/1732433036929589301

しかし、すぐに Gemini は期待したほど優れておらず、デモのように敏感でインテリジェントであるとは期待できないことが指摘されました。グーグルの社員の中には、そこに「トリック」があると指摘した者もいた。

従業員はブルームバーグに対し、デモでは非現実的な絵が描かれており、ジェミニから驚くべき効果を出すのがいかに簡単かを誇張していると語った。

別の従業員は、デモには驚かなかったとし、同社が自社製品を位置付ける際にある程度のマーケティングの誇大宣伝には慣れていると語った。もちろん、すべての企業がこれを行います。その結果、LLM テクノロジーを使用したことのある従業員のほとんどは、デモを鵜呑みにしないことを知っていると彼は考えています。

Google DeepMindの製品担当副社長、イーライ・コリンズ氏はブルームバーグに対し、アヒルのお絵かきデモはまだ開発中の研究レベルの機能であり、少なくとも現時点では実際の製品ではないと語った。

グーグルの社員の中には、真実を明らかにせずにビデオを公開すると世間に誤解を与える可能性があるかどうか議論している者もいる。アヒルのビデオが不正に編集されたことを示唆するミームをシェアした人もいた。 「ビデオクリエイターはストーリーを伝える能力をより重視していると思います。」

デモビデオが一般の人々や社内の従業員から疑問視されていることに加えて、Gemini は本当に主張されているほど強力なのでしょうか?今回、Gemini には 3 つのバージョンがあることがわかっています。最も強力な Gemini Ultra、マルチタスクの Gemini Pro、タスク固有のエンドサイド Gemini Nano です。

現在、Google の ChatGPT のようなアプリケーション Bard は、Gemini Pro バージョンに無料でアップグレードでき、Gemini Ultra は来年初めに Bard Advanced を通じてユーザーに提供される予定です。

GPT-4との比較では、Googleが提供したデータによると、Gemini Ultraはあらゆる面でGPT-4を上回り、Proはほとんどの指標でGPT-3.5を上回っています。

しかし、実際の効果は何でしょうか? Twitter ユーザーの Brett Winton 氏は、Gemini Pro、Claude、GPT-3.5 を初めてベンチマークし、各モデルに 8 年生のストーリーの質問を与えました。彼の結論は、GPT-3.5 は満点、Claude は約 67 ポイント、Gemini Pro にはまったくそのような特徴がないというものです。

画像出典: https://twitter.com/wintonARK/status/1732527909376815419

3 つのモデルから得られた答えは次のとおりです。

左から右へ: Bard (Gemini Pro)、Claude、GPT-3.5。

この結果を見ると、「アップグレードされたが完全にはアップグレードされていない」というのが唯一の説明のようです。同氏は、ジェミニ・ウルトラが最終的に打ち上げられるまでその能力についてはコメントしないと述べた。

Gemini は新しいアーキテクチャを開拓し、トラフィックを集め、批判も受けました。では、Google の Microsoft への反撃計画は成功したようですね?

少なくとも投資家の観点からは、良いスタートだ。

グーグルの株価は木曜日に急騰し、時価総額は800億ドル増加した。 2月にGoogleがBardを立ち上げたとき、Googleの株価が1日で1000億ドル下落したことを覚えておくことが重要です。

Gemini は、Google が大規模モデルにおいて Microsoft や OpenAI との差を縮めるのに役立つと考えられています。

おそらく、Gemini のバージョン 1.0 はほんの始まりに過ぎず、私たちはまだ忍耐強く、大型モデルのさらなる技術的アップグレードを待つ必要があるでしょう。

<<: 

>>:  3Dタスク(知覚、推論、計画、行動)に精通した初の具現化されたジェネラリストエージェント

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

センスタイムは香港証券取引所に上場し、最悪の時期から脱却した。

【51CTO.comオリジナル記事】著者: 張傑本日2021年12月30日、SenseTimeの2...

インドの農業変革における人工知能の役割

農業はインドの人口の約58%の生計を支えています。漁業、林業、農業の総付加価値は2020年度で194...

...

ディープラーニングの将来の発展に向けた3つの学習パラダイム:ハイブリッド学習、コンポーネント学習、簡易学習

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

AI時代に従業員がIT業務の価値を証明する方法

[[251301]]ロボットがあなたの仕事を奪う可能性はありますか? あなたはロボットの仕事を手伝う...

2018 年のネットワーク イノベーションを推進する 5 つのエンジン

IT 分野は革新を止めたことがなく、ネットワーク分野も例外ではありません。今日は、ネットワーク革新を...

人工知能を使って手作業を置き換え、コストを削減し、効率を高めることは、まさに賢いことだ

「大丈夫ですよ。」 15年間工場で働いてきた「古い」労働者として、今日は人工知能についての私の見解を...

最高の顔認識アルゴリズムでもマスクによって妨害される可能性がある:研究

海外メディアの報道によると、研究者らは、マスクはCOVID-19などの空気感染する病気の拡散を効果的...

...

AIヒーロー | フェイフェイ・リーのGoogle退社秘話

スタンフォード大学人工知能研究所の公式ツイッターによると、11月20日、フェイフェイ・リー氏がスタン...

ソフトウェア定義車の基礎 - FOTA および SOTA ソリューション

OTAとは何ですか? OTA(Over-the-Air Technology)は中国語でエアダウンロ...

AIがビジネスとマーケティングの未来をどう形作るのか

ここで、AI がビジネスとマーケティングの未来をどのように形作っていくのかを見てみましょう。有名な諺...