Google Gemini ビデオが偽物だと暴露!マルチモーダル動画は実際に編集され、吹き替えられています。彼らは「不正行為」によって GPT-4 を破ったのでしょうか?

Google Gemini ビデオが偽物だと暴露!マルチモーダル動画は実際に編集され、吹き替えられています。彼らは「不正行為」によって GPT-4 を破ったのでしょうか?

Googleのプロモーションビデオは実は偽物だった?

昨日Googleが公開したGeminiのプロモーションビデオでは、ワンショットで撮影された6分間のインタラクティブビデオに誰もが驚嘆した。

写真

1日で720万回再生されました。ネットユーザーたちは、ジェミニはいつでも何でも詳しく説明してくれる友達のようだと絶賛した。

写真

動画では、ジェミニが人間の動きをリアルタイムで感知し、音声に直接反応できる様子が映し出されている。

しかし、デモの信憑性に疑問を抱く人が増えている。

ブルームバーグのパーミー・オルセン記者が最初にこのビデオが偽物かどうかを疑問視した。

写真

その後、Googleの公式ブログでも説明が発表された。

はい、ビデオにはポストプロダクションと編集の要素があります。

公式の技術文書によると、ジェミニのすべてのインタラクションはリアルタイムで認識されるわけではなく、プロンプトワードを通じて尋ねられるとのことです。例えば:

写真

このビデオでは、ジェミニは人間がじゃんけんをしているのを直接理解できるようです。

しかし、実際のプロセスは、ハサミのジェスチャーをしている手の写真を Gemini にアップロードし、何が見えるかを尋ねることです。すると、その返事が人間の声で読み上げられました。

じゃんけんの動画は、3枚の写真が順番にジェミニに送られ、3枚の写真をつなげて推測するというもの。そのままじゃんけんをしているという答えが返ってくる。

したがって、Gemini は実際にビデオを理解したわけではなく、3 枚の写真を理解して推論しただけです。

写真

ある人間がジェミニに「はさみ」の写真を送ると、ジェミニはこう返信した。「これは2本の指を伸ばすジェスチャーのようで、一般的に数字の2を表します。」次に、人間は「じゃんけん」の手振りの写真をさらに 3 枚送信し、この 3 枚の写真が一体何を意味するのかを尋ねました。ジェミニは、これは「じゃんけん」のゲームだと言ったばかりです

同様に、惑星の識別のデモンストレーションでは、ビデオは、ジェミニに直接「この順序は正しいですか?」と尋ねると、正しくなく、太陽、地球、土星であるはずだと答えるような印象を与えます。

写真

しかし実際には、ジェミニに「この順序は正しいですか?太陽からの距離を考慮して、理由を説明してください」というプロンプトを出したのは Google でした。するとジェミニは、このような文章で答えました。

写真

多くのネットユーザーも、Google の意図的な誤解を招くプレゼンテーションにより、ユーザーはモデルの真の能力に疑問を抱くようになると考えています。

写真

結局のところ、製品はプロモーションビデオの中に永遠に留まることはできず、最終的にはユーザーに手渡されて体験してもらわなければなりません。

このビデオの最も誤解を招く点は、Gemini がビデオ情報をリアルタイムで読み取り、独自の理解を通じてユーザーの質問を直接推測し、直接回答できるとユーザーに誤解させているように見えることです。

実際には、Google の従業員が画像を読み取って適切なプロンプト語を設計することで、Gemini にこれらの応答を生成させることができます。

技術的な観点から言えば、画像を読み取る能力とビデオを理解する能力の間に技術的なギャップはありません。

しかし、製品実装の観点から見ると、画像を読むことと動画をリアルタイムで理解できることを同一視し、リアルタイム性を過度に強調してインタラクションプロセスの遅延を圧縮することは、ほとんど虚偽の広告と理解される可能性があります。

適切なプロンプトワードエンジニアリングが必要かどうかは、モデル機能を評価する上で重要な問題です。

Google によるこれらの「後処理」は、同社が Gemini を競合他社よりも「見栄え」良くしたいと本当に望んでいることを示しているに過ぎません。

結局のところ、早く立ち上がったが遅れて到着した Google は、大規模なモデルでのトラフィックを本当に必要としているのです。

GoogleはYouTubeの説明文で、モデルが実際よりも速く反応しているように見せるために動画が遅れて編集されたことも認めた。

オルソン氏は、Google のマーケティングは非常に巧妙なので、AI の誇大宣伝にはもっと注意し、冷静な判断力を保つべきだと述べた。

写真

Google、残念

もともと、昨日のジェミニのデモンストレーションは、すぐに皆を驚かせ、マルチモーダル理解の分野における刺激的な展示でした。

偽造であることが暴露された今、ユーザーは Google の誠実さに対する信頼を失うことになるのは明らかです。 Google のこの動きは、コストに見合うものではありません。

実際、Gemini はビデオに示されている応答を出力しました。

写真

ただし、ビデオの編集効果により、ユーザーは Gemini の操作速度、精度、基本モードを誤解する可能性があります。

じゃんけんのデモと、Gemini による 3 つの画像の実際の認識は、まったく異なるインタラクションです。

前者は直感的な反応であり、Gemini は抽象的なアイデアを即座に捉えることができます。一方、後者はヒントが満載の慎重に設計されたインタラクションです。これは確かに Gemini の能力を反映していますが、多くの制限もあります。

もしビデオの冒頭で「これは研究者がジェミニの相互作用をテストする様式化されたデモンストレーションです」と明確に述べられていたら、一般の人々の期待は低くなり、今日ほど失望することはなかっただろう。

さらに、このビデオは「Hands-on with Gemini」というタイトルが付けられており、ビデオで紹介されているのは Gemini との本来のやり取りであることが示唆されています。しかし、現実には、双子座の関与のレベルは誇張されています。

ビデオでは、ビデオ内のモデルが Gemini のどのバージョンであるかは明確に述べられていません。

全体的に、このビデオは半分真実であり、ある程度の真実の要素は含まれているものの、現実をまったく反映していません。

ネットユーザーは深い理解を示した

Perplexity AIのCEOが、Google Geminiに関するネットユーザーの偽動画を客観的に分析した。

ジェミニの打ち上げをめぐっては、2つの過激なグループが存在します。

極端な意見 1: 「DeepMind は評価とデモンストレーションを偽造した。Gemini はひどい。」

極端な見解 2: 「OpenAI は終了しました。Google が戻ってきました。Bard は Gemini を無料で実行し、コンピューティング チップの利益率により ChatGPT に勝つでしょう。」

実際のところ、Gemini は素晴らしいモデルであり、GPT-4 に真に匹敵する最初のモデルであり、Google の真の成果の 1 つです。特に、これは単なる集中型モデル(ネイティブ モデル)です。

今回は、Google のマーケティング手法が行き過ぎだったとしか言えませんが、DeepMind が注目を集める広報を好むことはよく知られています。

Google のビデオで紹介されたマルチモーダル機能は、実際には 1 年以内に実現される可能性があります。

写真

あるネットユーザーはこれに深く同意し、グーグルを「偽」ビデオと決めつけようとする人が多すぎると述べた。

写真

他の人々は、この誇大宣伝は十分に理解しているが、結局のところ、マイクロソフトの OpenAI に対する Google の反撃は遅すぎたと述べた。

写真

GPT-4を破るには「不正行為」が不可欠

さらに、Google が公開したこの表は、Gemini Ultra がほとんどの標準ベンチマークで GPT-4 を上回っていることを示しています。

写真

しかし、この比較は公平ではありません。

GPT-4 のスコア 86.4% は、業界の評価基準である「5 ショット」に基づいています。

しかし、Gemini Ultra の 90% のスコアは、Google の研究者が「32 サンプルの思考連鎖」に基づいて開発した手法に基づいています。

同じ質問に対して、Gemini Ultra は 32 の回答とそれらの回答の根拠を生成します。次に、モデルは最も一般的な回答を最終的な回答として選択します。

おそらく、この新しい方法により、ジェミニはより良く「推論」できるようになるのでしょう。

ただし、業界標準の 5 ショット MMLU を使用すると、GPT-4 の 86.4% は Gemini Ultra の 83.7% よりも高くなります。

HuggingFace のテクニカル ディレクターである Philipp Schmid 氏は、Gemini のテクニカル レポートからデータを特別に取得し、新しいグラフを作成しました。5 ショットを使用した場合、Gemini のスコアは実際には 90.0% ではなく 83.7% です。

写真

さらに、Gemini Ultra は GPT-4 に対してわずか数パーセントの優位性しかありませんが、GPT-4 はほぼ 1 年前に OpenAI によって開発されました。

海外メディアのThe Informationは「ジェミニはグーグルが言うほど優れていないかもしれない」と題した記事を掲載し、ジェミニを競合他社より良く見せるためにグーグルの従業員が特別な措置を講じたため、過度のプレッシャーを受けているに違いないと述べた。

写真

Google が言ったように、Gemini Ultra が来年 1 月にリリースされた場合、SOTA は長く続かないかもしれません。

ご存知のとおり、OpenAI の GPT-5 が間もなく登場するはずです。

写真

どうやら内部関係者がサム・アルトマンにタグを付け、赤ちゃんのことをどれくらい秘密にしておくつもりか尋ねたようだ。早く取り出してみませんか?

ユーザートライアル体験

私は Gemini に、電気トラックに乗って森の中でキャンプをしている男性の絵を描くように頼みました。そして、これが生成されたものです。

写真

まだ若干の修正と改善の余地が必要です。

写真

このネットユーザーは、Gemini Pro をベースにした Bard の独自のテスト結果を投稿し、多くの事実上の問題にまだ誤りがあることを発見しました。

彼はバード氏に2023年のアカデミー賞について2度質問したが、バード氏は2つの異なる誤った受賞者リストを提示した。

写真

別のネットユーザーが翻訳に関する別の質問をしましたが、結果もあまり正確ではありませんでした。

写真

どうやら、言語内の単語の数には非常に鈍感で、単語を間違って数えてしまうことが多いようです。

写真

Google が重視しているコーディング能力に関しては、Bard のパフォーマンスが十分ではないようです。Stackoverflow に該当する回答がないからでしょうか。

写真

他にも Google の動作を模倣し、ChatGPT に MP4 からビデオ フレームを抽出させてビデオを解釈させるものもあります...

写真

ChatGPT はビデオからフレームを自律的に抽出し、ネットユーザーは対応する写真を 6 枚アップロードして ChatGPT に具体的な説明を求めます。

写真

写真

写真

写真

双子座の時代が到来

Google DeepMindのリーダーであるデミス・ハサビス氏も非常に興奮しており、「ジェミニの時代が到来した」と語った。

写真

ハサビス氏は、Wiredとの最新インタビューで、Googleが本日発表した人工知能モデル「ジェミニ」は人工知能にとって未開拓の道を切り開き、新たな大きな進歩をもたらす可能性があると率直に述べた。

「神経科学者でありコンピューター科学者である私は、何年もの間、私たちのすべての感覚が相互作用し世界を理解する方法にインスピレーションを得た新世代の AI モデルを作成したいと考えていました。」

「ジェミニは、この種の『マルチモーダル』モデルに向けた大きな一歩です。」

写真

同氏はさらに、「これまでのところ、ほとんどのモデルは個別のモジュールをトレーニングし、それらをつなぎ合わせることでマルチモーダル機能を実現してきました」と語った。

「これは一部のタスクには適していますが、マルチモーダル空間で深く複雑な推論を行うことは不可能になります。」

これは OpenAI の技術への言及のようです。

ChatGPT のマルチモーダル機能は、GPT-4、DALL·E 3、Whisper などの複数のモデルを組み合わせることで実現されることは周知の事実です。

今年 5 月に開催された Google Developers Conference I/O で、ピチャイ氏は初めて、Google が Gemini と呼ばれる新しい、より強力な PaLM の後継機を開発中であると発表した。

写真

ジェミニという名前にも深い意味があります。それは、Google BrainとDeepMindの2つのチーム研究所の統合を記念し、NASAのジェミニに敬意を表すためです。

過去7か月間、双子座に関するさまざまな新事実が次々と明らかになった。

現在、Googleは驚異的なスピードでGeminiを開発しており、まさに年末を前に猛反撃を仕掛けている。

ハサビス氏は、テキスト以外のデータも含め、さまざまな形式のデータを処理する新しいモデルの能力は、当初からプロジェクトのビジョンの重要な部分であったと述べた。

多くの AI 研究者は、さまざまな形式のデータを活用できることは自然知能の重要な能力であり、機械には欠けているものだと考えています。

ChatGPT などの大規模な AI モデルは、強力なインターネット データから学習することで、柔軟で強力な一般化機能を獲得しました。

しかし、ChatGPT や類似のチャットボットは同じ技術を使用して物理的な世界について話し合ったり質問に答えたりすることができますが、その表面的な理解はすぐに崩れてしまいます。

写真

多くの人工知能の専門家は、機械知能を大きく進歩させるには、AI システムに物理的現実の実体を与える、つまり「具現化」する必要があると考えています。

ハサビス氏は、グーグル・ディープマインドはすでにジェミニとロボット工学を組み合わせて物理的に世界とやりとりする方法を研究していると述べた。

「真にマルチモーダルであるためには、タッチと触覚フィードバックを含める必要があります。これらの基礎モデルをロボット工学に適用することには大きな可能性があり、私たちはそれを積極的に研究しています。」

Google はすでにこの方向へ小さな一歩を踏み出しています。

同社は5月に、Atariゲームのプレイ、画像へのキャプションの追加、ロボットアームを使ったブロックの積み上げなど、さまざまなタスクの実行を学習できるAIモデル「Gato」を発表した。

今年 7 月、Google の RT-2 ロボット モデルは、ロボットがアクションを理解して実行できるように言語モデルを使用しました。

AI エージェントの信頼性を高めるには、その原動力となるアルゴリズムをよりスマートにする必要があります。

少し前に、OpenAIが「Q*」と呼ばれるプロジェクトを開発していることが明らかになった。ネットユーザーは、このプロジェクトがAlphaGoの中核技術である「強化学習」を使用するのではないかと推測した。

しかし、ハサビス氏は、グーグルが現在同様の方向で研究を行っていると述べた。

AlphaGo の進歩は、今日発表されたモデルのように、将来のモデルにおける計画と推論の改善に役立つことが期待されます。私たちは、Gemini の将来のバージョンに導入する興味深い革新に取り組んでいます。

「来年、ふたご座は劇的に進化するでしょう。」

ネットユーザーが言っているように、GPT-5 が誕生する日はそう遠くないようです。

写真

現在、Google には Gemini、Microsoft には GPT、Meta には LLaMA、Anthropic には Claude があります。これは Apple iPhone 時代の終わりを意味するのでしょうか?

写真

参考文献:

https://twitter.com/parmy/status/1732811357068615969

https://techcrunch.com/2023/12/07/googles-best-gemini-demo-was-faked/

https://developers.googleblog.com/2023/12/how-its-made-gemini-multimodal-prompting.html

<<:  Google BardとChatGPT、どちらを選ぶべきでしょうか?

>>:  マスク氏の Grok 大型モデルがプレイ可能になりました!彼の口は彼自身と同じくらい悪い。

ブログ    
ブログ    

推薦する

AIの過去と現在を理解するのに役立つ、60年間の技術の簡単な歴史

[[269852]]人類の進化の歴史は、人類が道具を作り、使用してきた歴史です。さまざまな道具は人類...

量子コンピューティングとブロックチェーンの未来

量子コンピューティングはブロックチェーンを破壊するのか、それともより安全にするのか? 01 序文コン...

...

...

金融ロボットの解読:毒ではなくアシスタント

[[231414]]会計、税務、監査などの業務でロボットが人間に取って代わったらどうなるか想像してみ...

AIの力を集めよう!中国のチームが初めてネイチャー誌に中国のAIの状況に関する論文を発表した。

[[332234]] AI若手科学者連盟の主導のもと、国内の大学教授15名とビジネス界のAIリーダ...

2019年のAIインデックスレポートが発表されました。AI分野では大きな進歩がありましたが、結果はまちまちです。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Llama 2 の中国語版はオープンソースであり、言語モデルとマルチモーダルモデルの両方を備えているため、完全に商用利用可能です。

7月19日、Metaはついに無料の商用版Llama 2をリリースし、オープンソースの大規模モデルの...

寒波警報(黄色)発令中、ドローンの使用にはご注意ください!

11月3日、中央気象台は今年初の黄色寒波警報を発令し、最強の寒波が来ています!警報によると、11月...

防衛とセキュリティの再定義に貢献するAIスタートアップ

人工知能の誕生は第二次世界大戦中に連合国が暗号解読機を開発し、それがナチスドイツのエニグマ暗号を解読...

採血時に血管が見つからない?人工知能には解決策がある

[[318810]]ビッグデータダイジェスト制作出典: rutgers.edu編纂者:張大毓如、夏亜...

...

...

30億枚の写真データベースを持つ顔認識スタートアップがハッカーの攻撃を受ける! 600以上の法執行機関と銀行の情報が盗まれた

多数の法執行機関と契約している顔認識会社が、ハッキングされ顧客リスト全体が盗まれたと報告した。デイリ...