ジェミニはソラの動画がAI生成だと一目でわかるのか？数百万のトークンのコンテキスト機能がGPT-4を圧倒

Google Gemini 1.5 が、その見出しをさらった「犯人」であるSoraと出会ったら何が起こるでしょうか?

過去2日間、内部テスト資格を取得したAI界の大物たちが、ネットユーザーの大多数を対象に一連のオンラインテストを実施しました。

そこで、ガボール・チェルレ氏はジェミニ1.5に、有名な桜の雪景色のビデオの分析を依頼しました。

この点に関して、Gemini 1.5 は次のような評価を与えました。

この動画では、雪に覆われた日本の街路と満開の桜が映し出されています。しかし、いくつかの明らかな問題から、このビデオは AI によって制作された可能性があることがわかります。

まず、大雪にもかかわらず、桜はまだ咲いていました。通常、桜は気候が暖かく雪が降らない春に咲きます。

第二に、雪が降るパターンは現実の雪の降り方とは一致せず、過度に規則的です。

さらに、大雪にもかかわらず、ビデオに映っている人々は冬物を着ていなかった。

全体的に、ビデオの映像は素晴らしいものの、これらの問題から、実際のシーンではないことが示唆されます。

ビデオ AI トレースの分析精度に関して言えば、Gemini の回答は非常に適切であり、その認識および理解能力が確かに非常に優れていることを示しています。

偶然にも、The Rundown AIの創設者であるRowan Cheung氏は、ジャングルを歩く猫のビデオをテストしました。

この点に関して、Gemini 1.5 は次のような評価を与えました。

このビデオは人工知能（AI）によって作成された可能性もあるが、断言するのは難しい。

猫の自然で滑らかな動きや、リアルな照明と影の効果など、いくつかの詳細はビデオが本物であることを示しているようです。

しかし、猫の目が異常に大きくなっていたり、毛の質感が完璧すぎるなど、疑問に思う細部もいくつかある。

結局のところ、ビデオが本物か偽物かは視聴者自身が判断することになります。

確かに、ソラの動画生成は本物と偽物の区別がつかないほどにまで達しており、ジェミニの分析は基本的に的を射ており、根拠もしっかりしている。

しかし、これら2人の大物による発言では、ビデオがAIによって生成されたと明示的に述べられていたか、2つが関連している可能性があることが示唆されていたことに注意すべきである。

1,000,000 トークンのコンテキストで何ができるでしょうか?

モデルのコンテキストウィンドウが大きいほど、特定のプロンプトを処理するときに取り込める情報が多くなり、出力の一貫性、関連性、有用性が高まることはよく知られています。

今日、Google はこのフィールドを 100 万トークン (制限は 1,000 万トークン) に「ロール」することに成功し、コンテキストウィンドウの最長記録を樹立しました。

これを基に、これまで想像もできなかった多くのアプリケーションが現実のものとなりました。

たとえば、1 時間のビデオ、11 時間のオーディオ、30,000 行を超えるコードベース、または 700,000 語を超えるテキストを一度に処理します。

その結果、奇妙なテストが多数行われました。

たとえば、前述のRowan Cheungは、Gemini 1.5の理解力をテストするために多くの長いビデオを使用しました。

まず、彼は今年のNBAダンクコンテスト全体をアップロードし、どのダンクが最高得点だったかを尋ねました。

Gemini 1.5 は、非常に長いビデオから 50 ポイントの満点を獲得したダンクを見つけ出し、そのダンクの詳細を明確に説明することができました。

マック・マククラングの最後のダンクは、その夜の最高得点、完璧な50点を獲得した。彼は2人を飛び越え、バックボードからボールをはじき、右手でダンクシュートを決めてフィニッシュした。

その後、彼はジェミニ 1.5 に『インターステラー』と『アド・アストラ』の完全な映画脚本を理解させ、比較させました。

Gemini 1.5 が 2 つの映画のテキストコンテンツ全体を理解して比較し、どの映画を見るべきかを決めるのに役立てます。

Gemini 1.5 は最終的に次のように出力します:

アド・アストラ: 結局のところ、これは個人の成長と人間関係の重要性についての物語であり、宇宙の無関心に直面しても、意味と他者とのつながりを見つけることが重要だということを示しています。

インターステラー: より楽観的で希望に満ちたこの作品は、人間の創意工夫の力と、一見克服不可能と思われる困難に直面した際の忍耐力の重要性を強調しています。

次にどの映画を見るかは個人の好みによって異なります。

感情的なテーマに焦点を当てた、より内省的で登場人物主導のストーリーを探しているなら、『アド・アストラ』は良い選択かもしれません。

人類の生存に焦点を当てた壮大なアクションアドベンチャーがお好みなら、『インターステラー』のほうが魅力的かもしれません。

どちらの映画も、宇宙探査と人類の経験について、独特で考えさせられる視点を提示しています。

次に、彼はジェミニに、英語の一節を世界で 2,000 人以下しか話さない言語 (Satran) に翻訳するよう依頼しました。

その後、ジェミニ 1.5 は、いくつかの推論を行った後、英語の小冊子のすべての内容を Satran にすばやく翻訳しました。

このプロセスは本当に素晴らしいです。

それから彼はジェミニに、長い紙の中にあるアイコンの意味を見つけて理解するように頼みました。

Gemini は、DeepMind の Gemini 1.5 Pro 論文から「表 8」を抜粋し、このグラフの意味を説明します。

表8の主な内容は次のとおりです。

Gemini 1.5 Pro は、すべてのコアテキスト機能において Gemini 1.0 Pro に比べて大幅に改善されています。これは、モデルの機能が大幅に向上したことを示しています。

Gemini 1.5 Pro は、トレーニングコンピューティングの必要量が少ないにもかかわらず、多くのベンチマークで Gemini 1.0 Ultra と同等かそれ以上のパフォーマンスを発揮します。これは、1.5 Pro モデルの効率性の向上を強調しています。

Gemini 1.5 Pro は、さまざまなタスクや言語にわたって優れたパフォーマンスを示し、優れた一般化機能を備えていることを示しています。

要約すると、表 8 は、Gemini 1.5 Pro が長いテキストの理解に優れているだけでなく、前身のコアテキスト機能を維持または改善していることを証明しています。これにより、さまざまなテキストベースのタスクに適した強力で多用途なモデルになります。

最後に、彼はジェミニに『インターステラー』の脚本全体を理解させ、脚本のクライマックスからセリフを抜き出すように依頼した。

ジェミニ 1.5 は、インターステラーのトランスクリプトから最も感動的な 3 行を出力します。

1. 「人間は地球に生まれましたが、私たちの運命はそれ以上のものです。」 - クーパー

この一文は、未知を探求し現状を超越しようとする人類の不屈の精神を深く表現しています。それは、私たちの可能性は現在の状況によって制限されるものではなく、困難を克服し、より高い目標を目指す能力が十分にあることを私たちに思い出させてくれます。

2. 「愛は時間と空間を超えて私たちの心に触れることができる唯一の力です。」 - ブランド

この引用は、距離や時間を超えて私たちを結びつける愛の力を明らかにしています。それは、愛が宇宙の根本的な力であり、逆境の中で私たちに道を示し、希望を与えてくれることを示唆しています。

3. 「昔々、私たちは星空を見上げ、広大な宇宙における自分たちの居場所を夢見ていました。しかし今では、私たちは目の前の些細なことに執着し、崇高な理想を忘れています。」 - クーパー

この引用は、好奇心、追求、そして野心の大切さを愛情を込めて思い出させてくれます。人類が希望を持って星を探検した過去と、人類が日々の課題に対処するのに忙しく、将来への希望を失ってしまった現在を対比しています。それは、私たちに未知への好奇心を再発見させ、より良い未来を追求する意欲を与えてくれます。

ジェミニ1.5の性能限界テスト

その後、Rowan Cheung は Gemini 1.5 でさらに過激なテストをいくつか実施しました。

彼はジェミニに『ハリー・ポッターと賢者の石』を全部読ませました（合計741,028トークン）。

プロンプト: 「この本の中で最も重要な 50 個 (または 100 個) のアイデアまたは文章を時系列順にリストし、その重要度を 1 から 10 の間で評価してください。」

このタスクを完了するのに 4 分かかりました。

その後、彼はヘタフェ戦でのメッシの典型的な一対一のゴールのビデオを入力した。

プロンプト: 「なぜこのゴールはそんなに有名なのか?」

このゴールがなぜそれほど有名になったのかは説明されていないが、メッシ選手の特定は成功したものの、ヘタフェの選手はレアル・マドリードの選手であると特定した。

この写真は、史上最高のサッカー選手の一人であるリオネル・メッシがバルセロナの最大のライバルの一つであるレアル・マドリードと対戦する様子を捉えたことで有名になった。この写真では、優れた視覚効果とともに、メッシのスキルと運動能力が十分に表現されています。

彼はまた、難しい数学と論理的推論のテストも受けました。

プロンプト: 「点 P が垂直線上を移動する場合、時刻 t (t ≥ 0) における点の速度 v(t) と加速度 a(t) は次の条件を満たします。(a) 0 ≤ t ≤ 2 の場合、v(t) = 2t^3 - 8t。(b) t ≥ 2 の場合、a(t) = 6t + 4。時刻 t = 0 から t = 3 までの点 P が移動する合計距離を計算してください。」

しかし、上司はここでの回答が正しいかどうかはわからないと述べたが、ネットユーザーのコメントによると、この回答は間違っていたという。

次に彼は、ジェミニ 1.5 に、それぞれが「Apple」で終わる 10 個の文を作成するように依頼しました。

このタスクは、チャットボットの機能をテストする非常に一般的な方法です。

プロンプト: 「「apple」で終わる文を 10 個書いてください。」

結局、ジェミニ 1.5 はこの課題を完全に達成できませんでした。

そこで彼は GPT-4 にこの問題も実行するように指示しましたが、GPT-4 も正しい結果を返しませんでした。

彼はまた、本の主人公の画像説明を取得するために、本「The Alchemist」の完全な PDF テキストを Gemini 1.5 に入力しました。

そして、この説明を使用して、DALL·E 3 で画像を生成しました。

プロンプト: 「本全体を読んだ後、主人公のイメージに基づいた説明を考え出すのを手伝ってください。AI画像ジェネレーターで使用したいです。」