ジェミニはソラの動画がAI生成だと一目でわかるのか?数百万のトークンのコンテキスト機能がGPT-4を圧倒

ジェミニはソラの動画がAI生成だと一目でわかるのか?数百万のトークンのコンテキスト機能がGPT-4を圧倒

Google Gemini 1.5 がその見出しをさらった「犯人」であるSoraと出会ったら何が起こるでしょうか?

過去2日間、内部テスト資格を取得したAI界の大物たちが、ネットユーザーの大多数を対象に一連のオンラインテストを実施しました。

そこで、ガボール・チェルレ氏はジェミニ1.5に、有名な桜の雪景色のビデオの分析を依頼しました。

この点に関して、Gemini 1.5 は次のような評価を与えました。

この動画では、雪に覆われた日本の街路と満開の桜が映し出されています。しかし、いくつかの明らかな問題から、このビデオは AI によって制作された可能性があることがわかります。

まず、大雪にもかかわらず、桜はまだ咲いていました。通常、桜は気候が暖かく雪が降らない春に咲きます。

第二に、雪が降るパターンは現実の雪の降り方とは一致せず、過度に規則的です。

さらに、大雪にもかかわらず、ビデオに映っている人々は冬物を着ていなかった。

全体的に、ビデオの映像は素晴らしいものの、これらの問題から、実際のシーンではないことが示唆されます。

ビデオ AI トレースの分析精度に関して言えば、Gemini の回答は非常に適切であり、その認識および理解能力が確かに非常に優れていることを示しています。

偶然にも、The Rundown AIの創設者であるRowan Cheung氏は、ジャングルを歩く猫のビデオをテストしました。

この点に関して、Gemini 1.5 は次のような評価を与えました。

このビデオは人工知能(AI)によって作成された可能性もあるが、断言するのは難しい。

猫の自然で滑らかな動きや、リアルな照明と影の効果など、いくつかの詳細はビデオが本物であることを示しているようです。

しかし、猫の目が異常に大きくなっていたり、毛の質感が完璧すぎるなど、疑問に思う細部もいくつかある。

結局のところ、ビデオが本物か偽物かは視聴者自身が判断することになります。

確かに、ソラの動画生成は本物と偽物の区別がつかないほどにまで達しており、ジェミニの分析は基本的に的を射ており、根拠もしっかりしている。

しかし、これら2人の大物による発言では、ビデオがAIによって生成されたと明示的に述べられていたか、2つが関連している可能性があることが示唆されていたことに注意すべきである。

1,000,000 トークンのコンテキストで何ができるでしょうか?

モデルのコンテキスト ウィンドウが大きいほど、特定のプロンプトを処理するときに取り込める情報が多くなり、出力の一貫性、関連性、有用性が高まることはよく知られています。

今日、Google はこのフィールドを 100 万トークン (制限は 1,000 万トークン) に「ロール」することに成功し、コンテキスト ウィンドウの最長記録を樹立しました。

これを基に、これまで想像もできなかった多くのアプリケーションが現実のものとなりました。

たとえば、1 時間のビデオ、11 時間のオーディオ、30,000 行を超えるコード ベース、または 700,000 語を超えるテキストを一度に処理します。

その結果、奇妙なテストが多数行われました。

たとえば、前述のRowan Cheungは、Gemini 1.5の理解力をテストするために多くの長いビデオを使用しました。

まず、彼は今年のNBAダンクコンテスト全体をアップロードし、どのダンクが最高得点だったかを尋ねました。

Gemini 1.5 は、非常に長いビデオから 50 ポイントの満点を獲得したダンクを見つけ出し、そのダンクの詳細を明確に説明することができました。

マック・マククラングの最後のダンクは、その夜の最高得点、完璧な50点を獲得した。彼は2人を飛​​び越え、バックボードからボールを​​はじき、右手でダンクシュートを決めてフィニッシュした。

その後、彼はジェミニ 1.5 に『インターステラー』と『アド・アストラ』の完全な映画脚本を理解させ、比較させました。

Gemini 1.5 が 2 つの映画のテキスト コンテンツ全体を理解して比較し、どの映画を見るべきかを決めるのに役立てます。

Gemini 1.5 は最終的に次のように出力します:

アド・アストラ: 結局のところ、これは個人の成長と人間関係の重要性についての物語であり、宇宙の無関心に直面しても、意味と他者とのつながりを見つけることが重要だということを示しています。

インターステラー: より楽観的で希望に満ちたこの作品は、人間の創意工夫の力と、一見克服不可能と思われる困難に直面した際の忍耐力の重要性を強調しています。

次にどの映画を見るかは個人の好みによって異なります。

感情的なテーマに焦点を当てた、より内省的で登場人物主導のストーリーを探しているなら、『アド・アストラ』は良い選択かもしれません。

人類の生存に焦点を当てた壮大なアクションアドベンチャーがお好みなら、『インターステラー』のほうが魅力的かもしれません。

どちらの映画も、宇宙探査と人類の経験について、独特で考えさせられる視点を提示しています。

次に、彼はジェミニに、英語の一節を世界で 2,000 人以下しか話さない言語 (Satran) に翻訳するよう依頼しました。

その後、ジェミニ 1.5 は、いくつかの推論を行った後、英語の小冊子のすべての内容を Satran にすばやく翻訳しました。

このプロセスは本当に素晴らしいです。

それから彼はジェミニに、長い紙の中にあるアイコンの意味を見つけて理解するように頼みました。

Gemini は、DeepMind の Gemini 1.5 Pro 論文から「表 8」を抜粋し、このグラフの意味を説明します。

表8の主な内容は次のとおりです。

Gemini 1.5 Pro は、すべてのコアテキスト機能において Gemini 1.0 Pro に比べて大幅に改善されています。これは、モデルの機能が大幅に向上したことを示しています。

Gemini 1.5 Pro は、トレーニング コンピューティングの必要量が少ないにもかかわらず、多くのベンチマークで Gemini 1.0 Ultra と同等かそれ以上のパフォーマンスを発揮します。これは、1.5 Pro モデルの効率性の向上を強調しています。

Gemini 1.5 Pro は、さまざまなタスクや言語にわたって優れたパフォーマンスを示し、優れた一般化機能を備えていることを示しています。

要約すると、表 8 は、Gemini 1.5 Pro が長いテキストの理解に優れているだけでなく、前身のコアテキスト機能を維持または改善していることを証明しています。これにより、さまざまなテキストベースのタスクに適した強力で多用途なモデルになります。

最後に、彼はジェミニに『インターステラー』の脚本全体を理解させ、脚本のクライマックスからセリフを抜き出すように依頼した。

ジェミニ 1.5 は、インターステラーのトランスクリプトから最も感動的な 3 行を出力します。

1. 「人間は地球に生まれましたが、私たちの運命はそれ以上のものです。」 - クーパー

この一文は、未知を探求し現状を超越しようとする人類の不屈の精神を深く表現しています。それは、私たちの可能性は現在の状況によって制限されるものではなく、困難を克服し、より高い目標を目指す能力が十分にあることを私たちに思い出させてくれます。

2. 「愛は時間と空間を超えて私たちの心に触れることができる唯一の力です。」 - ブランド

この引用は、距離や時間を超えて私たちを結びつける愛の力を明らかにしています。それは、愛が宇宙の根本的な力であり、逆境の中で私たちに道を示し、希望を与えてくれることを示唆しています。

3. 「昔々、私たちは星空を見上げ、広大な宇宙における自分たちの居場所を夢見ていました。しかし今では、私たちは目の前の些細なことに執着し、崇高な理想を忘れています。」 - クーパー

この引用は、好奇心、追求、そして野心の大切さを愛情を込めて思い出させてくれます。人類が希望を持って星を探検した過去と、人類が日々の課題に対処するのに忙しく、将来への希望を失ってしまった現在を対比しています。それは、私たちに未知への好奇心を再発見させ、より良い未来を追求する意欲を与えてくれます。

ジェミニ1.5の性能限界テスト

その後、Rowan Cheung は Gemini 1.5 でさらに過激なテストをいくつか実施しました。

彼はジェミニに『ハリー・ポッターと賢者の石』を全部読ませました(合計741,028トークン)。

プロンプト: 「この本の中で最も重要な 50 個 (または 100 個) のアイデアまたは文章を時系列順にリストし、その重要度を 1 から 10 の間で評価してください。」

このタスクを完了するのに 4 分かかりました。

その後、彼はヘタフェ戦でのメッシの典型的な一対一のゴールのビデオを入力した。

プロンプト: 「なぜこのゴールはそんなに有名なのか?」

このゴールがなぜそれほど有名になったのかは説明されていないが、メッシ選手の特定は成功したものの、ヘタフェの選手はレアル・マドリードの選手であると特定した。

この写真は、史上最高のサッカー選手の一人であるリオネル・メッシがバルセロナの最大のライバルの一つであるレアル・マドリードと対戦する様子を捉えたことで有名になった。この写真では、優れた視覚効果とともに、メッシのスキルと運動能力が十分に表現されています。

彼はまた、難しい数学と論理的推論のテストも受けました。

プロンプト: 「点 P が垂直線上を移動する場合、時刻 t (t ≥ 0) における点の速度 v(t) と加速度 a(t) は次の条件を満たします。(a) 0 ≤ t ≤ 2 の場合、v(t) = 2t^3 - 8t。(b) t ≥ 2 の場合、a(t) = 6t + 4。時刻 t = 0 から t = 3 までの点 P が移動する合計距離を計算してください。」

しかし、上司はここでの回答が正しいかどうかはわからないと述べたが、ネットユーザーのコメントによると、この回答は間違っていたという。

次に彼は、ジェミニ 1.5 に、それぞれが「Apple」で終わる 10 個の文を作成するように依頼しました。

このタスクは、チャットボットの機能をテストする非常に一般的な方法です。

プロンプト: 「「apple」で終わる文を 10 個書いてください。」

結局、ジェミニ 1.5 はこの課題を完全に達成できませんでした。

そこで彼は GPT-4 にこの問題も実行するように指示しましたが、GPT-4 も正しい結果を返しませんでした。

彼はまた、本の主人公の画像説明を取得するために、本「The Alchemist」の完全な PDF テキストを Gemini 1.5 に入力しました。

そして、この説明を使用して、DALL·E 3 で画像を生成しました。

プロンプト: 「本全体を読んだ後、主人公のイメージに基づいた説明を考え出すのを手伝ってください。AI画像ジェネレーターで使用したいです。」

海中の1000万本の極端に細い針はほぼ全て緑色

最後に、マルチモーダルひょう嵐の中の針テストにおける Gemini 1.5 Pro のパフォーマンスを見てみましょう。

テキスト処理の場合、Gemini 1.5 Pro は、最大 530,000 トークンのテキストを処理するときに 100% の検索完全性を達成でき、100 万トークンのテキストを処理するときに 99.7% の検索完全性を達成できます。

最大 1,000 万トークンのテキストを処理する場合でも、検索精度は 99.2% と高くなります。

オーディオ処理に関しては、Gemini 1.5 Pro は約 11 時間のオーディオ素材からさまざまな隠されたオーディオ クリップを 100% の成功率で取得することができました。

ビデオ処理に関しては、Gemini 1.5 Pro は約 3 時間のビデオ コンテンツ内のさまざまな隠れた視覚要素を 100% の成功率で取得することができました。

さらに、Google の研究者は、「干し草の山の中の針」テストのより一般的なバージョンを開発しました。

このテストでは、モデルは特定のテキスト範囲内で 100 個の異なる特定の情報を取得する必要があります。

このテストでは、Gemini 1.5 Pro は短いテキスト長では GPT-4-Turbo よりも優れたパフォーマンスを発揮し、100 万トークンの全範囲にわたって比較的安定したパフォーマンスを維持しました。

対照的に、GPT-4 Turbo のパフォーマンスは急激に低下し、128,000 トークンを超えるテキストを処理できないというひどいパフォーマンスでした。

<<:  大規模マルチビューガウスモデル(LGM):5秒で高品質の3Dオブジェクトを生成、試用可能

>>:  GPT-4より18倍高速、世界最速の大型モデルGroqが登場!毎秒500トークンが記録を破る、自社開発LPUはNVIDIA GPUの10倍

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

リカレントニューラルネットワークの簡単な紹介

リカレント ニューラル ネットワーク (RNN) とは何ですか? どのように機能しますか? どこで使...

スマート シティ: 誇大広告と現実を切り離す!

スマート シティをめぐる熱狂はかつてないほど高まっていますが、この熱狂の中で、スマート シティが私た...

TransformerはAI分野を支配するのでしょうか?結論を出すのは時期尚早だ

自然言語処理タスクから始まり、画像分類と生成の分野で活躍する無敵のトランスフォーマーは、次の伝説とな...

...

人工知能にとって2019年は厄介な年だった。資金は必要だったが、使えるお金がなかったのだ。

2019年、中国の人工知能分野への投資・融資熱は大幅に低下し、取引量も急減した。恥ずかしいことに、...

ビッグデータとリアルタイム分析のためのアルゴリズム分類

今日、ビッグデータ技術の発展と進歩により、大量のデータを収集および送信するための新しい、より効率的な...

もう学べないの? MIT CSおよびEEオンラインコースが利用可能になりました

[[320783]]流行病のため、MIT学長は3月初旬に残りの授業をすべてオンラインに移行するという...

...

...

...

...

2021年に注目すべき人工知能と機械学習の5つのトレンド

人工知能と機械学習は市場で注目されている技術であり、その重要性は 2020 年にピークに達しました。...

ディープラーニングを理解するための鍵 - パラメータ

これは、これまで見た中で最もわかりやすいニューラル ネットワーク パラメータの説明です。数式も最小限...

StarCraft II の共同競技ベンチマークが SOTA を上回り、新しい Transformer アーキテクチャがマルチエージェント強化学習の問題を解決

マルチエージェント強化学習 (MARL) は、各エージェントのポリシー改善の方向性を特定するだけでな...