AI界のお笑い王に100万の賞金!北京郵電大学、南洋理工大学などが「砂像動画」データセットを公開 FunQA:アルゴリズムで人間のユーモアを学習

AI界のお笑い王に100万の賞金!北京郵電大学、南洋理工大学などが「砂像動画」データセットを公開 FunQA:アルゴリズムで人間のユーモアを学習

人は直感に反する動画(ユーモラスで独創的で視覚的に魅力的な動画)から容易に喜びを得ることができます。この魅力は、動画が人間に与える視覚的な刺激だけでなく、人間が本来持っている幸福を理解し発見する能力、つまり予期せぬ直感に反する瞬間を理解し楽しみを見つける能力からも生まれます。

しかし、今日のコンピューター ビジョン モデルは大幅に進歩しましたが、ビデオ モデルはビデオのユーモアや創造性を「理解」できるのかという疑問が残ります。

現在のビデオ質問応答 (VideoQA) データセットは、依然として一般的で驚きの少ないビデオと単純なタスク (複数選択、自由回答など) に重点を置いています。

ビデオに出てくる人物や物に関する簡単な質問 (何、誰、何人など) に答えるだけでは、ビデオを理解するのに十分ではないことは明らかです。よく使用されるビデオ質問応答データセットには、YouCook2 (2K の料理ビデオを含む) や Howto100m (説明ビデオのみを含む) などがあります。

一部のデータセット(UR-FUNNY など)では、テレビ番組のユーモラスなクリップを紹介し、笑いの軌跡を予測するなどのタスクを設定していますが、これらのタスクは音声や物語の手がかりに大きく依存していることが多く、視覚的な手がかりは大きな役割を果たすことができません。

このギャップを埋め、直感に反するビデオを理解するコンピューター ビジョン モデルの能力を評価するために、北京郵電大学、シンガポールの南洋理工大学、アレン人工知能研究所の学者は、4.3K 本の面白いビデオと 312,000 件の手動で注釈が付けられた自由形式のテキストによる質問と回答のペアで構成される包括的で高品質のビデオ質問応答データセットである FunQA を提案しました。

論文アドレス: https://arxiv.org/abs/2306.14899

FunQA データセットには、HumorQA、CreativeQA、MagicQA の 3 つのサブセットが含まれています。各サブセットは異なるソースとビデオ コンテンツをカバーしていますが、ユーモラスなビデオの予期しない対比、クリエイティブなビデオの興味深い変装、マジック ビデオの一見不可能なパフォーマンスなど、ビデオの驚くべき性質に共通点があります。

FunQAでは、研究者らは直感に反するビデオに対するモデルの理解を測定するために、3つの厳密なタスクも開発しました。

これらのタスクでは、ビデオによる推論を表面的な説明だけにとどまらず、より深い理解と洞察力を備えたモデルが必要になります。具体的なタスクは次のとおりです。

1) 直感に反するタイムスタンプの特定:このタスクでは、モデルがビデオ内で予期しないイベントが発生した特定の期間を特定する必要があります。

2) 詳細なビデオの説明:モデルは、基本的なビデオ理解機能を実証するために、ビデオ コンテンツの首尾一貫した客観的な説明を生成する必要があります。

3) 直感に反する推論:モデルは、ビデオがなぜ驚くべきものであるかについて具体的な説明をする必要があります。これには、ビデオ内の直感に反するイベントについての深い推論が必要です。

これらのタスクは、ビデオ内に存在する直感に反する要素を認識し、表現し、推論するモデルの能力を段階的に評価します。

さらに研究者らは、ビデオに適切で鮮明なタイトルを付けるなど、より挑戦的な補助タスクも提案した。

下の図は FunQA の 3 つのサブセットのデモで、さまざまなビデオ タイプ向けに FunQA によって設計された質問と回答のペアを示しています。

FUNQAデータセット

データセットを構築する際、研究者らは、ビデオ理解の課題に対処するために、視覚に焦点を当てること、直感に反する推論を重視すること、時空間推論を重視するという 3 つの原則を順守しました。

これらの原則に基づいて、FunQA には 3 つの異なる芸術ジャンルからの 4,365 本のビデオと 311,950 の質問と回答のペアが含まれています。これらのビデオの合計時間は 23.9 時間で、ビデオ セグメントの平均長さは 19 秒です。

FunQA データセットには、 HumorQACreativeQAMagicQA の3 つのサブセットが含まれています。データセットの具体的な統計データは図 2 に示されています。

統計図2(h)から、3つの異なるタイプのビデオのタイムスタンプヒートマップを見ることができ、回答の高頻度の時間範囲が示されています。

図2(h)からわかるように、説明と推論のタスクでは、自由記述回答の平均長は34.24に達し、既存のVideoQAデータセット(Activity-QAでは8.7、NExT-QAでは11.6など)を大幅に上回っています。

FunQA アノテーションの一貫性評価結果を図 2(i) に示します。各ビデオ カテゴリについて、90% 以上のアノテーションが高い一貫性を示し、コンテンツのわずか 1% が低い一貫性を示しています。データの約 8% でコンセンサスの変化が見られ、FunQA データセットの客観性が実証されました。

FunQAと他の既存のベースラインの比較

他のベースラインと比較して、FunQA は面白いビデオや直感に反するビデオの領域に重点を置いています。 FunQA のタスクは、モデルの視覚機能に挑戦するように設計されており、詳細な記述、説明、および時空間推論機能を必要とします。次の表は、FunQA と他のベースラインの詳細な比較を示しています。

多くの場合、1 つのベンチマークのパフォーマンス傾向は、VQA と MSCOCO 間の注目すべき相関関係など、別のベンチマークのパフォーマンス傾向と類似していることがあります。

ただし、他のデータセットと比較すると、FunQA データセットは新しい分野での評価を提供するだけでなく、他のデータセットではできない方法でモデルに挑戦します。その機能は次のとおりです。

1) 深い時空間推論: FunQA は直感に反するコンテンツに重点を置いており、モデルはまず典型的なシナリオ (常識) を理解し、次にユーモラスな逸脱を識別する必要があります。この種の深い推論は、依然として困難で未開拓の領域です。

2) 豊富な注釈:複数選択の質問や自由形式の短い回答に依存する多くのデータセットとは異なり、FunQA には平均 34 語の長さのフリーテキスト注釈があります (これまで、ビデオ質問応答分野で最も豊富な注釈が付けられたデータセットは、平均語数が 11.6 の NExT-QA でした)。この詳細な注釈アプローチにより、より豊富なモデル応答が可能になり、より微妙なニュアンスのある回答を生成する能力がテストされます。

3) ユーモアの探求:ユーモアの原則を詳細に理解することは、モデルが一部の動画の内容を真に理解するために非常に重要になる場合があります。 (これまでこの側面に焦点を当てたビデオ質問応答データセットはなく、VisualQA 分野では The New Yorker Caption Contest などの新しいデータセットのみが登場しています)。このユーモラスな情報をどのようにモデルに装備するか、また、どのような種類の知識が「価値がある」かを決定することは、刺激的な研究の方向性です。

実験結果と結論

研究者らは、7 つのビデオ質問応答モデル (キャプションベースのモデルと指示ベースのモデルに分かれています) をテストしました。次の表は、主な実験結果を示しています。

FunQA ベンチマークでは、H1、C1、および M1 は、測定インジケーターが IOU である 3 つのサブセット上の直感に反するタイムスタンプ ローカリゼーション タスクを表します。 H2、C2、M2 は詳細なビデオ説明タスクを表し、H3、C3、M3 は直感に反する推論タスクを表します。

より高度なタスクの場合、H4 と C4 は、ビデオに適切で鮮明なタイトルを付けることを意味します。

これらすべてのタスクに対する回答はフリーテキスト形式であり、BLEU-4、ROUGE-L、CIDEr、BLEURT、GPT-4 のメトリックを使用して測定されます。

C5 はクリエイティブ動画に与えられるクリエイティビティスコアを表し、予測スコアと公式スコアの差によって評価されます。

さらに、研究者らは FunQA に対するさまざまなモデルの応答の例を示しました。

図 3 は、図のユーモラスなビデオに対する VideoChat、Video-ChatGPT、Otter の応答を示しています。タスク H2 と H3 では、VideoChat のパフォーマンスが最も優れています。

タスク H4 では、Video-ChatGPT と Otter の方が優れた回答を示しており、これは表 2 の実験結果と一致しています。

しかし、すべてのモデルの答えは、特に詳細な説明や直感に反する説明の点では、まだ正解からは程遠いものです。

要約する

全体的に、FunQA データセット上のモデルのパフォーマンスは一般的に満足できるものではありません。主な調査結果は次のとおりです。

1) タイムスタンプのローカリゼーションタスクは最も困難です。

キャプションベースのモデルは通常、時間情報を無視しますが、Otter などの命令ベースのモデルは、時間コンテンツを導入せずに特定のフレームからのみ視覚情報を取得します。したがって、現在、H1、C1、および M1 のタスクを解決できる単一の VLM は存在しません。

2) どのようなタスクにも明確な勝者は存在しません。

キャプションベースのモデルは詳細な説明を提供することに優れていますが、推論を必要とするタスクではパフォーマンスが低く、説明タスク (H2 など) と推論タスク (H3 など) の間に大きなパフォーマンスのギャップが生じます。

一方、指示ベースのモデルは推論能力は優れていますが、説明タスクのパフォーマンスは低くなります。考えられる説明の 1 つは、指示ベースのモデルでは回答に冗長な情報が多すぎるため、説明タスクのパフォーマンスが低下する可能性があるということです。

3) ビデオの種類によってパフォーマンスは大きく異なります。

ほとんどのモデルは、ユーモラスな動画やマジック動画に対しては比較的正確な回答を得ることができますが、クリエイティブな動画に対する質問に答えるのは困難です。これは、ユーモアやマジックの動画はモデルがこれまでに遭遇した日常生活を描写することが多いのに対し、創造性の動画にはモデルがこれまで見たことのない内容が含まれているため、モデルが新しいアイデアを生み出すことが難しく、無関係で間違った答えになってしまうためと考えられます。

4) フリーテキストタスクの評価指標が不十分。

従来の指標は、基本的なテキストの類似性のみに焦点を当てているため、フリーテキストの問題ではほぼゼロのスコアになります。研究者らは、GPT-4 が自由形式のテキストの深い理解を評価する能力をある程度示していることを発見した。しかし、同じコンテンツが異なるスコアを獲得する可能性があるという不安定さの問題が依然として残っています。

5) 微調整された Otter は従来の指標では良好なパフォーマンスを発揮しますが、GPT-4 スコアでは遅れをとります。

研究者らは、Dense Caption と FunQA で Otter を微調整し、Otter (FunQA) は Otter (DC) よりも大幅なパフォーマンス上の利点を示しました。 Otter は、他の命令ベースのモデルと比較して、ROUGE-L などの従来のメトリックでは優れたパフォーマンスを発揮しますが、GPT-4 スコアでは劣ります。

考えられる理由の 1 つは、Otter の入力がビデオからサンプリングされた 128 フレームのみであり、包括的な推論には不十分であることです。従来の指標と GPT-4 における Otter のスコアの違いは、評価指標の欠如に関する以前の調査結果と一致しています。

話し合う

前述のように、既存のビデオ質問応答データセットと比較して、FunQA は深い時空間推論とユーモアの探求という特徴があり、モデルに新たな課題ももたらします。

1) 情報と長い動画を正確に理解する:失敗事例の分析を通じて、研究者は多くのモデルが動画を正確に記述することが難しいことを発見しました。動画内の物体を検出するのは得意かもしれませんが、連続するイベント間の文脈的関係を理解するとなると、失敗することが多いのです。これは、この分野ではさらなる調査が必要であり、FunQA はビデオの説明を詳細に調査するための貴重なデータセットとして機能できることを示唆しています。

2) 論理的推論: FunQA データセット内のビデオの主な特性は、直感に反し常識に反するコンテンツが含まれていることです。モデルがこれを理解するには、「常識」の概念を把握し、通常の状況で通常何が起こるかを推測し、この視点を使用してビデオをユーモラスに解釈する必要があります。これには、モデルに強力な推論能力が必要です。モデルに常識をどのように取り入れるかは、依然として重要な研究ポイントです。

3) 追加知識 - ユーモアのセンス:ビデオのユーモアを解釈するには、ユーモアの基本原則を理解することが重要です。この種の知識は、他の常識や追加情報とともに、モデルのパフォーマンスを向上させる可能性があります。したがって、価値ある知識をどのように統合するかを決定し、「価値あるもの」が何であるかを見極めることは、さらに検討する価値のあるトピックです。

モデルが直面している課題に対して、研究者らはいくつかの解決策を提案した。

1) モデルのサイズ:パラメータの数を増やすことは、モデルのパフォーマンスを向上させる自然な方法です。ただし、このアプローチには独自のエンジニアリング上の課題があり、モデルの最適化と展開の改善が必要です。モデル パラメータの数と FunQA ベンチマークでのパフォーマンスの関係についてはさらに調査する価値があり、FunQA データセットは優れたテスト プラットフォームとして機能します。

2) データの品質:研究者たちは、このタスクの焦点はデータ収集にあるべきだと考えています。大規模な動的モデルの現在の傾向は、低品質のデータが大量に存在することよりも、高品質のデータが少量存在することの方がはるかに効果が低いことを示唆しています。そのため、研究者たちは、直感に反する動画を理解するのに本当に役立つデータの種類をコミュニティが発見できることを期待しています。これは重要な研究方向です。

3) トレーニング戦略:トレーニング戦略を学ぶことも重要です。たとえば、どのような種類のデータから学習を開始するかを決定したり、カリキュラム学習の重要性を理解したりすることなどです。

4) モデルのコラボレーション:研究者たちは、複数のモデルが連携して例をエレガントな方法で処理することが、パフォーマンスを向上させる方法になる可能性があると考えています。ただし、このアプローチでは、モデル実装の全体的な効率にさらに注意を払う必要がある場合があります。

現在の作業の制限:

1) 現在の FunQA データセットには主にビデオレベルのデータと注釈が含まれていますが、詳細な空間的注釈や時間的注釈、つまり特定のタイムラインに対応するキャプションやオブジェクトレベルの注釈など、より深い注釈を導入してビデオ推論の可能性を探ることができます。

2) オリジナルの注釈は中国人によって作成されました。英語に翻訳する過程で、研究者たちはまずGPTを使用して中国語の注釈を洗練し、補足し、テキストを可能な限り完全なものにしました。ただし、2 つの言語間の文化的な違いにより、注釈間で不一致が生じる可能性があります。

今後の仕事

研究者たちは、より深く多様な注釈を付けて FunQA データセットを拡張したいと考えています。

さらに、特に詳細なメトリックが不足しているオープンエンドの問題において、モデルのパフォーマンスをより適切に評価するための新しいメトリックが検討されます。

最後に、研究者たちは、モデルがより深いビデオ推論を開発するための方向性を示したいと考えています。

FunQAに基づくアルゴリズムコンペティション

2023年7月、賞金100万ドルのアルゴリズムコンテスト「FunQA Challenge」の登録が正式に開始されました。

<<: 

>>:  284日間の急成長の後、ChatGPTを「模倣」したスタートアップ企業が倒産する可能性

推薦する

284日間の急成長の後、ChatGPTを「模倣」したスタートアップ企業が倒産する可能性

最近、ウォール・ストリート・ジャーナルの記事によると、一部のベンチャーキャピタリストは、生成型人工知...

...

ASO チュートリアル: 評価とダウンロードの最適化と Google Play ストアのランキング アルゴリズム

この ASO チュートリアル シリーズを初めて読む場合は、最初の記事から始めることをお勧めします。 ...

テンセントクラウドが7つの新製品をリリース、AIアプリケーションは洗練へ向かう

12月11日、テンセントクラウドは北京で新しいビッグデータAI製品発表会を開催した。テンセントクラウ...

...

この「アンケート」で初めて AI が人間を上回る、Microsoft が SuperGLUE でトップ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

疫病流行中の人間の行動にAIが混乱!データ変更による作業の「異常」は手動での制御が必要

[[327938]]ビッグデータダイジェスト制作著者: 劉俊環半年前に Taobao をオープンした...

2021年に購入すべき珍しいAIホーム製品

これらの AI 搭載ガジェットはあなたの家をスマートにします。 『2001年宇宙の旅』の全知全能のH...

...

Google Deepmind、楽器とボーカルで音楽を生成するLyria AIオーディオモデルを発表

11月21日、Deepmindは楽器とボーカルで音楽を生成できるLyriaというオーディオモデルをリ...

JVM チューニングの概要: 基本的なガベージ コレクション アルゴリズム

ガベージ コレクション アルゴリズムは、さまざまな観点から分類できます。基本的なリサイクル戦略によれ...

人工知能も汚染される可能性があるので、顔認証による支払いは依然として安全でしょうか?

下の図は、人間にとって非常に区別しやすい 3 種類の動物、鳥、犬、馬を示しています。しかし、人工知能...

Java ソートアルゴリズムについてどれくらい知っていますか?

今日は、Java のさまざまなソート アルゴリズムについてお話します。以前、上級開発者との面接があり...

...