北京大学の動画モデルが新たなSOTA、AIは数秒で面白いTik Tok動画の面白いポイントを理解できる

AIは面白い動画の何が面白いのかを理解できるようになりました。

AI の回答: このビデオが面白いのは、小さな赤ちゃんがベッドに座って本を読もうとしているのですが、明らかにまだ読めないということです。彼はページのさまざまな場所を指さし続け、カメラマンは背景で彼に向かって笑っていました。赤ちゃんが自分には大きすぎて言葉も理解できない本を読もうとする様子は、とても面白いです。

北京大学などの研究チームが、画像と動画の表現を統一された視覚特徴空間に整列させ、13 種類の画像と動画のベンチマークで高度なパフォーマンスを実現する大規模視覚言語モデルVideo-LLaVA をオープンソース化しました。

注目すべきは、Video-LLaVA はトレーニング中にビデオと画像のペアデータを使用していなかったが、トレーニング後、LLM は驚くべきことに画像とビデオの両方を理解する能力を示したことです。

下の図に示すように、Video-LLaVA は、自由の女神像の画像がクローズアップされ詳細に撮影されていることを認識しています。また、ビデオには自由の女神像の複数の角度が映っており、同じ場所から撮影されたものであることがわかります。

投影前に画像とビデオ表現を合わせる

この研究の具体的な貢献は次のとおりです。

Video-LLaVA は、視覚言語理解における画像とビデオの両方の処理という課題に対処します。視覚的表現を言語特徴空間に統合し、大規模な言語モデルが画像とビデオの両方で視覚的推論を実行できるようにします。
Video-LLaVA は、最初に画像とビデオの表現を統合された視覚的特徴空間に揃えることで、視覚的表現を言語的特徴空間に統合します。これは、さまざまなモダリティをテキスト特徴空間にマッピングし、統一された視覚表現を提供する LanguageBind エンコーダーを使用することで実現されます。次に、統合された視覚表現は、共有投影レイヤーと単語埋め込みレイヤーを通じてエンコードされ、統合された視覚表現が大規模な言語モデルにマッピングされます。
Video-LLaVA はビデオで優れたパフォーマンスを発揮し、MSVD、MSRVTT、TGIF、ActivityNet ビデオ質問応答データセットでそれぞれ Video-ChatGPT を 5.8%、9.9%、18.6%、10.1% 上回りました。

研究チームはモデルの能力について広範囲にわたる実験を行った。

ビデオ理解実験。

表 3 に示すように、Video-LLaVA は 4 つのビデオ質問応答データセットすべてで Video-ChatGPT を上回っており、その増加はかなりのものです。

絵の理解力の実験。

この研究では、画像言語理解タスクを、InstructBLIP、Otter、mPLUG-owl などの大規模画像言語モデルと比較しました。結果は表 2 に示されています。

視覚入力を事前に整列させることの効果を評価するために、研究チームは多数の比較実験を実施しました。

彼らは、画像エンコーダーを同じサイズの MAE エンコーダーに置き換えました。MAE エンコーダーは個別の視覚表現を生成するのに対し、LanguageBind エンコーダーは統一された視覚表現を生成します (視覚表現が事前に整列されているため)。

次に、9 つの画像理解ベンチマークと 4 つのビデオ理解ベンチマークを含む 13 のベンチマークで MAE エンコーダーと LanguageBind エンコーダーのパフォーマンスを比較しました。

LLM は、画像エンコーダーを MAE エンコーダーに置き換えることで、視覚表現を最初に学習するときに、ビデオ機能と画像機能を統合するのではなく、個別に処理します。

図 6 の実験結果は、共同視覚表現により、個別の視覚表現と比較して、4 つのビデオ質問応答データセットのパフォーマンスが大幅に向上することを示しています。

この発見は、事前に調整された視覚表現が LLM がビデオコンテンツをさらに学習して理解するのに役立つことを示唆しています。より優れた機能が提供され、モデルがビデオ質問応答タスクをより効率的に処理し、より優れたパフォーマンスを発揮できるようになります。

同時に、写真でもビデオでも、共同トレーニングでお互いにメリットが得られることもこの論文では検証しています。

ビデオデータと共同でトレーニングすることで、画像理解タスクにおける幻覚の問題を軽減できます。 LLaVA-Bench ベンチマークでも同様の傾向が見られます。

映像理解の面でも、共同訓練は大幅に改善されました。

<<: AI「コスプレ」の鍵はキャラクター設定にあり！復旦大学、人民大学などがビッグファイブ性格特性+MBTIテストを発表：特性回復率は82.8％に達し、OOCを否定

>>:

ブログ

北京大学の動画モデルが新たなSOTA、AIは数秒で面白いTik Tok動画の面白いポイントを理解できる

投影前に画像とビデオ表現を合わせる

顔認識は簡単すぎる、AIは指の動きも認識できる、これは非常に恐ろしい

顔認識がコミュニティに登場: 「顔スキャン」の背後にあるプライバシーとセキュリティの問題

AIoT: IoTと人工知能の完璧な組み合わせ

経済学における機械学習：この2つの組み合わせは明るい未来をもたらすだろう

オペレーティングシステムのプロセススケジューリングアルゴリズムとは何ですか?

システムアーキテクト、アルゴリズムエンジニア、人工知能エンジニアはどの程度の数学を学ぶ必要がありますか?

人工知能倫理ガバナンスは早急に実践段階へ移行する必要がある

EUがAIを活用して社会イノベーションを推進する方法

推薦する

ホーキング博士：人工知能の脅威は核兵器のようなもので、世界には10の大きな変化が起こるでしょう！

Java プログラミングスキル - データ構造とアルゴリズム「非再帰的バイナリ検索」

AIの5つの本当の危険性

ジャック・マー：世界の未来を決めるのは技術ではなく、技術の背後にある人々、理想、価値観だ

教育におけるAIの役割: AIが学習方法をどのように変えるか

実際に大規模な戦争を指揮しているのはビッグデータと人工知能なのでしょうか？

人工知能の先駆者であるIBM Watsonは殉教者となったのか？ IBMがWatsonを売却、AIは本当に失敗したのか？

AI検出器は復活するのか？成功率は98％と高く、OpenAIを上回っている。

放送・ホスティング業界における人工知能の限界についての簡単な分析

ポピュラーサイエンス | TensorFlow.js から機械学習について学ぶ

GPT をゼロから構築するための 60 行のコード!最も完全な実践ガイドはここにあります