AIは面白い動画の何が面白いのかを理解できるようになりました。 AI の回答: このビデオが面白いのは、小さな赤ちゃんがベッドに座って本を読もうとしているのですが、明らかにまだ読めないということです。彼はページのさまざまな場所を指さし続け、カメラマンは背景で彼に向かって笑っていました。赤ちゃんが自分には大きすぎて言葉も理解できない本を読もうとする様子は、とても面白いです。 北京大学などの研究チームが、画像と動画の表現を統一された視覚特徴空間に整列させ、13 種類の画像と動画のベンチマークで高度なパフォーマンスを実現する大規模視覚言語モデルVideo-LLaVA をオープンソース化しました。 注目すべきは、Video-LLaVA はトレーニング中にビデオと画像のペアデータを使用していなかったが、トレーニング後、LLM は驚くべきことに画像とビデオの両方を理解する能力を示したことです。 下の図に示すように、Video-LLaVA は、自由の女神像の画像がクローズアップされ詳細に撮影されていることを認識しています。また、ビデオには自由の女神像の複数の角度が映っており、同じ場所から撮影されたものであることがわかります。 投影前に画像とビデオ表現を合わせるこの研究の具体的な貢献は次のとおりです。
研究チームはモデルの能力について広範囲にわたる実験を行った。 ビデオ理解実験。 表 3 に示すように、Video-LLaVA は 4 つのビデオ質問応答データセットすべてで Video-ChatGPT を上回っており、その増加はかなりのものです。 絵の理解力の実験。 この研究では、画像言語理解タスクを、InstructBLIP、Otter、mPLUG-owl などの大規模画像言語モデルと比較しました。結果は表 2 に示されています。 視覚入力を事前に整列させることの効果を評価するために、研究チームは多数の比較実験を実施しました。 彼らは、画像エンコーダーを同じサイズの MAE エンコーダーに置き換えました。MAE エンコーダーは個別の視覚表現を生成するのに対し、LanguageBind エンコーダーは統一された視覚表現を生成します (視覚表現が事前に整列されているため)。 次に、9 つの画像理解ベンチマークと 4 つのビデオ理解ベンチマークを含む 13 のベンチマークで MAE エンコーダーと LanguageBind エンコーダーのパフォーマンスを比較しました。 LLM は、画像エンコーダーを MAE エンコーダーに置き換えることで、視覚表現を最初に学習するときに、ビデオ機能と画像機能を統合するのではなく、個別に処理します。 図 6 の実験結果は、共同視覚表現により、個別の視覚表現と比較して、4 つのビデオ質問応答データセットのパフォーマンスが大幅に向上することを示しています。 この発見は、事前に調整された視覚表現が LLM がビデオ コンテンツをさらに学習して理解するのに役立つことを示唆しています。より優れた機能が提供され、モデルがビデオ質問応答タスクをより効率的に処理し、より優れたパフォーマンスを発揮できるようになります。 同時に、写真でもビデオでも、共同トレーニングでお互いにメリットが得られることもこの論文では検証しています。 ビデオデータと共同でトレーニングすることで、画像理解タスクにおける幻覚の問題を軽減できます。 LLaVA-Bench ベンチマークでも同様の傾向が見られます。 映像理解の面でも、共同訓練は大幅に改善されました。 |
<<: AI「コスプレ」の鍵はキャラクター設定にあり!復旦大学、人民大学などがビッグファイブ性格特性+MBTIテストを発表:特性回復率は82.8%に達し、OOCを否定
人工知能監視システムに対する懸念から、研究者たちはそれを標的とするツールの開発に取り組んでいる。最近...
正直に言うと、顧客はおそらく、投資マネージャーが使用する高度な AI ツールを気にしていないでしょう...
Python によるシンプルな自然言語処理この記事は、Python をベースにした簡単な自然言語処理...
[[315530]] 01. はじめにデータのクエリ速度を向上させるために、キャッシュがよく使用され...
現在、GoogleやOpenAIなどの大手企業が開発したテキストから画像へのモデルは、興味深いニュー...
人工知能の将来はどうなるのでしょうか?どのような方向に発展していくべきでしょうか?開発プロセス中に注...
01 データキャプチャ1. 背景調査1) robots.txt をチェックして、サイトのクロールにど...
機械学習プロジェクトに適したオプティマイザーを選択するのは簡単な作業ではありません。オプティマイザー...
10月31日、中関村サイエンスパーク管理委員会の指導の下、美団クラウドが主催し、「AIの力で共存とW...
[[159157]]アルゴリズムは私たちの生活にますます影響を与えています。しかし、ほとんどの場合...
習総書記は「人工知能の発展における潜在的リスクの評価と予防を強化し、国民の利益と国家の安全を守り、人...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
2020年12月にリリースされたCPM-1は、中国初の大型中国語モデルです。2022年9月にリリー...
OpenAIは9月21日水曜日、書かれたプロンプトに基づいて画像を生成できる新しい画像生成器DAL...