特定のイベントが発生した正確な時刻を特定します。 Byte&復旦大学のマルチモーダル大型モデル解釈ビデオはとても良い

特定のイベントが発生した正確な時刻を特定します。 Byte&復旦大学のマルチモーダル大型モデル解釈ビデオはとても良い

Byte & 復旦大学のマルチモーダル理解モデルはこちらです:

ビデオ内の特定のイベントが発生した時間を正確に特定できます。

たとえば、次のビデオでは:

犬が振り返ってカメラを見たときのタイムスタンプは何ですか?

スケートボードを蹴るときに爪を使うのはいつですか?

ここで、動画の赤ちゃんがメガネを押し上げたり、体を伸ばしたりしたのはいつでしょうか?この本を読み始めたのはいつですか?

このような質問に対して、このレゴと呼ばれるモデルは、すべてを理解し、ためらうことなく正しい答えを出すことができます。

これらの研究結果により、今後は動画の視聴や情報の検索がさらに便利になりそうですね。

地域情報を正確に把握できるマルチモーダルLLMが登場

LEGO は、言語強化型マルチモーダルグラウンディング モデルの略です。

これは主に、複数のモダリティにわたってきめ細かな理解を実行するマルチモーダル LLM の能力に焦点を当てています。これまでの業界の成果は、主にグローバル情報に重点を置いていました。

この目標を達成するために、著者はデータセットから始めて、モデルトレーニング用のマルチモーダル、マルチ粒度の質問応答データセットを作成しました(これはまもなくオープンソースになります)

このデータセットの構築には、2 つの主要なプロセスが含まれます。

1 つ目はデータセット変換です。

この段階では、著者らは、モダリティの調整と細分化された調整のための基本的なマルチモーダル データセットを構築することを目指しています。

データセットの品質は比較的低いため、主に公開データセットを変換して取得されます。

下の図の上部に示すように、GPT-3.5にタスクの説明を与えてタスク固有の質問ライブラリを生成し、最終的に1ラウンドの対話形式で質問と回答のペアを生成します。

結果として得られるデータセットは、品質を確保するためにフィルタリングされます。

画像モダリティについては、モダリティの調整に LLaVA-pretrain595K データセットを使用し、きめ細かい調整には RefCOCO などの特定のデータセットを使用しました。

ビデオ モダリティは Valley-Pretrain-703K を使用して調整され、きめ細かい調整には Charades-STA データセットが使用されます。

2 つ目は、命令チューニング データセットの生成です。

このデータセットの目的は、モデルが人間の指示をよりよく理解し、それに従うようにすることです。

上の図の下部に示すように、著者らはコンテキストの例を作成するために、公開されているデータセットのサブセット(Flickr30K Entities、VCR、DiDeMo など)も選択して手動で注釈を付けました。これは、命令チューニング データセットを生成するときに、GPT-3.5 が同様のパターンに従うようにガイドするために使用されます。

その後、タスク固有のシステムプロンプトとランダムに選択された例が GPT-3.5 に入力され、単一ターンまたは複数ターンのダイアログが生成されます。最後に、データセットの品質を確保するためにデータのフィルタリングが実行されます。

以下は、3 段階のトレーニング後に生成された最終データ サンプルの例です。

LEGO モデルのアーキテクチャは次のとおりです。

各モダリティの入力は個別のエンコーダーを介して処理され、特徴が抽出され、その後、アダプターを使用して LLM の埋め込み空間にマッピングされます。

この図は、ビデオ モードと画像モードの 2 つの例を示しています。青いボックスは入力としてビデオを表し、黄色のボックスは入力として画像を表します。

モジュール設計とアダプターに基づくアーキテクチャにより、LEGO は新しいエンコーダーをシームレスに統合し、ポイント クラウドや音声などの追加モダリティを処理できるため、優れた拡張機能となります。

最後に、LEGO は Vicuna1.5-7B を基本言語モデルとして使用し、マルチモーダル事前トレーニング、きめ細かいアライメント調整、クロスモーダル指示調整の 3 段階でトレーニングを完了します。

実験評価は次のとおりです。

画像タスクにおいて、RECタスクにおけるLEGOモデルと他のモデルのパフォーマンスは次の表の通りです。すべてのデータセットにおいて比較的競争力のあるパフォーマンスを示していることがわかります。

ビデオタスクでは、LEGO はビデオ全体の理解に重点を置いており、VideoLLaMA、VideoChat、Valley の 3 つのモデルと比較してそのパフォーマンスは非常に優れています。

さらなる能力の実証

前述のように、LEGO の機能はビデオの配置に限定されず、画像やオーディオなどのマルチモーダル タスクにも優れています。

それは次のことを指します。

  • 画像コンテンツの解釈

この風景写真では、遊ぶことのリスクについて正確な警告を与えています。

このミームでは、これがフライドチキンで作られたシンプルな地図であることも正確に発見されました。

  • ビデオコンテンツの概要

非常に詳細な都市の座標と観光スポットを識別できることがわかります。

  • オーディオ分析

もちろん、ここでテストされているのは、純粋な雨の音の比較的単純な短いオーディオだけです。

  • サウンドポジショニング

犬が吠える音声クリップと走っている犬の画像を与えると、犬の口の周りの音源を正確に特定できます。

著者について

この記事の著者は合計 12 人です。

復旦大学の第一著者である Zhaowei Li 氏に加え、同じくここ出身の Dong Zhang 氏という著者もいます。

残りはByteDanceの従業員であり、責任著者はTao Wangです。

論文アドレス: https://arxiv.org/abs/2401.06071

<<: 

>>:  ChatGPTはAmazonに「オンラインストアを開設」し、一夜にしてインターネットの有名人になった

ブログ    

推薦する

率直に言って、2018年に私たちが耐えなければならないかもしれない人工知能の暗い側面

18歳の時に撮った写真が様々な賞賛を浴びる中、また新たな年を迎えました。 [[215597]]本来な...

清華大学の卒業生は大きな貢献をしました! Google、14のタスクで初の大規模一般医療モデルSOTAをリリース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

アルゴリズム取引におけるビッグデータ分析の活用

ウォーレン・バフェットの資産が 5000G あることをご存知ですか? 反対派や懐疑派の意見に反して、...

2019年の人工知能の開発動向

人工知能(AI)はAIと略されます。これは、人間の知能をシミュレート、拡張、拡大するための理論、方法...

70%は輸入品。中国の産業用ロボットはチップのような悲劇をどう回避できるのか?

ロボットは産業の魂です。 [[386663]]しかし、私たちの身近な国である日本が、20年もの間、世...

...

高齢者が松葉杖を捨てるのも夢ではない、新たなウェアラブルデバイス「スーパースーツ」をSeismicが開発

BBCによると、サイズミック社は「スーパースーツ」と呼ばれる新しいウェアラブルデバイスを開発した。こ...

マイクロソフトCEOナデラ氏:私は4つの大きな変革を経験してきたが、AIは5番目だ

マイクロソフトのサティア・ナデラCEOは10月23日、メディアのインタビューで、同社はこれまで4つの...

AIが科学研究を「行う」ことを学習し、ネイチャー誌に発表。知湖ネットユーザー:水を見るのは耐えられない

人工知能は複雑な囲碁のゲームでは簡単に人間に勝つことができますが、科学的な発見に役立つのでしょうか?...

...

...

...

リカレントニューラルネットワークの父:未来のロボットはアリを見るように人間を見るだろう

4月19日、ガーディアン紙は、ロボットの将来について語ったインタビューで、再帰型ニューラルネットワー...

世界初、AIによる豚のクローン作成に成功!南開大学がやった

超AI制御により、機械が自動的に人間の胚のクローンを作成し、培養用の栄養プールに送り込み、人間のバッ...