Byte & 復旦大学のマルチモーダル理解モデルはこちらです: ビデオ内の特定のイベントが発生した時間を正確に特定できます。 たとえば、次のビデオでは: 犬が振り返ってカメラを見たときのタイムスタンプは何ですか? スケートボードを蹴るときに爪を使うのはいつですか? ここで、動画の赤ちゃんがメガネを押し上げたり、体を伸ばしたりしたのはいつでしょうか?この本を読み始めたのはいつですか? このような質問に対して、このレゴと呼ばれるモデルは、すべてを理解し、ためらうことなく正しい答えを出すことができます。 これらの研究結果により、今後は動画の視聴や情報の検索がさらに便利になりそうですね。 地域情報を正確に把握できるマルチモーダルLLMが登場LEGO は、言語強化型マルチモーダルグラウンディング モデルの略です。 これは主に、複数のモダリティにわたってきめ細かな理解を実行するマルチモーダル LLM の能力に焦点を当てています。これまでの業界の成果は、主にグローバル情報に重点を置いていました。 この目標を達成するために、著者はデータセットから始めて、モデルトレーニング用のマルチモーダル、マルチ粒度の質問応答データセットを作成しました(これはまもなくオープンソースになります) 。 このデータセットの構築には、2 つの主要なプロセスが含まれます。 1 つ目はデータセット変換です。 この段階では、著者らは、モダリティの調整と細分化された調整のための基本的なマルチモーダル データセットを構築することを目指しています。 データセットの品質は比較的低いため、主に公開データセットを変換して取得されます。 下の図の上部に示すように、GPT-3.5にタスクの説明を与えてタスク固有の質問ライブラリを生成し、最終的に1ラウンドの対話形式で質問と回答のペアを生成します。 結果として得られるデータセットは、品質を確保するためにフィルタリングされます。 画像モダリティについては、モダリティの調整に LLaVA-pretrain595K データセットを使用し、きめ細かい調整には RefCOCO などの特定のデータセットを使用しました。 ビデオ モダリティは Valley-Pretrain-703K を使用して調整され、きめ細かい調整には Charades-STA データセットが使用されます。 2 つ目は、命令チューニング データセットの生成です。 このデータセットの目的は、モデルが人間の指示をよりよく理解し、それに従うようにすることです。 上の図の下部に示すように、著者らはコンテキストの例を作成するために、公開されているデータセットのサブセット(Flickr30K Entities、VCR、DiDeMo など)も選択して手動で注釈を付けました。これは、命令チューニング データセットを生成するときに、GPT-3.5 が同様のパターンに従うようにガイドするために使用されます。 その後、タスク固有のシステムプロンプトとランダムに選択された例が GPT-3.5 に入力され、単一ターンまたは複数ターンのダイアログが生成されます。最後に、データセットの品質を確保するためにデータのフィルタリングが実行されます。 以下は、3 段階のトレーニング後に生成された最終データ サンプルの例です。 LEGO モデルのアーキテクチャは次のとおりです。 各モダリティの入力は個別のエンコーダーを介して処理され、特徴が抽出され、その後、アダプターを使用して LLM の埋め込み空間にマッピングされます。 この図は、ビデオ モードと画像モードの 2 つの例を示しています。青いボックスは入力としてビデオを表し、黄色のボックスは入力として画像を表します。 モジュール設計とアダプターに基づくアーキテクチャにより、LEGO は新しいエンコーダーをシームレスに統合し、ポイント クラウドや音声などの追加モダリティを処理できるため、優れた拡張機能となります。 最後に、LEGO は Vicuna1.5-7B を基本言語モデルとして使用し、マルチモーダル事前トレーニング、きめ細かいアライメント調整、クロスモーダル指示調整の 3 段階でトレーニングを完了します。 実験評価は次のとおりです。 画像タスクにおいて、RECタスクにおけるLEGOモデルと他のモデルのパフォーマンスは次の表の通りです。すべてのデータセットにおいて比較的競争力のあるパフォーマンスを示していることがわかります。 ビデオタスクでは、LEGO はビデオ全体の理解に重点を置いており、VideoLLaMA、VideoChat、Valley の 3 つのモデルと比較してそのパフォーマンスは非常に優れています。 さらなる能力の実証前述のように、LEGO の機能はビデオの配置に限定されず、画像やオーディオなどのマルチモーダル タスクにも優れています。 それは次のことを指します。
この風景写真では、遊ぶことのリスクについて正確な警告を与えています。 このミームでは、これがフライドチキンで作られたシンプルな地図であることも正確に発見されました。
非常に詳細な都市の座標と観光スポットを識別できることがわかります。
もちろん、ここでテストされているのは、純粋な雨の音の比較的単純な短いオーディオだけです。
犬が吠える音声クリップと走っている犬の画像を与えると、犬の口の周りの音源を正確に特定できます。 著者についてこの記事の著者は合計 12 人です。 復旦大学の第一著者である Zhaowei Li 氏に加え、同じくここ出身の Dong Zhang 氏という著者もいます。 残りはByteDanceの従業員であり、責任著者はTao Wangです。 論文アドレス: https://arxiv.org/abs/2401.06071 |
>>: ChatGPTはAmazonに「オンラインストアを開設」し、一夜にしてインターネットの有名人になった
[[346613]]この記事はWeChatの公開アカウント「Java Chinese Commun...
[[176522]]ほとんどの科学研究では、大量の実験データの統計分析は、通常、コンピューティングと...
最近、ソートアルゴリズムを勉強していて、多くのブログを読んでいます。インターネット上のいくつかの記事...
業界ではデザインやスキンケアに AI 技術が活用されています。一部の企業は、生成ツールを超えて、コン...
深センリッチ情報技術有限公司が独自に開発したインテリジェントビデオ分析システムは、監視エリアをリア...
最近、偶然にMySQLのページング最適化のテストケースを見ました。テストシナリオを詳しく説明せずに、...
現代の IT 環境では、サイバー脅威がますます顕著になっています。サイバーセキュリティとその製品にお...
滴滴出行は1月25日、2018年スマート交通サミットでスマート交通戦略製品「Traffic Brai...
[[401604]]新型コロナウイルスによる混乱に対応するため、組織が急いでビジネスプロセスを適応...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[360153]]あなたをモデルに、考え、反応し、行動するように訓練されたロボットを想像してみてく...
最近、海外メディアの報道によると、サンフランシスコ市は7月1日に導入予定の「偏見削減ツール」を発表し...
ディープラーニングには大量の計算が必要です。通常、多数のノードを持つニューラル ネットワークで構成さ...
AIやビッグデータなどの技術の急速な発展に伴い、関連する知識も普及してきました。数多くのウェブサイ...