CMU の専門家が「マルチモーダル機械学習」の 6 つの主要な課題を包括的にまとめています。36 ページの長い記事 + 120 ページの PPT、すべて実用的な情報です。

CMU の専門家が「マルチモーダル機械学習」の 6 つの主要な課題を包括的にまとめています。36 ページの長い記事 + 120 ページの PPT、すべて実用的な情報です。

さまざまな言語、視覚、ビデオ、オーディオなどの大規模モデルのパフォーマンスが向上し続けるにつれて、マルチモーダル機械学習も登場し始めました。研究者は、複数のモダリティからのデータを統合することで、現実世界をよりよく理解し、推論し、学習できる、より複雑なコンピューターエージェントを設計し始めました。

開発プロセスにおいて、マルチモーダル機械学習の研究は計算上および理論上の課題ももたらしました。マルチモーダルの統合、エージェントの自律性、マルチセンサー融合などのアプリケーションシナリオでは、異種データソースなどのデータパターン検出方法も登場しています。

最近、カーネギーメロン大学の研究者らがマルチモーダル機械学習の包括的な概要を発表し、ICML 2023 カンファレンスでチュートリアルを開催し、応用分野と理論的枠組みをレビューすることで、マルチモーダル機械学習の計算と理論の基礎の概要を示しました。

論文リンク: https://arxiv.org/pdf/2209.03430.pdf

プレゼンテーション: https://drive.google.com/file/d/1qIYBuYrSW2-e95DL7LndfLFqGkIWFG21

研究者らはまず、その後のイノベーションを推進するモーダル異質性、接続、相互作用という 3 つの主要原則を定義し、表現、アライメント、推論、生成、転送、定量化という 6 つの中核となる技術的課題の分類を提案しました。この記事では、マルチモーダル機械学習の研究の歴史と最近の動向について取り上げています。


論文の著者であるポール・プ・リャンは、カーネギーメロン大学機械学習学部の博士課程の学生です。彼の指導教官は、ルイ・フィリップ・モレンシーとルスラン・サラクディノフです。彼の主な研究分野は、マルチモーダル機械学習の基礎と、そのソーシャルインテリジェンス AI、自然言語処理、ヘルスケア、教育への応用です。

課題1: 表現

異なるモダリティの個々の要素間のクロスモーダル相互作用を反映する表現をどのように学習するかが問題です。この課題は、要素間のローカル表現を学習するか、全体的な特徴の表現を使用するかのどちらかとして考えることができます。

この論文では主に 3 つのサブ問題を紹介しています。

1. 表現の融合

表現融合の目的は、異なるモダリティの要素間のクロスモダリティ相互作用をシミュレートできる共同表現を学習し、それによって独立した表現の数を効果的に削減することです。

研究者たちはこれらの方法を2つのカテゴリーに分類しました。

(1)抽象モダリティ融合:まず、適切な単一モダリティエンコーダーを適用して各要素(またはすべてのモダリティ)の全体的な表現をキャプチャし、次に表現融合のいくつかのコンポーネントを使用して共同表現を学習します。つまり、融合は抽象表現レベルで行われます。

(2)生のモーダル融合:表現の融合は早い段階で実行されるため、簡単な前処理、あるいは生のモーダルデータ自体の直接入力のみが必要となる。

2. 代表調整

目標は、相互に相関して調整されたマルチモーダルなコンテキスト化された表現を学習することです。表現の融合とは異なり、調整により表現の数は変わりませんが、マルチモーダルなコンテキスト化が向上します。

まず、モーダル要素間の強い同等性を強制する強い調整について説明し、次に、相関、順序、階層、類似性を超えた関係など、より一般的な接続を捉えることができる部分的な調整に移ります。

3. 表現の分裂

目標は、データ クラスター、独立した変動要因、モダリティ固有の情報など、内部のマルチモーダル構造に関する知識を反映する、新しい分離表現のセット (通常は入力表現のセットよりも大きい) を作成することです。

結合表現や協調表現と比較して、表現分裂は詳細な解釈と細粒度の制御性を実現できます。分離要因の粒度に応じて、この方法はモードレベル分裂と細粒度分裂に分けられます。

課題2: 整合

アライメントの役割は、複数のモダリティの要素間のクロスモーダル接続と相互作用を識別することです。たとえば、人間の音声とジェスチャーを分析する場合、特定のジェスチャーを話された単語や文章とどのようにアライメントできるでしょうか。

モダリティ間の整合は、長距離の依存関係があったり、あいまいなセグメント (単語や文など) が含まれていたり、1 対 1、多対多、またはまったく整合が取れていない場合があるため、非常に困難です。

1. 離散的なアライメント

その目的は、複数のモダリティの個別の要素間の接続を識別することです。最近の研究には主に 2 つの方法があります。ローカル アライメントは、指定された一致するモダリティ要素のペア間の接続を見つけます。グローバル アライメントは、接続と一致を学習するためにグローバル スケールで実行する必要があります。

2. 継続的な調整

従来の方法は、モード要素がセグメント化され離散化されているという重要な仮定に基づいています。

一部のモダリティには明確なセグメンテーション(文中の単語やフレーズ、画像内のオブジェクト領域など)がありますが、連続信号(金融や医療の時系列など)、時空間データ、明確な意味的境界のないデータ(MRI 画像など)など、多くの場合、セグメンテーションの境界を見つけるのは簡単ではありません。

最近のいくつかの研究では、連続信号を適切な粒度で個別の要素に分割する連続ワーピングとモダリティセグメンテーションに基づく方法が提案されています。

3. 文脈に沿った表現

その目標は、すべてのモーダル接続と相互作用をモデル化して、より優れた表現を学習することです。これは、音声認識、機械翻訳、メディア記述、視覚的な質問応答などのさまざまな下流タスクでより優れたパフォーマンスを実現するための中間ステップ (潜在的なステップ) と見なすことができます。

この論文では、コンテキスト表現に関する研究を以下のように分類しています。

(1)どちらの方向にも対称なモダリティペア間の無向接続を捉えることができる共同無向アライメント。

(2)クロスモーダル指向性アライメント。これは、ソースモダリティの要素をターゲットモダリティと指向的にリンクし、非対称接続モデルを確立する。

(3)グラフィカルアライメントは、無向アライメントまたは有向アライメントの順序パターンを要素間の任意のグラフ構造に一般化します。

課題3: 推論

推論は、通常、複数の推論ステップを通じて、マルチモーダル配置と問題構造を活用し、知識を組み合わせることとして定義されます。

1. 構造モデリング

このステップの目的は、通常は原子、関係、および推論プロセスをパラメーター化するデータ構造を通じて、構成の階層関係をキャプチャすることです。

一般的に使用されるデータ構造には、ツリー、グラフ、ニューラル モジュールなどがあり、潜在的な階層構造、時間構造、インタラクティブ構造のモデリングに関する最近の研究と、潜在的な構造が不明な場合に構造を発見する研究を紹介します。

2. 中級概念

この問題は、推論中に単一のマルチモーダル概念をパラメータ化する方法を検討します。

標準的なニューラル アーキテクチャでは、中間概念は通常、密なベクトル表現ですが、解釈可能な注意マップ、離散シンボル、および推論の中間媒体としての言語に関する研究も多数あります。

3. 推論パラダイム

このセクションでは、主に、単一のマルチモーダル証拠から、ますます抽象的な概念を推論する方法について説明します。

ローカル表現融合(加法、乗法、テンソルベース、アテンションベース、シーケンシャル融合など)の進歩は一般的にここで適用できますが、推論の目標は、マルチモーダル問題に関するドメイン知識を活用して推論中の解釈可能性を向上させることであり、論理演算子と因果演算子を介して推論を明示的にモデル化する最近の方向性を例示することに重点を置いています。

4. 外部知識

知識は、構成と構造を定義する研究から得られます。知識は通常、タスク固有のデータセットに関するドメイン知識から得られます。

ドメイン知識を使用して構成構造を事前に定義する代わりに、最近の研究では、直接的なタスクドメインの外で広く利用可能だが弱く監視されているデータなどのデータ駆動型方法を使用して自動推論を行う方法も検討されています。

課題4: 生成

モデルは、要約、翻訳、作成を通じて、クロスモーダル相互作用、構造、一貫性を反映した独自のモダリティを生成するための生成プロセスを学習する必要があります。これらの 3 つのカテゴリは、テキスト生成の分類方法に従い、入力モダリティから出力モダリティへの情報の変化に応じて区別されます。

1. 要約

要約の目的は、データを圧縮し、元のコンテンツの最も重要な情報や関連性の高い情報を表す要約を作成することです。テキスト形式に加えて、画像、ビデオ、オーディオなどのモダリティの要約も含まれます。

ほとんどのアプローチは、マルチモーダル データからテキスト要約を生成することにのみ焦点を当てていますが、生成されたテキスト要約を補完する要約画像を生成する方法についてもいくつかの方向性が検討されています。

2. 翻訳

翻訳の目的は、意味的なつながりと情報コンテンツを尊重しながら、あるモダリティを別のモダリティにマッピングすることです。たとえば、画像の説明的なキャプションを生成すると、視覚的なコンテンツに対する目の不自由な人のアクセシビリティが向上します。

マルチモーダル翻訳は、高次元構造化データの生成とその評価など、新たな課題ももたらします。主流の方法は、パラダイムベースの方法と生成モデル法に分けられます。前者は、異なるモダリティ間の翻訳のトレーニングインスタンスからの取得に限定されますが、翻訳の忠実度を保証できます。後者は、データ外の任意の補間インスタンスに翻訳できますが、品質、多様性、評価の面で課題があります。

これらの課題にもかかわらず、大規模翻訳モデルの最近の進歩により、テキストから画像、テキストからビデオ、オーディオから画像、テキストから音声、音声からジェスチャー、話者から聞き手、言語からジェスチャー、音声と音楽の生成において、驚くほど高品質のコンテンツが生成されています。

3. 創造

作成の目的は、小規模な初期例または潜在的な条件変数から、新しい高次元データ (テキスト、画像、音声、ビデオ、その他のモダリティをカバーできます) を生成することです。条件付きデコード プロセスは非常に困難であり、モデルには次の要件があります。

(1)条件付き:最初のシードから一連の離れた並列モダリティへの意味マッピングを保存する。

(2)同期性:モダリティ間の意味の一貫性

(3)ランダム:特定の状態で多くの可能性のある子孫を捕獲する。

(4)可能な長距離範囲内で自動的に帰還する。

チャレンジ5: 転送

その目的は、モダリティとその表現の間で知識を転送することです。主に、2 番目のモダリティから学習した知識 (予測されたラベルや表現など) が、最初のモダリティでトレーニングされたモデルにどのように役立つかを探ります。

この問題に対処することは、プライマリ モダリティのリソースが限られている場合 (ラベル付きデータの不足、ノイズの多い入力、信頼できないラベルなど) に特に重要です。セカンダリ モダリティ情報の転送によって、プライマリ モダリティでは見られなかった新しい動作が生成される可能性があるためです。

1. クロスモーダル転送

ほとんどの場合、2 番目のモダリティ用にラベル付きまたはラベルなしのデータを収集し、強力な教師ありモデルまたは事前トレーニング済みモデルをトレーニングする方が簡単です。その後、これらのモデルを主要なモダリティを含む下流のタスクに合わせて調整または微調整して、ユニモーダル転送と微調整をクロスモーダル設定に拡張できます。

2. マルチモーダル共学習

マルチモーダル協調学習は、2 つのモダリティ間で中間表現空間を共有することにより、二次モダリティを通じて学習した情報を一次モダリティを含むターゲット タスクに転送することを目的としています。これらの方法の本質は、すべてのモダリティにわたって単一の共同モデルを構築することです。

3. モデル誘導

協調学習とは異なり、モデル誘導法では、一次モダリティと二次モダリティのユニモーダル モデルを分離しますが、両方のモデルの動作を要約することを目的としています。

共同トレーニングは、モデルの一般化の一例です。共同トレーニングでは、2 つの学習アルゴリズムがデータの各ビューで個別にトレーニングされ、各アルゴリズムの予測を使用して、ラベルのない新しい例に疑似ラベルを付け、他のビューのトレーニング セットを拡張します。つまり、情報は、共有表現空間ではなく、モデル予測を介して複数のビュー間で転送されます。

課題6: 定量化

定量化の目的は、マルチモーダル モデルに関するより深い経験的および理論的研究を実施して洞察を獲得し、実際のアプリケーションにおけるモデルの堅牢性、解釈可能性、信頼性を向上させることです。

1. 異質性の次元

このセクションでは、マルチモーダル研究における異質性の共通の側面と、それがその後どのようにモデリングと学習に影響するかを理解することに焦点を当てます。

2. モダリティの相互接続

モダリティ間の接続と相互作用は、マルチモーダル モデルの重要な構成要素であり、データセットとトレーニング済みモデルにおけるモダリティの相互接続の性質を視覚化し、理解するための関連作業を促進します。

研究者たちは最近の研究を定量化の2つの領域に分けました。

(1)つながり:モダリティがどのように関連し、共通点を共有しているか。

(2)相互作用:推論中に様相要素がどのように相互作用するか。

3. マルチモーダル学習プロセス

最後の質問は主に、異種データから学習する際にモデルが直面する学習と最適化の課題について取り上げています。この論文では、主に次の 3 つの側面から関連する研究を紹介しています。

(1)モダリティやタスクを越えた一般化

(2)バランスのとれた効率的なトレーニングを実現するための最適化の向上

(3)実際の展開における性能、堅牢性、複雑さの間のトレードオフ。

<<:  LeCun 氏はリツイートしました: 中国がトップ AI カンファレンスのリストで首位を占め、米国が 2 位です!中国と米国が世界の数学計算分野を支配している

>>:  1000 以上の AI エージェントが復活、メタバースの OpenAI バージョンがリリースされる? ChatGPT+VR が「ウエストワールド」を 100% 復元

推薦する

ロボットの認識システムはどのように機能するのでしょうか?

ビジュアルサーボシステムは、視覚情報をフィードバック信号として使用し、ロボットの位置と姿勢を制御およ...

AIが達成できること

半世紀にわたり、人工知能はコンピュータ開発の夢でしたが、常に手の届かないところにありました。しかし、...

マイクロソフト中国CTO: AIを祭壇から外してください

[[257901]]まとめ明らかに、中国における人工知能に関する誇大宣伝は、当初の意図から逸脱してい...

2020年末総括:国際AI技術研究と政府と企業の協力の進捗状況の概要

2020年、「人工知能」は産業発展における高頻度のホットワードとなり、市場展望は業界全体で広く認知さ...

ディープラーニングのこれらの概念をすべて理解できましたか? TF、TLT、TRT、DS

最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...

...

人工知能、機械学習、認知コンピューティングの入門

何千年もの間、人々はインテリジェントな機械を構築する方法について考え続けてきました。それ以来、人工知...

犯罪者をターゲットにした新しい生成AIツールについて知っておくべきこと

OpenAI の ChatGPT などの大規模言語モデル (LLM) に基づく生成 AI チャットボ...

GNN の科学: テンセント AI ラボと清華大学が、等変グラフ ニューラル ネットワークをレビューする論文を共同で発表

近年、伝統的な自然科学の問題の解決においてますます多くの人工知能手法が活躍しており、いくつかの重要な...

人間をより人間らしくし、機械に触覚を与えましょう!電子皮膚の専門家4人の最新の成果のレビュー

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

...

...

米空軍がAI技術を活用して「戦闘効率」を向上させる方法を明らかにする

データの規模を拡大し、関連するリテラシーを向上させることで、米空軍のさまざまな部門と人員は、意思決定...

最高のビジネス インテリジェンス ソフトウェア: ビジネス インテリジェンス ツールの比較

ビジネス インテリジェンス (BI) およびデータ分析ツールは、さまざまなデータ ソースを単一のプラ...