マルチモーダルディープラーニング:ディープラーニングを用いてさまざまな情報を統合する

マルチモーダルディープラーニング:ディープラーニングを用いてさまざまな情報を統合する

ディープラーニングを使用して、さまざまなソースからの情報を統合します。

マルチモーダルデータ

私たちの世界に対する経験はマルチモーダルです。つまり、私たちは物を見て、音を聞き、質感を感じ、香りを嗅ぎ、味を味わいます。モダリティとは、何かが起こる方法や経験される方法を指し、研究課題が複数のモダリティを包含する場合、それはマルチモーダルとして特徴付けられます。 AI が私たちの周囲の世界を理解する上で進歩を遂げるためには、これらのマルチモーダル信号を同時に解釈できる必要があります。

たとえば、画像はラベルやテキストによる説明と関連付けられることが多く、テキストには記事の中心的なアイデアをより明確に表現するための画像が含まれます。モードによって統計特性が大きく異なります。

マルチモーダルディープラーニング

異なるモダリティや情報タイプを組み合わせて効果を高めることは直感的には魅力的な作業ですが、実際には、異なるノイズ レベルやモダリティ間の競合をどのように組み合わせるかが課題となります。さらに、モデルは予測結果に異なる定量的な影響を及ぼします。実際に最も一般的なアプローチは、異なる入力の高レベルの埋め込みを連結し、ソフトマックスを適用することです。

異なるタイプのニューラル ネットワークを使用して特徴を抽出するマルチモーダル ディープラーニングの例。

このアプローチの問題点は、すべてのサブネットワーク/パターンに同等の重要性を与えることですが、これは現実のシナリオではほとんど起こりません。

すべてのモードが予測に等しく貢献する

ネットワークの重み付け組み合わせ

各入力モダリティが出力予測に対して学習された貢献 (Theta) を行えるように、サブネットワークの加重組み合わせを採用しています。

最適化の問題は次のようになります。

各サブネットワークに Theta 重みを与えた後の損失関数。

サブネットワークに重みを付けた後の出力を予測します。

全部使ってください!

正確性と解釈可能性

私たちは、2 つの現実世界のマルチモーダル データセットで SOTA を達成しました。

マルチモーダル感情強度コーパス (MOSI) データセット - 1 ミリ秒ごとに音声特徴が注釈付けされた 417 本の注釈付きビデオ。注釈付きのデータ ポイントは合計 2199 個あり、感情の強さは -3 から +3 までの線形スケールを使用して、非常に否定的から非常に肯定的まで定義されます。

モードには次のものがあります:

1. テキスト

2. オーディオ

3. 言語

各モダリティの感情予測への貢献

転写開始部位予測 (TSS) データセット - 転写は遺伝子発現の最初のステップであり、特定の DNA セグメントが RNA (mRNA) にコピーされます。転写開始部位は転写が始まる場所です。 DNA 断片のさまざまな部分には、その存在に影響を与えるさまざまな特性があります。 TSS は 3 つの部分に分かれています。

  1. 上流DNA
  2. 下流DNA
  3. TSS の場所

これまでの最先端の結果と比べて 3% という前例のない改善を達成しました。 TATA ボックスの下流の DNA 領域がこのプロセスに最も大きな影響を与えます。

<<:  国際数学オリンピック連続優勝、基礎学問の科学技術戦略価値の分析

>>:  人工知能が詩を書きました。この詩の知的財産権は誰が所有しているのでしょうか?

ブログ    

推薦する

推論効率は ControlNet の 20 倍以上です。 Google、モバイルデバイスで利用可能な画像生成制御モデル「MediaPipe Diffusion」プラグインをリリース

近年、拡散モデルはテキストから画像への生成において大きな成功を収め、画像生成品質の向上、推論パフォー...

...

米連邦取引委員会は、ChatGPTによるデータ漏洩と回答の捏造を含むOpenAIに対する徹底的な調査を開始した。

ワシントンポスト紙によると、7月13日、米国連邦取引委員会(FTC)はサンフランシスコに拠点を置くO...

Facebookは視覚障害者向けに写真の説明を改善するためにAIを活用

[[377490]]海外メディアの報道によると、フェイスブックは1月21日、視覚障害のあるユーザー向...

これまで見たことのないアルゴリズムのダンス(ビデオ)

[[21488]]サピエンティア大学の以下のビデオをご覧ください。学生たちが中央ヨーロッパの民族舞...

AIとビッグデータに焦点を当て、インテルとToutiaoが技術革新研究所を設立

[原文は51CTO.comより] 8月22日、インテルとToutiaoの共同戦略協力記者会見と「デー...

何が足りないのでしょうか?現在の機械学習教育の欠点

[[347910]]ビッグデータダイジェスト制作出典: thegradient編集者: フィッシャー...

DeepMindは「Transformerは事前学習データを超えて一般化できない」と指摘しているが、疑問視する人もいる。

マスク氏の xAI が Grok を発表した翌日、xAI はプロンプトエンジニアリングと説明可能性の...

携帯電話に搭載された3D姿勢推定は、モデルサイズが類似モデルの1/7しかないが、誤差はわずか5cmである。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能:ニューノーマルにおける成長の原動力

人工知能技術は急速に発展し、成熟しつつあります。多くの最新のアルゴリズムと問題解決手法が日々革新され...

賢くなる方法: 神経科学にヒントを得た人工知能

[[201067]]私はデイビッド・マーが「神経科学のチューリング」のような存在だといつも感じていま...

...

リアルスティールの実写版!山東省の3人組のチームが、最小遅延12ミリ秒の史上最速ボクシングロボットを開発した。

この男性が自分の動きでロボットを操作している様子を注意深く見てください。彼がパンチを繰り出すと、ロボ...

低速自動運転のためのパノラマ/魚眼カメラによる近距離認識

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...