マイクロソフト、マルチモーダルアプローチでAIの理解能力を向上させるプロジェクトRumiを実証

マイクロソフト、マルチモーダルアプローチでAIの理解能力を向上させるプロジェクトRumiを実証

新興技術のデジタル時代において、大規模言語モデル (LLM) は、人間社会と文化の多くの側面に革命をもたらし、コンピューターとのやり取りの方法を再形成する強力なツールとして登場しました。しかし、まだ解決すべき重要な課題が残っています。 LLM の限界は明らかであり、会話の文脈やニュアンス、プロンプトの質や特異性を把握できないというギャップが明らかになっています。

しかし、LLM は主にテキストの入出力に依存しており、自然なコミュニケーションにおけるイントネーション、表情、ジェスチャー、ボディランゲージなどの手がかりを無視しているため、理解に偏りが生じる可能性があります。

これらの手がかりは総称してパラ言語と呼ばれ、Microsoft の Project Rumi は、非言語的手がかりと文脈のニュアンスの理解の限界に対処することで LLM の機能を強化することを目指しています。 LLM とのプロンプトベースのやり取りにパラ言語入力を組み込み、コミュニケーションの質を向上させます。研究者らは、オーディオおよびビデオ モデルを使用して、データ ストリーム内の非言語的な手がかりをリアルタイムで検出しました。ユーザーの音声からのパラ言語情報には 2 つの別々のモデルが使用されます。1 つは音声の韻律、ピッチ、抑揚用で、もう 1 つは音声の意味用です。彼らは、ビジュアルトランスフォーマーを使用してフレームをエンコードし、ビデオから顔の表情を認識しました。ダウンストリーム サービスは、パラ言語情報をテキストベースのプロンプトに組み込みます。このマルチモーダルアプローチは、ユーザーの感情と意図の理解を強化し、人間と AI のインタラクションを次のレベルに引き上げることを目的としています。

この研究では、研究者らは、ユーザーの意図に関する重要な情報を伝達する上でパラ言語学が果たす役割について簡単に調査しただけである。今後は、モデルをさらに改良し、効率化するためのモデリングを行う予定です。また、標準的なビデオから得られる心拍数の変動、認知、環境認識などの詳細も追加したいと考えています。これらはすべて、AI との次世代のインタラクションに暗黙の意味と意図を追加するための大規模な取り組みの一部です。

<<:  ロボットが人間のように学習できるようにする Google RT-2 AI モデルとは何ですか?

>>: 

推薦する

...

顔認識は安全ですか?どのような個人情報を慎重に保護すべきでしょうか?

デジタル化が進むにつれ、消費者は便利なインターネットサービスを体験できるようになり、携帯電話でタオバ...

顔認識技術の法的ギャップを埋める必要がある

顔認識などの新興技術が普及し、何百万人もの人々の生活に入り込むにつれて、技術の使用をめぐる論争がます...

クラウド コンピューティング テクノロジーの進化において、人工知能はどのような役割を果たすのでしょうか?

[[438415]]クラウド コンピューティング業界が成長を続ける中、クラウド コンピューティング...

...

いつ仕事を辞めるかを予測できる 9 つの AI 活用例

[51CTO.com 速訳] 人工知能は今や脂身の多い肉となり、誰もがそれを利用し、人工知能の真髄を...

AI には明るい未来があります。これらの 5 つのことをうまく実行すれば、将来の市場で発言権を持つ可能性が高まります。

2021年の初め、AIの軌道は混乱していました。業界のスター企業から悪いニュースが続々と届き、上場...

Nature: 機械視覚による行動理解と脳神経の間には本質的なつながりがあるのでしょうか?上海交通大学のLu Cewu氏のチームはマッピングモデルを構築した

被験者が特定の行動をとったとき、その脳はそれに対応する安定した脳神経パターンのマッピングを生成するで...

コンピュータービジョンを例に、AIを仕事に導入する方法を説明します。

[[210306]]以下は、AI ビジネスを始める方法の紹介です。これは比較的人気のある科学講演で...

機械学習における興味深いアルゴリズム 10 選

この記事を通じて、ML でよく使用されるアルゴリズムについて常識的に理解することができます。コードや...

...

...

ネットワークケーブルに沿って登ることが現実になりました。Audio2Photorealは、対話を通じてリアルな表情や動きを生成できます

携帯電話の冷たい画面を通して友達とチャットするときは、相手の口調を推測する必要があります。彼/彼女が...