マイクロソフト、マルチモーダルアプローチでAIの理解能力を向上させるプロジェクトRumiを実証

マイクロソフト、マルチモーダルアプローチでAIの理解能力を向上させるプロジェクトRumiを実証

新興技術のデジタル時代において、大規模言語モデル (LLM) は、人間社会と文化の多くの側面に革命をもたらし、コンピューターとのやり取りの方法を再形成する強力なツールとして登場しました。しかし、まだ解決すべき重要な課題が残っています。 LLM の限界は明らかであり、会話の文脈やニュアンス、プロンプトの質や特異性を把握できないというギャップが明らかになっています。

しかし、LLM は主にテキストの入出力に依存しており、自然なコミュニケーションにおけるイントネーション、表情、ジェスチャー、ボディランゲージなどの手がかりを無視しているため、理解に偏りが生じる可能性があります。

これらの手がかりは総称してパラ言語と呼ばれ、Microsoft の Project Rumi は、非言語的手がかりと文脈のニュアンスの理解の限界に対処することで LLM の機能を強化することを目指しています。 LLM とのプロンプトベースのやり取りにパラ言語入力を組み込み、コミュニケーションの質を向上させます。研究者らは、オーディオおよびビデオ モデルを使用して、データ ストリーム内の非言語的な手がかりをリアルタイムで検出しました。ユーザーの音声からのパラ言語情報には 2 つの別々のモデルが使用されます。1 つは音声の韻律、ピッチ、抑揚用で、もう 1 つは音声の意味用です。彼らは、ビジュアルトランスフォーマーを使用してフレームをエンコードし、ビデオから顔の表情を認識しました。ダウンストリーム サービスは、パラ言語情報をテキストベースのプロンプトに組み込みます。このマルチモーダルアプローチは、ユーザーの感情と意図の理解を強化し、人間と AI のインタラクションを次のレベルに引き上げることを目的としています。

この研究では、研究者らは、ユーザーの意図に関する重要な情報を伝達する上でパラ言語学が果たす役割について簡単に調査しただけである。今後は、モデルをさらに改良し、効率化するためのモデリングを行う予定です。また、標準的なビデオから得られる心拍数の変動、認知、環境認識などの詳細も追加したいと考えています。これらはすべて、AI との次世代のインタラクションに暗黙の意味と意図を追加するための大規模な取り組みの一部です。

<<:  ロボットが人間のように学習できるようにする Google RT-2 AI モデルとは何ですか?

>>: 

ブログ    
ブログ    
ブログ    

推薦する

古典的な論文を実装するための60行のコード:ポアソンディスクサンプリングを完了するのに0.7秒、Numpyよりも100倍高速

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

Daguan Data: NLP の概要と自動テキスト分類アルゴリズムの詳細な説明

自然言語処理は人工知能の分野で常に重要なトピックであり、2018年も話題となりました。大量のテキスト...

IBM Cloud Pack for Data が Wunderman Thompson の再開ガイドの作成を支援

[[338356]]世界中のコミュニティや企業がコロナウイルスの経済的影響を理解し、最終的な回復に備...

2020年のAI目視検査の応用価値

【51CTO.com クイック翻訳】過去 10 年間、製造業者は継続的に利益を向上させるために自動化...

これらの 9 つの仕事が人工知能に置き換えられない理由

人工知能 (AI) と機械学習 (ML) の機能は徐々に拡大していますが、創造性、共感、感情認識など...

...

...

Arthur Bench に基づいて LLM 評価を実施するにはどうすればよいでしょうか?

こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...

ChatGPTはPyTorchなしでは構築できません。LeCunの発言は白熱した議論を引き起こしました。モデルメーカーが重量を公開しない理由は、

ここ2日間で、オープンソースの話題が再び人気を集めています。 「オープンソースがなければ、AI は何...

...

さまざまな業界がエッジAIから得られるメリット

ご存知のとおり、人工知能は計算能力を消費し、多数のデータセンターを必要とします。 しかし、適切な状況...

ガートナーレポート: 世界のカスタマーサービスセンターが会話型 AI を導入、今年の支出は 16.2% 増加

8月1日、市場調査会社ガートナーが発表した最新のレポートによると、世界中のカスタマーサービスセンター...