マイクロソフト、マルチモーダルアプローチでAIの理解能力を向上させるプロジェクトRumiを実証

マイクロソフト、マルチモーダルアプローチでAIの理解能力を向上させるプロジェクトRumiを実証

新興技術のデジタル時代において、大規模言語モデル (LLM) は、人間社会と文化の多くの側面に革命をもたらし、コンピューターとのやり取りの方法を再形成する強力なツールとして登場しました。しかし、まだ解決すべき重要な課題が残っています。 LLM の限界は明らかであり、会話の文脈やニュアンス、プロンプトの質や特異性を把握できないというギャップが明らかになっています。

しかし、LLM は主にテキストの入出力に依存しており、自然なコミュニケーションにおけるイントネーション、表情、ジェスチャー、ボディランゲージなどの手がかりを無視しているため、理解に偏りが生じる可能性があります。

これらの手がかりは総称してパラ言語と呼ばれ、Microsoft の Project Rumi は、非言語的手がかりと文脈のニュアンスの理解の限界に対処することで LLM の機能を強化することを目指しています。 LLM とのプロンプトベースのやり取りにパラ言語入力を組み込み、コミュニケーションの質を向上させます。研究者らは、オーディオおよびビデオ モデルを使用して、データ ストリーム内の非言語的な手がかりをリアルタイムで検出しました。ユーザーの音声からのパラ言語情報には 2 つの別々のモデルが使用されます。1 つは音声の韻律、ピッチ、抑揚用で、もう 1 つは音声の意味用です。彼らは、ビジュアルトランスフォーマーを使用してフレームをエンコードし、ビデオから顔の表情を認識しました。ダウンストリーム サービスは、パラ言語情報をテキストベースのプロンプトに組み込みます。このマルチモーダルアプローチは、ユーザーの感情と意図の理解を強化し、人間と AI のインタラクションを次のレベルに引き上げることを目的としています。

この研究では、研究者らは、ユーザーの意図に関する重要な情報を伝達する上でパラ言語学が果たす役割について簡単に調査しただけである。今後は、モデルをさらに改良し、効率化するためのモデリングを行う予定です。また、標準的なビデオから得られる心拍数の変動、認知、環境認識などの詳細も追加したいと考えています。これらはすべて、AI との次世代のインタラクションに暗黙の意味と意図を追加するための大規模な取り組みの一部です。

<<:  ロボットが人間のように学習できるようにする Google RT-2 AI モデルとは何ですか?

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

GPT-4 には意識がありません!しかし、チューリング賞受賞者のベンジオ氏らの88ページの論文は、「スカイネット」が遅かれ早かれやってくることを示唆している。

今日まで人工知能は発展してきましたが、人工知能は意識を持っているのでしょうか?チューリング賞受賞者の...

清華大学などは、シンボリックメモリと組み合わせて、大規模モデルの複雑な推論能力を向上させるChatDBを提案した。

ChatGPT、GPT-4、PaLM、LLaMAなどの大規模言語モデルの普及に伴い、大規模言語モデ...

...

MITはディープラーニングが計算限界に近づいていると警告。ネットユーザー:減速は良いことだ

MIT の調査によると、ディープラーニングは計算能力の限界に近づいているようです。 [[334431...

ChatGPTは30億ドルで訴えられました! OpenAIが相次いで訴訟される

ChatGPTが世界中で人気を博すにつれ、その開発元であるOpenAIはますます多くの疑問や批判に直...

携帯電話は小型ロボットに置き換えられるのでしょうか?中国工程院院士:人工知能技術のブレークスルーが鍵

[[361089]] 「ロボットは製造業の頂点であり、その応用と製造は国のハイエンド製造業の重要な指...

6種類の負荷分散アルゴリズムの概要

C言語を学んだ友人やIT関係の人ならアルゴリズムには詳しいと思います。したがって、分野が異なれば、ア...

ディープラーニングと機械学習を混同しないでください。

[[313942]] [51CTO.com クイック翻訳] ご存知のとおり、ディープラーニングは人...

...

...

AI採用を本当に公平にすることは難しいかもしれない

アマゾンのAI採用ツールが女性差別をしていたことが発覚し、公式がチーム解散を発表。これで一件落着か?...

デザイナーが危険にさらされています! AI広告デザイン分野におけるSuningの探求と実践

[51CTO.comより引用] 人工知能時代の到来とともに、商業デザイン分野における芸術と技術の競争...

機械学習研究動向の分析: TensorFlow が Caffe を上回り、最も一般的に使用される研究フレームワークに

冗談ですが、論文提出のトピックは、Adam で最適化された、完全な畳み込みエンコーダー/デコーダー ...

サイボーグの時代が到来すると予想される:人間の体が機械に置き換えられる時代

ロボット工学ジャーナリストで専門家のクリス・ミドルトン氏は、早ければ2070年には私たちの体全体がロ...

AIが高度な数学の核心を突破、微分方程式と不定積分を1秒以内に解き、その性能はMatlabをはるかに上回る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...