マイクロソフト、マルチモーダルアプローチでAIの理解能力を向上させるプロジェクトRumiを実証

マイクロソフト、マルチモーダルアプローチでAIの理解能力を向上させるプロジェクトRumiを実証

新興技術のデジタル時代において、大規模言語モデル (LLM) は、人間社会と文化の多くの側面に革命をもたらし、コンピューターとのやり取りの方法を再形成する強力なツールとして登場しました。しかし、まだ解決すべき重要な課題が残っています。 LLM の限界は明らかであり、会話の文脈やニュアンス、プロンプトの質や特異性を把握できないというギャップが明らかになっています。

しかし、LLM は主にテキストの入出力に依存しており、自然なコミュニケーションにおけるイントネーション、表情、ジェスチャー、ボディランゲージなどの手がかりを無視しているため、理解に偏りが生じる可能性があります。

これらの手がかりは総称してパラ言語と呼ばれ、Microsoft の Project Rumi は、非言語的手がかりと文脈のニュアンスの理解の限界に対処することで LLM の機能を強化することを目指しています。 LLM とのプロンプトベースのやり取りにパラ言語入力を組み込み、コミュニケーションの質を向上させます。研究者らは、オーディオおよびビデオ モデルを使用して、データ ストリーム内の非言語的な手がかりをリアルタイムで検出しました。ユーザーの音声からのパラ言語情報には 2 つの別々のモデルが使用されます。1 つは音声の韻律、ピッチ、抑揚用で、もう 1 つは音声の意味用です。彼らは、ビジュアルトランスフォーマーを使用してフレームをエンコードし、ビデオから顔の表情を認識しました。ダウンストリーム サービスは、パラ言語情報をテキストベースのプロンプトに組み込みます。このマルチモーダルアプローチは、ユーザーの感情と意図の理解を強化し、人間と AI のインタラクションを次のレベルに引き上げることを目的としています。

この研究では、研究者らは、ユーザーの意図に関する重要な情報を伝達する上でパラ言語学が果たす役割について簡単に調査しただけである。今後は、モデルをさらに改良し、効率化するためのモデリングを行う予定です。また、標準的なビデオから得られる心拍数の変動、認知、環境認識などの詳細も追加したいと考えています。これらはすべて、AI との次世代のインタラクションに暗黙の意味と意図を追加するための大規模な取り組みの一部です。

<<:  ロボットが人間のように学習できるようにする Google RT-2 AI モデルとは何ですか?

>>: 

ブログ    

推薦する

アフリカはパンデミックの最中に包括的な接続性を構築しており、明確な投資方針を持っている

テクノロジーと通信の急速な進歩により、自動化革命の時代において、アフリカの大規模かつ急成長中の人口は...

...

マスク氏が突然ツイッター買収を希望、上場廃止に2700億ドルで入札。ツイッターとテスラの株価は下落

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

マインクラフトがAIの街に変身、NPC住民が本物の人間のようにロールプレイ

この立方体の男が、目の前にいる「招かれざる客」の正体について素早く考えている様子を、注意深く見てくだ...

人工知能は人間と議論できる:冒頭の発言は素晴らしかったが、それでもプロの討論者に負けた

最近、学術誌「ネイチャー」に掲載された研究では、人間と競争的な議論に参加できる自律エージェントについ...

業界の資金調達が活発化しています!自動運転技術は物流分野で初めて導入される可能性

2019年、自動運転分野は谷間に向かうかに見えましたが、わずか数か月で業界は徐々に再び熱を帯び始め、...

目に見える機械学習: ニューラルネットワークをゼロから理解する

機械学習に関する古いジョークがあります。機械学習は高校のセックスのようなものです。誰もがやっていると...

Metaは14秒でビデオを再構築し、役割を変更できるため、ビデオ合成が44倍高速化されます。

今日の人工知能の発展レベルを考えると、テキストから画像への転送、画像からビデオへの転送、画像/ビデオ...

過去20年間、Huilianは政府サービスにおけるグローバルインテリジェンスを実現してきました。

農業、工業、情報、知能、社会は常に進歩しています。長い発展の過程で、生産手段と生産ツールは常に変化し...

AI 開発者: AI 分野を選択するには?

機械学習アルゴリズムは、より広範で信頼性の高いデータをリアルタイムで提供することができ、インテリジェ...

AIがグローバルビジネスのデータセンター管理を推進

現在、革命的な変化の波が進行しており、企業が顧客や企業にサービスを提供する方法を変えていると考えられ...

Tongyi Qianwenが再びオープンソース化、Qwen1.5は6つのボリュームモデルを導入、そのパフォーマンスはGPT3.5を上回る

春節の直前に、同義千文モデル(Qwen)バージョン1.5がリリースされました。今朝、新バージョンのニ...

フェイフェイ・リー氏のチームは、一人暮らしの高齢者のCOVID-19症状を監視する家庭用AIシステムを開発

[[321322]]フェイフェイ・リーCOVID-19パンデミックにより、高齢者の介護はさらに困難に...

...

ビジネス界におけるAIと自動化の変革的役割

人工知能や自動化などの破壊的技術の急速な発展により、現代の企業は変化しています。これらのテクノロジー...