Microsoft は、全二重音声インタラクションにおいて画期的な進歩を達成しました。ロボットは本当に「人間」になる

Microsoft は、全二重音声インタラクションにおいて画期的な進歩を達成しました。ロボットは本当に「人間」になる

マイクロソフト(アジア)インターネットエンジニアリングアカデミーは、新世代の音声インタラクション技術「Full-duplex Voice Sense」の発売を先導し、製品化を完了したと発表した。

[[223494]]

全二重は通信伝送の分野における用語で、同時に 2 方向にデータを伝送できます。対応する用語は半二重です。

従来の音声認識と機械の会話は、半二重通信に似ています。1 ラウンドの認識でも、複数ラウンドの連続認識でも、機械が理解して応答する前に、人が文を言い終える必要があります。これは、従来の格闘技ゲームのターン制戦闘に少し似ています。

Microsoft の新しいテクノロジは、人間が何を言おうとしているかをリアルタイムで予測し、リアルタイムで応答を生成し、会話のリズムを制御できるため、長距離の音声対話が可能になります。

この技術を使用するスマート ハードウェア デバイスでは、ユーザーは対話のたびにウェイクアップ ワードを言う必要がありません。 1 回のウェイクアップだけで継続的な会話を簡単に実現できるため、人間と機械の間の会話は、人間同士の自然なコミュニケーションに近くなります。

現在、この技術はマイクロソフトのXiaoiceのグローバル製品ラインに初めて実装されています。中国市場では、中国科学技術博物館のXiaoice電話ブースだけでなく、マイクロソフトはXiaomiと緊密に協力して、MiエコシステムのYeelight音声アシスタントの市販ハードウェア製品にこの技術を統合しています。

これは、全二重音声対話感覚機能を搭載した世界初のスマートデバイスであり、Microsoft XiaoIceを内蔵した初の「デュアルAI」スマートデバイスでもあります。

日本市場では、この技術を通じて「りんな」がライブ放送プラットフォームに実装され、***車載インテリジェントプロジェクトも路上テストを開始しました。

マイクロソフトは、今後 6 か月以内にこのテクノロジをさらに多くの製品ラインに拡大する予定です。

マイクロソフトのグローバル上級副社長兼マイクロソフトインターネットエンジニアリングアカデミー(アジア)の社長である王永東博士は次のように述べた。「今後1年間で、人工知能の応用は特定の技術分野から総合的な能力を発揮する段階へとますます移行すると予測しています。マイクロソフトはこの点について綿密な準備を進めてきました。全二重音声対話技術の発表は、コンピューター音声技術だけでなく、自然言語処理、人工知能コンテンツ作成などの分野も含みます。これは、これらの分野におけるマイクロソフトの長期にわたる準備と総合的な応用の結果の1つです。」

Microsoft XiaoIce のグローバル R&D 責任者である Zhou Li 博士は、次のように述べています。「実装された製品データとユーザー フィードバックから、共通の現象が観察されました。ユーザーが Microsoft XiaoIce の全二重音声対話感覚体験を使用すると、他の音声アシスタントとの対話に不快感を覚えるようになり、他の音声アシスタントに起動ワードを言うのを忘れることも頻繁にあります。新しいテクノロジにより、擬人化の自然さが大幅に向上し、従来の 1 回限りまたは複数回の連続音声対話体験に対するユーザーの満足度が急速に低下しました。古いものと新しいものを交互に使用するこの現象は、当社の R&D の期待と一致しています。」

<<:  AI as a Service: AIとクラウドコンピューティングが出会うとき

>>:  AIとIoTが教育に与える影響

ブログ    

推薦する

汎用人工知能の実現に私たちはどれくらい近づいているのでしょうか?

今日、人工知能は人間が行う作業の一部をより良く行うために懸命に取り組んでいます。たとえば、AI は人...

...

機械学習における小規模データの重要性

ビッグデータが何であるかを知っている人は多いですが、スモールデータと機械学習におけるその重要性を知っ...

人間の心臓細胞から作られたロボット魚は本物の魚よりも速く泳ぐ。ハーバード大学の新しい研究がサイエンス誌に掲載される。

心臓ペースメーカーの正確なメカニズムはわかっていませんが、この物理的プロセスを再現する「心臓」を私た...

...

...

効率が1200倍にアップ! MIT、医薬品製造向けの新たなAIモデルを開発

海外メディアTech Xploreによると、MITの研究者らは最近、新しいタンパク質分子の構造を事前...

...

Google DeepMind の最新研究: 敵対的攻撃は人間に対しても有効であり、人間も AI も花瓶を猫と間違える!

人間のニューラルネットワーク(脳)と人工ニューラルネットワーク(ANN)の関係は何ですか?ある先生が...

ロボットと自動化技術は、パンデミックの新たな常態の中でどのように新しい雇用を生み出すのでしょうか?

AI テクノロジーと自動化ソリューションは、仕事を奪う諸悪の根源なのでしょうか、それとも新しいプラ...

国際翻訳コンテストで優勝したモデルがByteDanceによってオープンソース化された。

Transformer などの主流のテキスト生成アルゴリズムの単語単位の生成は、並列計算に適した ...

顔認証で支払うのはリスクがあります! CCTVは、自分の顔をスキャンして数万元のローンを組んだ女性を暴露した。

顔スキャン決済は私たちの生活に入り込んでいます。普通のスマートフォンのカメラに顔を向けるだけで、本人...

動物や人間には学習の臨界期があり、ディープニューラルネットワークにも臨界期がある。

[[409851]] 0 はじめにこの記事で議論されている問題は、ICLR 2019の記事「CRI...

なぜ中国はアメリカや日本を抜いて人工知能で世界をリードしているのでしょうか?

[[279809]]北京は世界で最も人工知能企業が集中している都市であり、中国の人工知能分野は世界...

...