研究者たちは、スマートデバイスがAIを使って声の発信元を判断できるようにする準備を進めている。

研究者たちは、スマートデバイスがAIを使って声の発信元を判断できるようにする準備を進めている。

このアイデアはプライバシー擁護者を怖がらせているが、スマートスピーカーの開発者は、ユーザーのウェイクワードを聞かなくてもデバイスを起動できるように取り組んでいる。 Google がすでにこの技術に取り組んでいることは知っていましたが、今ではカーネギーメロン大学の研究者たちがそれに追随し、人工知能の力を使って人の声がどの方向から来ているかを正確に判断する機械学習モデルを開発しました。

[[350720]]

一見、これはそれほど重要ではないように思えるかもしれないが、研究者たちは、IoT デバイスが家庭やオフィス全体で「ますます密集」する未来を計画している。 Alexa 搭載のスマートテレビ、スピーカー、スマートフォンがすべて 1 か所に集まっていると想像してください。ウェイクワードを言うと、これらの各デバイスでコマンド モードがアクティブになる可能性がありますが、これが必要になることはほとんどありません。

この場合、部屋全体のデバイスではなく、特定のスマート デバイスに話しかけたい場合があり、ここでこの研究が役立ちます。このコマンド不要のウェイクアップ方法が他の方法と異なるのは、顔認識技術を必要としないことです。 もちろん、このシステムの精度は、平均的なユーザーがその概念に適応できる能力に大きく依存します。たとえば、ユーザーは、家族や友人に質問するときに、誤ってスマート デバイスの方向に向かって大声で話さないようにする必要があります。しかし、この技術がすぐに一般の人々に利用可能になるとは思えません。

<<:  機械学習技術におけるアンサンブル学習とは何ですか?

>>:  指紋と顔は本当に生体認証を表現できるのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

スタンフォード大学の中国人博士、フェイフェイ・リー氏は、スライドモデルを提案し、NVIDIAと共同で汎用人工知能を研究した。

[[409525]]機械学習は、インテリジェントエージェントの学習効率と一般化能力を大幅に向上させ...

Keras よりも優れた機械学習「モデル パッケージ」: コード 0 個でモデルの作成を開始

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

GPT-4 だけが自己改善可能、GPT-3.5 はできない、MIT と Microsoft のコード生成実験で新たな発見

大規模言語モデル (LLM) は、自然言語からコード スニペットを生成できることが示されていますが、...

...

...

自然災害の予測に関しては、AIはまだ大丈夫でしょうか?

古代から現代に至るまで、自然災害は人類に限りない損失をもたらしてきました。都市社会がますます発展する...

人工知能と機械学習 – これらの流行語を理解していますか?

2017 年現在までに最もよく使われている流行語は人工知能 (AI) と機械学習 (ML) ですが...

...

データ構造とアルゴリズム: グラフ構造

写真グラフ構造は、ツリー構造よりも複雑な非線形構造です。ツリー構造では、ノード間に分岐階層関係があり...

いくつかの一般的な暗号化アルゴリズムのPython実装

私たちは日常生活の中で、暗号化アルゴリズムによく遭遇します。今日は、これらの暗号化アルゴリズムの P...

電子商取引検索における人工知能技術の応用

常に注目度の高い人工知能分野に関連するアプリケーションは、常に大きな注目を集めています。人工知能は電...

ザッカーバーグは涙ながらに300人のチームを解散させた! Meta、Google、その他の大手企業によるMetaverse OSをめぐる戦いが正式に始まったのでしょうか?

Appleの春のカンファレンスまで残り4日となりました。カラフルなAR招待状が届きました。これはク...

PyTorch Lightning モデルを本番環境にデプロイするにはどうすればいいですか?

[51CTO.com クイック翻訳] 機械学習の分野を見ると、ソフトウェアエンジニアリングの原理を...

AIと機械理解の限界を打ち破り、オックスフォード大学のコンピューターサイエンス博士の143ページの論文は3Dオブジェクトの再構築とセグメント化を学ぶ

機械に人間のように三次元の現実世界を知覚する能力を与えることは、人工知能の分野における基本的かつ長年...