音声認識とアプリケーションシナリオの組み合わせが未来への新たな章を開く

音声認識とアプリケーションシナリオの組み合わせが未来への新たな章を開く

過去 20 年間で、音声認識技術は大きな進歩を遂げ、研究室から市場へと移行し始めました。今後10年間で、音声認識技術は産業、家電、通信、自動車エレクトロニクス、民生用エレクトロニクスなどさまざまな分野に導入されると予想されています。音声認識は人工知能の中で最も早く開発され、最初に商用化された技術であり、近年、ディープラーニング技術の進歩により認識精度が大幅に向上し、業界の急成長​​の波につながっています。専門家らは音声認識の将来の発展についても素晴らしい議論を交わしました。

[[189867]]

iFLYTEK研究所副所長 王時進

王世進氏は、音声認識は人間とコンピュータのインタラクションにおいて非常に重要なモジュールであると述べました。PC 時代から現在のモバイル インターネット時代まで、人間とコンピュータのインタラクションはマウスとキーボードからスマートフォンやパッドなどのマルチタッチへと移行しました。スマートハードウェアの時代では、タッチだけでなく音声や視覚に基づくインタラクションも含め、インタラクションはより多様化しています。もともと機械中心だった人間とコンピュータの相互作用は、徐々に人間を中心とした自然な相互作用へと移行しつつあります。

彼は、将来、あらゆるもののインターネット化の波により、音声をベースに、キーボード、タッチ、視覚、ジェスチャーで補完されたインタラクションの時代がすぐに到来すると信じています。

従来の音声対話について語る際、王世進氏はいくつかの欠点を挙げた。第一に、対話距離が近くなければならない。第二に、発音が標準的でなければならない。第三に、環境が静かでなければならない。第四に、人間と機械は連続的に会話することができない。

iFLYTEKは、上記の問題を解決し、人工知能の時代にインテリジェントな人間とコンピューターの相互作用インターフェースを提供することを目的として、2015年にAIUIを提案しました。 AIUIは遠距離ウェイクアップと認識ノイズ低減ソリューションを提供し、全国の約17方言と互換性があり、ビジネスシナリオに基づいて全二重インタラクションとマルチラウンド会話を行うことができます。同時に、iFlytek Super Brainの認知インテリジェンスと組み合わせることで、機械はよりインテリジェントにインタラクションすることができます。

AIUI は、ソフトウェアとハ​​ードウェアの統合、クラウドの統合、技術サービスの統合を実現します。これら 3 つの統合を通じて、人間とコンピューターのインテリジェントな相互作用のための総合的なソリューションを提供し、ユーザーが新しいビジネス シナリオに迅速に切り替えられるようにします。

AIUI インタラクション技術に基づく商業的な試みについて言及した際、Wang Shijin 氏は次のものをいくつか挙げました。

コミュニケーションの面では、iFLYTEK は 2005 年に Tingjian スマート会議製品を発売しました。一般的に、会議シナリオにおける同時通訳の精度は約 80% ですが、インテリジェントな会議文字起こしの精度は 90% 以上に達します。その後、医療システムや司法システムにも応用されました。さらに、iFLYTEKは持ち運びが簡単で、遠隔地でのリアルタイムコミュニケーションに便利なポータブル翻訳機も発売しました。

テレビに関して言えば、初期のテレビでは数字と上下左右のボタンを使って12チャンネルしか操作できませんでしたが、現在のスマートテレビはバックグラウンドで膨大なリソースに接続されており、iFlytek Smart TV Assistantを通じて便利な音声操作が実行できるため、時間が節約されます。

自動車業界では、運転中にハンドルから手を離すことができないため、対話のために手の代わりに音声を導入すると非常に便利になります。実際、他のアプリケーションシナリオと比較して、音声認識は車内のシナリオでのノイズが強いため、より大きな課題に直面しています。iFlytekは車ベースの音声認識でも多くの最適化を行っており、BMW、メルセデスベンツ、GMが開催した世界的な車内音声認識コンテストで1位を獲得し、車内シナリオのインタラクションを効果的にサポートしています。

ロボットの観点から見ると、ロボットと人間の音声対話は、自然な対話、パーソナライズされたサービス、ビジネスシナリオに基づく統合サービスの要件を満たしており、いつでも簡単に中断でき、ユーザーのニーズを理解した上で正確なコンテンツの推奨やサービスを提供できます。

音声認識と自然言語理解はどちらも統計と確率のシステムに基づいているため、商用化のプロセスでは、人が一定の制約を受けるシナリオ(車内など)や、100%正確な作業が難しいシナリオ(会議での同時通訳など)を選択することが推奨されています。その後、技術が成熟するにつれて、より多くのシナリオに適用できるようになります。

*** 王世進氏は、「音声認識とヒューマン・コンピュータ・インタラクション技術は、技術を最適化しながらアプリケーションシナリオと組み合わせる必要があり、それが最終的に技術の向上と業界のより良い発展につながるだろう」と結論付けました。

Baidu 音声技術部門音響技術責任者 Li Xiangang 氏

近年の百度の携帯電話音声検索の継続的な最適化プロセスについて、李向剛氏は、このような製品をうまく作るには、まず関連データを収集し、次に音声認識アプリケーションを関連製品ラインに展開してユーザーが使用できるようにする必要があると考えています。ユーザーが使用した後、フィードバックされたデータは完全なチェーンを形成し、最終的に非常に高いレベルに達します。

彼は、音声認識における入力方法の役割を次のように説明しました。「入力方法のシナリオは、音声認識のパフォーマンスを向上させるのに非常に役立ちます。」

今年、Baidu の音声技術の進歩には、GramCTC に基づくエンドツーエンドの音声認識システムとエンドツーエンドの話者認識技術が含まれています。

CTC に基づくエンドツーエンドの音声認識システムは現在、主流の産業システムです。2015 年末に、Baidu は CTC エンドツーエンドの音声認識システムをリリースしました。今年、BaiduはさらにGramCTCアルゴリズムを提案しました。

主流の音声認識技術では、統計モデルに基づくフレームワークを採用し、学習のためにこのフレームワークに DNN を導入する、従来の DNN-IVECTOR 技術が使用されています。

音声認識はビッグデータとエンドツーエンドの方向に進んでいることがわかり、Baiduもこの方向で話者認識技術を開発し、関連するパフォーマンスをさらに向上させていきます。

李向剛氏は、顔認識と話者認識には技術的な共通点があると述べた。両者の唯一の違いは、顔認識の対象は固定サイズの写真であるのに対し、音声の長さは大きく変化できることだ。そのため、Baidu の音声認識技術は、顔認識の現在の最良の方法であるメトリック学習を活用し、エンドツーエンドのメトリック学習音声認識システムを構築します。 Baidu 内での実験では、エンドツーエンドのスピーカー テクノロジーにより、スピーカー認識のパフォーマンスが大幅に向上することが示されました。

音声認識を商業的観点から分析すると、その応用は 2 つの次元に分けられます。1 つ目は近距離場と遠距離場、2 つ目は機械に話しかける人と人に話しかける人の異なる発話スタイルです。この分割後、多くの音声シーンが実際には異なる音声象限にあることがわかります。現在、業界の近距離ヒューマンツーマシン音声認識の精度は90%以上に達していますが、他のいくつかのシーンではパフォーマンスが満足できるものではありません。

李向剛氏の見解では、音声技術の進歩に伴い、商業シナリオは必然的に製品と技術の発展を促進するだろう。

Sogou音声インタラクション技術センターR&Dディレクター、Chen Wei氏

2012年から現在に至るまで、データとアルゴリズムの改善により、Sogouの音声認識エラー率は年々低下しています。陳偉氏は一連のデータを共有した。「現在までに、Sogou 入力方式は毎日 2 億件の音声認識リクエストを受信し、毎日 18 万時間分のコーパスを生成しています。」

陳偉氏は、Sogouは2016年にZhiyin Engineをリリースし、完全な音声インタラクションソリューションを外部に輸出し、音声認識とインタラクションのさまざまなシナリオと体験を模索してきたと語った。音声認識は、入力、録音、コミュニケーションの効率をより向上させることができます。音声認識は、ディクテーションとトランスクリプションに分けられます。ディクテーションはよりリアルタイムなパフォーマンスを必要としますが、トランスクリプションは顧客サービスデータに向けられており、リアルタイムなパフォーマンスを必要としません。さらに、音声認識技術はさまざまな顧客を対象としており、消費者に直接提供されるだけでなく、裁判所や病院などの一部の企業にも提供されています。音声認識の応用シナリオは、スピーチ、ライブ放送、音声分析などです。

音声認識は単一の技術ではありません。機械同時通訳や音声対話などの他の技術と統合する必要があります。将来の製品は、技術と製品の組み合わせになります。

優れた音声インタラクション製品を作る方法について、Chen Wei 氏は、まずシナリオと知識に注意を払うことが重要だと考えています。車載、スマート家具、ウェアラブルデバイスなどの特定のアプリケーションシナリオにテクノロジー(ASR、NLUなど)を組み合わせることで、安定した製品が得られます。さらに、技術だけでは不十分であり、技術革新も必要です。優れたユーザーエクスペリエンスが実現すると、ユーザーベースが拡大し、より多くのデータがもたらされます。蓄積されたデータは、技術の進歩を促進する鍵でもあります。製品の反復と実際のデータがあればこそ、ユーザーのニーズをより適切に分析し、製品開発を促進することができます。

技術と製品は不可欠だと彼は語った。

「音声によるインタラクションはテクノロジーによって推進され、優​​れたコンピューティング能力は大量のデータをもたらし、それが反復処理に使用され、テクノロジーと製品の結合によってより優れた製品が生まれます。」

スピーチのCMO——龍孟珠

「現在の音声製品の認識率がいくら高くても、それはあくまでも参考値に過ぎません。」

龍孟珠氏は、認識率の数字の背後には、ノイズ低減、遠距離場、エコーキャンセル、音源定位などの要素にも注意を払う必要があると述べた。

では、これらの単語は音声テクノロジー全体の中でどのような役割を果たすのでしょうか?

これは認識率と精度に影響を与える可能性があり、音声対話製品が実用的かどうかを判断する重要な要素となります。

現在、すべての企業がエンドツーエンドの非協力型プライベートインタラクティブシステムを開発しています。システム全体は基本的に、知覚から認知、抽象的思考までのインテリジェンスの3つのレベルに分かれています。

まず、知覚の観点から、機械が明瞭に聞こえるようにする必要がありますが、これは環境を克服し、ノイズを減らす上で大きな課題となります。 AISpeech を例に挙げてみましょう。強力なデータベースを活用することで、単語のエラー率を 7.19% まで削減しました。これは業界平均の 10% と比べて大幅な効率向上です。

さらに、機械は明確に聞き取った後、素早く反応する必要があります。顧客はよく「あなたの製品はローカルですか、それともクラウドベースですか?」と尋ねます。実際、AISpeech を含む業界が現在行っているのはローカル + クラウドベースであり、いくつかの簡単なウェイクアップワードとコマンドはローカルに配置される場合があります。 AISpeech は現在、最大 3,000 個のローカル認識コマンドをサポートしています。もちろん、サポートされる最大数は製品のハードウェア構成とシステムに関連しています。コミュニケーションや機械の思考を必要とする部分がさらにクラウドに配置されます。

***、機械ははっきりと聞き、素早く反応することができます。反応効果とは何ですか?この効果は専門用語でTTSと呼ぶことができます。TTSの品質は、製品体験の品質を大きく左右します。多くの人が TTS として理解しているのは、有名人の合成音声かもしれませんが、これらの合成音声はすべてのシナリオに適しているわけではありません。

現在業界で提案されている 97%、98%、99% の認識率は、音声認識のみに適用されるものです。異なる分野やシナリオでは、異なるビジネス方向に対する音声認識と意味理解のレベルは実際には異なります。このグラフは、家庭環境と車内環境での異なる精度率を示しています。

龍孟珠氏は、音声対話技術がどの分野で使用されるかに関係なく、いくつかの要件を満たす必要があると述べました。

***ユーザーの厳しいニーズを満たすため;

2 番目に、頻繁に使用されることはないかもしれませんが、特定のシナリオではユーザーがそれに依存する可能性があります。

第三に、音声技術は対話手段に過ぎないため、サードパーティのコンテンツとサービスによってサポートされる必要があります。

「音声は機能ではなく、インタラクションの手段に過ぎないことを私たちは繰り返し強調してきました。」音声はまだ全国の人々の間で普及するレベルに達していませんが、将来的には必ず達成されるでしょう。この方法の背後にあるサードパーティのコンテンツとサービスは、音声自体よりも重要です。

***、インタラクティブな体験は良好である必要があります。

<<:  「人工知能」を「実用的なツール」として扱わない

>>:  知らないうちにAIを構築しているかもしれない

ブログ    
ブログ    
ブログ    

推薦する

ビジネスにおける人工知能のリスクと限界

ビジネスにおいては、人工知能のリスクと限界を考慮する必要があります。 AI のリスクと限界には、プラ...

...

人工知能はデマですか?人工知能が日常生活にもたらす変化を感じられますか?

しかし、メディアで大いに宣伝された後、人々は AlphaGo が Deep Blue と同じレベルに...

...

ドローンは将来のスマートシティで重要な役割を果たすだろう

「スマートシティ」という概念は何十年も前から存在していたが、その最新版では、住民の生活を向上させるた...

ヒット曲予測の成功率は97%?このリストは「偽造品と戦う」ためにあります

トレンドや動向を予測することは、あらゆる業界が熱心に取り組んでいることです。これにより、実務者は業界...

上海で一人っ子を亡くした母親が、AIを使って14歳の娘を「蘇らせた」...

大切な人が亡くなったら、その人の記憶をAIに引き渡しますか?「The Debaters」のこの討論テ...

Alipay のディープラーニング エンジン xNN を公開

この記事では、Alipay アプリのディープラーニング エンジンである xNN を紹介します。 xN...

今後数年間の AI テクノロジーの分野で最も注目される新しい方向性は何でしょうか?

近年、AI の分野を調査しているうちに、世界中の研究者の視野の中に敵対的攻撃という概念が徐々に現れて...

持続可能な都市計画とスマートシティに人工知能を活用する方法

21 世紀の急速な都市化は、交通渋滞や汚染から住宅不足や公共サービスの逼迫まで、数多くの課題をもたら...

AI時代に医療データの品質が重要な理由

効果的な医療データ分析においては、データの品質は主観的なものになります。データから得られる情報の正確...

このレーシングAIはもはや短期的な楽しみを求めるのではなく、長期的な戦略を考慮することを学んだ。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

過度な「遊び」が子どもたちのプライバシーを侵害し、自尊心を傷つける恐れがあるとして、人工知能がキャンパスに導入される

最近、香港で株式公開を準備しているAI大手のMegvii Technologyが論争を巻き起こしてい...

パーシー・リャンらによる新しい研究:新しいBingのような生成型検索エンジンはそれほど役に立たないかもしれない

生成型検索エンジンは、入力クエリとオンライン引用に対する応答を直接生成することで、ユーザーの情報ニー...

わかりやすい言葉で解説:人工知能(AI)とは何か?小学生でもわかる

昨今、人工知能(AI)という言葉は至るところで聞かれます。科学技術革新を支援する国や地方政府の政策か...