音声認識を開発する方法

音声認識を開発する方法

ディープラーニング技術を用いた自然言語の深い理解は、常に注目されてきました。自分で音楽を調べる必要がなく、照明をつける必要がなく、エアコンがあなたの考えを理解してくれる...これらのシーンは多くの映画やテレビ作品で紹介されており、多くの人々の心の中の「スマートライフ」の概念も表しています。これを踏まえて、人工知能開発のブームの中で、自然言語処理は大手企業や研究機関が競い合う戦場となっている。

現在、音声インタラクショントラックには、インターネット大手、有名なハードウェア企業、電子商取引プラットフォーム、伝統的な家電メーカー、さまざまな人工知能の新興企業が集まっています。特に、近年のスマートスピーカーに代表される音声インタラクション製品の国内外での人気は、音声インタラクション技術の応用と発展を大きく刺激しています。

複数の分野での応用

最近、最も人気のあるスマートホーム ハードウェアは、間違いなく Xiaomi AI スピーカーです。この製品は発売されるとすぐに市場で大きな反響を呼び、多くのメディアから「最高のインタラクティブ体験を提供するスピーカー」、「スマートスピーカー業界のリーダー」、「現在最もホットなスマートハードウェア」などと呼ばれました...私の意見では、Xiaomi AIスピーカーは確かに優れていますが、彼らが賞賛するほどではありません。エディターの周囲の人々の具体的な使用経験から判断すると、その音声認識能力は特に優れているわけではなく、市場で主流の同様の製品とそれほど違いはありません。その最大の利点はエコチェーンにあります。Xiaomi AIスピーカーを通じて、Xiaomiデスクランプ、Xiaomi掃除ロボット、Xiaomiフロアファン、その他のサポート家具機器を制御できます。これによって人々がスマートライフに一歩近づくことは間違いありません。

自動車やスマートモバイルデバイスの分野では、音声対話機能はすでに非常に普及しています。運転中は両手が空いていないことが多く、携帯電話を操作するために両手を空ける必要もありません。このとき、車載音声機能は必需品となり、車両のインターネットの標準機能となります。スマートコネクティビティや自動運転車が大流行しているこの時代に、ハイテクな音声認識機能のない新車を発売するのは恥ずかしいことのように思える。フォードのSYNCシステムは、携帯電話やデジタルメディアプレーヤー向けに設計されたフォードの車載マルチメディア通信およびエンターテイメントシステムです。車載システムでの音声対話技術の使用の成功例であり、複数のフォード車シリーズで広く使用されています。インターネット大手のAppleがiPhone 4Sでインテリジェント音声アシスタントアプリケーションSiriをリリースした後、GoogleもAndroidスマートフォンオペレーティングシステムでGoogle Nowのインテリジェント音声検索および質問応答サービスを開始しました。Microsoftも音声技術をWindows Phoneに適用し、SamsungもタイムリーにBixbyをリリースしました。

金融分野で。音声認識技術にも役割があります。最近、中国建設銀行は上海市黄埔区にロボットが顧客にサービスを提供する自動化サービス支店を開設した。このロボットには顔スキャンおよび認識ソフトウェアが搭載されており、顧客のほとんどの質問に答え、一般的な街の銀行のほとんどの業務ニーズを解決できます。また、個人のニーズを満たすために、人間支援サービスやその他の専門サービスも搭載されています。ロボットは音声認識機能を使って人間とコミュニケーションを取り、顧客の質問に答えることで顧客にサービスを提供します。また、口座開設、送金、投資など、手動サービスで実行できるほとんどの作業も実行できます。

さらに、新しい小売分野では、インテリジェント音声技術の応用も拡大しています。例えば、2017年12月18日、iFLYTEKとRed Star Macallineは戦略的な協力計画を発表しました。今後、iFLYTEKが開発したインテリジェントショッピングガイドロボット「Meimei」が全国のRed Star Macalline店舗で利用できるようになります。

音声によるインタラクションに加えて、音声テキスト変換も現在の音声認識技術のホットな話題です。以前、この機能はジャーナリストのお気に入りでした。この機能を使用してインタビュー原稿やスピーチ原稿を整理すると、作業効率が大幅に向上します。現在、この機能は一般の人々にも受け入れられています。高齢者や怠け者の若者は、タイピングの代わりにこの機能を使用できます。

現在、資本の流入、政策支援、度重なる市場拡大により、音声技術はますます成熟し、世界の音声市場もアプリケーション実装の黄金期を迎えています。関連統計によると、スマート音声産業の規模は2016年に60億人民元に近づき、2017年には100億人民元を超え、前年比約69%の増加となる見込みです。

現在の技術水準は満足できるものではない

音声認識がさまざまな分野で普及しているのとは対照的に、音声認識技術の発展は非常に遅く、このような状況下で、音声認識技術は実際の応用において多くの問題に直面しています。

現在、多くの企業が音声認識率が 97% または 98% に達したと主張していますが、実際のアプリケーションでは満足できる結果は得られていません。もっと説得力のある例を挙げると、IBM T.J.ワトソン研究所が開発した中国語音声認識システムは、米国DARPA主催のコンテストで3年連続1位を獲得している。このシステムは、CCTVの「ニュース放送」番組を認識する際のエラー率が5%未満であるが、他のコンテンツを認識する際のギャップは非常に大きい。実際のアプリケーションでは、認識率は主に次の要因によって影響を受けます。

中国語の音声認識では、方言やアクセントによって認識率が低下します。

公共の場での強い騒音は認識結果に大きな影響を与えます。実験室環境であっても、キーボードを打ったりマイクを動かしたりするとバックグラウンドノイズになります。

中断による質問: 人が話している途中で一時停止すると、機械は文脈をうまく結び付けることができず、意味をスムーズに伝えることができません。

ここでも「口頭言語」の問題があります。自然言語理解と音響の両方が関係します。音声認識技術の究極の目標は、人間同士の対話と同じくらい自然な「人間とコンピュータの対話」を可能にすることです。しかし、人間同士の会話と同じように音声を入力すると、話し言葉の不規則な文法や異常な語順により、意味の分析や理解が難しくなります。

音声認識の技術的反復

これまで、音声認識技術の実用化においては、アクセントや新しい語彙などの問題はデータ収集を通じて解決できると指摘する人もいました。データ量が増えると、この問題は解決できます。

「中断」などのその他の問題には、DNN、CNN、BLSTM(双方向長短期記憶ニューラルネットワーク)などのさまざまなディープラーニングモデルと、新しいアルゴリズムが徐々に解決される必要があります。

テクノロジーの使用には、多くの場合、反復的なプロセスが必要です。まずテクノロジーをオンラインにし、その後シナリオ内でデータを収集して、モデルを評価、最適化し、ユーザー エクスペリエンスを改善する必要があります。数回の反復を経て、最良の効果が得られます。他の AI テクノロジーも同様です。今日、AI テクノロジーのユーザーの多くは、テクノロジーの機能を理想化し、導入したらすぐに結果が見られるはずだと考える傾向があります。実際の結果が満足のいくものではないと分かったとき、あなたは大きなギャップを感じ、失望し、諦めてしまうでしょう。インテリジェント音声技術が広く応用されるレベルに達しているのは事実だが、実際に導入される際には、遭遇する可能性のある困難を十分に認識し、長期戦を覚悟しなければならない。

要約する

今後 5 ~ 10 年で、音声認識システムの応用がさらに広まると予測されます。さまざまな音声認識システム製品が市場に登場するでしょう。人々はさまざまな認識システムに合わせて話し方を調整するようになります。人間に匹敵する音声認識システムを短期間で構築することは不可能です。そのようなシステムを構築することは、依然として人類が直面している大きな課題です。音声認識システムの改善に向けて一歩ずつ前進することしかできません。人間と同じくらい完璧な音声認識システムがいつ確立されるかを予測することは困難です。 1960 年代と同じように、今日の VLSI 技術が私たちの社会にこれほど大きな影響を与えると誰が予想したでしょうか。

<<:  人工知能技術が英語学習にどのように役立つかについての簡単な議論

>>:  ディープラーニングの「記憶喪失」に応えて、科学者たちは類似性に基づく重み付けインターリーブ学習を提案し、PNASに掲載された。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

アリババ初のAIチップ「Pingtou Ge」が発売! NVIDIA P4 より 46 倍高速で、推論パフォーマンスの世界新記録を樹立

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

データガバナンスとビッグモデル統合の実践

コスト削減と効率向上の観点から、機械学習チームの構成を例に挙げ、Dipu TechnologyのDe...

タオバオの顔面を平手打ちして電子商取引を破壊しよう!このファッション会社はアルゴリズムを使って新しい小売業をリードしている

[51CTO.com からのオリジナル記事] 私が共有したトピックは、データ駆動型の意思決定サポート...

人工知能の人気は実は私たちの周りに現れているのに、私たちはそれを知らないだけなのでしょうか?

人工知能は今のところ目新しいものではありません。結局のところ、人工知能は私たちの生活のあらゆるところ...

機械学習の発展の歴史と啓蒙

[[188091]]近年、人工知能の目覚ましい発展、特にAlphaGoと韓国のチェスプレイヤー、イ・...

一般開発者もBaidu Brain Industry Application Innovation Challengeに参加して大きな賞金を獲得できる

[51CTO.comからのオリジナル記事] 2018年、人工知能の発展は消費者向け人工知能から企業向...

テクスチャコントラスト検出を使用してAI生成画像を検出する

この記事では、AI によって生成された画像を検出するためのディープラーニング モデルを開発する方法に...

...

「ICV革新的アルゴリズム研究タスク」が正式にリリースされました!登録は11月18日に開始されます

中国自動車工程協会と国家インテリジェントコネクテッドビークルイノベーションセンターは、「2021年第...

従来のデータを超えて、インテリジェンスへの道はどこにあるのでしょうか?

AI がビジネスの世界に導入されたとき、AI は顧客体験に革命をもたらすなど、顧客のニーズをよりよ...

AI搭載マシンが製造業の産業自動化を加速させる方法

今日、人工知能と機械学習は製造業界における変化の重要な原動力となっています。人工知能と機械学習により...

...

45年前のマイクロソフトの予測が現実になりました!シャム:将来、AIの数は人類の人口を上回るだろう

本日開催された第8世代XiaoIce発表会で、XiaoIce会長で元マイクロソフトのグローバルエグゼ...

12 のシナリオ アプリケーション、100 を超えるアルゴリズム、AI はどのようにして経済を征服するのか?

[[328065]] 2020年2月7日、第34回アメリカ人工知能学会年次会議(AAAI 2020...