音声認識:将来の人間とコンピュータの相互作用の破壊と変化

音声認識:将来の人間とコンピュータの相互作用の破壊と変化

Audi A8L を運転しているとき、簡単な言葉を発するだけで、旅に必要なものがすべて手に入ると想像してみてください。車載の MMI ヒューマン コンピューター インタラクション システムは、音声コマンドをインテリジェントに認識し、ナビゲーション、音声通話、エンターテイメント システムなどの機能を簡単に制御できます。車はもはや冷たい交通手段ではなく、よりインテリジェントになっています。電子機器は、スマートツールから、人と交流するための「パートナー」へと進化してきました。

音声認識は、壮大な勢いで時代の知能の頂点を占めています。グーグルが米国で発表した調査報告書によると、13歳から18歳までの若者のうち、音声検索を毎日使用する割合は約55%で、特にスマートフォンを1日11時間以上使用する10代のユーザーの間では、その割合は75%にまで急上昇している。成人のうち約56%が、音声検索を使用するとテクノロジーについて非常に知識が豊富だと感じると答えている。 Googleの従来型検索担当副社長スコット・ホフマン氏は次のように語った。「若者にとって、音声検索の使用はソーシャルメディアの使用と同じくらい自然であり、彼らは音声検索を使用する多くの革新的な方法を見つけるだろう。」

ビッグデータ、機械学習、クラウドコンピューティング、人工知能などの技術の発展により、音声認識は徐々にユーザーの手を解放し、音声入力ボックスがマウスとキーボードに取って代わる可能性があります。スマートモバイルデバイスの普及に伴い、音声インタラクションは人間とコンピュータのインタラクションの新しい形として、IT 業界全体からますます注目を集めています。

業界団体は、人工知能市場全体が2018年に1,800億ドルに達し、そのうち音声認識市場が全体の大部分を占めると予測しています。 2015 年の世界の音声認識市場規模は約 61 億 9,000 万米ドルで、2020 年までに 200 億米ドル近くに達すると予想されています。

インテリジェント音声はどのようにして「聞く」から「理解する」へと進化し、音声サービスの普遍化を実現し、より多くの現実のシーンに対応し、モバイルインターネットユーザーにさらに恩恵をもたらすことができるのでしょうか。まだ克服すべき障害はありますが、これは間違いなく大規模産業化に向けた重要な突破方向となるでしょう。

インテリジェント音声の専門家である賈磊氏は、多くの派生サービスを剥ぎ取り、音声技術のみに焦点を当てる時代は過ぎ去り、大規模な産業発展の未来の潮流がすでに現れており、変革の旅の次の段階が始まろうとしていると指摘する。

インターネットへの「音声」の入り口

2016年の初め、マサチューセッツ工科大学(MIT)が主催する著名な科学雑誌「MIT Technology Review」は、「2016年の画期的技術トップ10」を選出した。音声認識は第3位にランクされ、他の技術とともに「画期的な段階に到達した、またはこの段階に到達しようとしている」とされた。

音声認識技術は自動音声認識とも呼ばれ、人間の音声に含まれる語彙内容をキーストローク、バイナリ コード、文字列などのコンピューターが読み取り可能な入力に変換することを目的としています。音声認識の目的は、機械に人間の聴覚特性を与え、人が言うことを理解し、それに応じたアクションを取ることです。

音声でコンピューターと通信し、ユーザーが言っていることをコンピューターに理解させることは、長い間人々の夢でした。ディープラーニングや人工ニューラルネットワークなどの技術の発展により、この夢は現実のものとなりました。百度音声の元チーフアーキテクトである賈磊氏は、音声認識技術が音声検索、O2O、メディア情報などの分野で大きな役割を果たすだろうと予測した。

人工知能分野の技術者である賈磊の「技術路線」はまさに「音声路線」です。

1993 年、賈磊は西北工科大学の教育改革クラスに入学しました。大学在学中、彼は数学、コンピューター、音声信号処理技術に強い関心を抱きました。その後20年間、賈磊は「声」と関わってきた。

2003年、中国科学院で博士号を取得した賈磊はパナソニック中国研究開発有限公司に入社し、業界の音声技術に関する研究に従事し、この間、携帯電話用の英語、日本語、中国語の生活デジタルダイヤルシステムの開発に成功しました。2年後、賈磊はパナソニックを退職し、IBM中国研究所に入社しました。 IBM に勤務していたとき、賈磊氏と IBM 米国研究部門の同僚たちは中国語の放送認識システムを構築した。

2006 年初頭、賈磊はパナソニック中国研究開発有限公司に戻り、パナソニックの音声技術部門のシニア マネージャーとして、パナソニックの社内音声技術の統合を担当しました。また、パナソニックの中国部門を率いて、日本のカー ナビゲーション システム製品のプロトタイプを開発しました。4 年後、賈磊は中国科学院自動化研究所に戻り、クラウド コンピューティング環境下での機械翻訳システムの最初のバージョンの構築を主導しました。

2011 年 6 月、賈磊は百度に入社し、百度の音声技術部門の責任者および主任研究員として勤務し、百度の音声技術のコア技術研究開発とインターネット産業化を担当しました。わずか 6 か月で、Jia Lei 氏は技術チームを率いて、Baidu が完全に独自に開発した音声検索システムを立ち上げました。それ以来、Jia Lei の技術チームは、携帯電話の音声入力システム、インテリジェント音声携帯電話アシスタントなどのシステムの研究開発と発売を、非常に期待された形で完了しました。

2015年末、「大衆起業とイノベーション」の高まりとともに、賈磊氏は百度を退社し、人工知能関連の起業分野に専念した。 「ハイテク人材による起業は、国に貢献するもう一つの方法です。シリコンバレーの多くの企業は、マイクロソフトやグーグルなど、起業から生まれました。これらはすべて新興企業として始まり、最終的に業界の巨人へと成長しました。」賈磊氏は自身の起業について次のように述べた。「将来の人工知能の時代には、多くの人間の活動が機械に置き換えられる可能性がありますが、この業界で働く人々は、機械の製造と改良の方法を正確に習得する必要があります。」

[[185870]]

音声認識のスケーラブルな産業化の未来

過去20年間、音声認識技術と賈磊氏らの「技術頭脳」は共に進化しており、この進化はインターネット、特にモバイルインターネットの形態も微妙に変えてきました。

Microsoft Researchの主任研究員であるYu Dong氏は、多くのアプリケーションシナリオにおいて、音声認識がエントリーポイントになると考えています。このエントリーポイントがなければ、誰もがスマートマシンが十分にスマートではないと感じたり、ユーザーがスマートマシンと対話するのが難しいと感じたりするでしょう。

あらゆるものがインターネットでつながる時代が到来し、新しいインタラクション方法が必要になります。人々はスマートフォンのタッチ モードから、スマート ホームに必要な遠隔音声インタラクションへと移行し始めます。このようなインタラクションは、インテリジェントな音声および言語テクノロジーのサポートと切り離すことはできません。 Alibaba Cloud iDSTのテクニカルディレクターであるChu Min氏は、音声インタラクションがデータインテリジェンスの最初の発生点となり、「次のラウンドの参入競争が再び出現するだろう」と考えています。

インターネットの誕生以来、検索ボックスは人々がインターネットに入るための重要な入り口となっています。しかし、音声認識が登場すると、検索ボックスの地位は揺らぎ、今後徐々に置き換えられていく可能性があります。マイクロソフトのレドモンド研究所の副社長であるデュメイス氏は、ディープラーニング技術が2017年にオンライン検索結果の向上に役立つと考えています。2027年までに検索ボックスは消え、ユビキタスで埋め込み型のコンテキスト認識検索に置き換えられます。

今日、この「置き換え」が形になり始めています。 11月末、Sogou、Baidu、iFLYTEKは3回連続で記者会見を開き、音声認識と機械翻訳の最新の進歩を対外的に披露した。3社とも、音声認識システムの精度が約97%に達したと発表した。同時に、多くのインテリジェント音声製品がさまざまな地域の方言認識をサポートしている。

これまで、百度は多層一方向LSTM(長短期記憶モデル)に基づく中国語の母音と子音の総合的なモデリング技術を開発し、接続時間分類(CTC)トレーニング技術を従来の音声認識技術モデリングフレームワークに組み込むことに成功しました。この技術により、機械音声認識の相対エラー率を15%削減し、静かな環境での中国語音声認識の精度を97%に近づけることができます。今後、Baidu音声検索などの製品に広く使用される予定です。

賈磊氏は、音声認識技術は特に音声認識の大規模な産業化に適しているとし、「この技術は応用範囲が広く、デコード速度が速いだけでなく、アクセントや遠距離にも一定の効果がある。アクセントのある人の認識率が大幅に向上し、距離が遠い場合の認識率も大幅に向上する」と述べた。

業界関係者は、情報技術の重要な部分として、よりスマートなレベルに向かって進化しているインテリジェント音声技術が、人工知能、モバイルインターネット、スマート端末、スマートホーム、ウェアラブルデバイスなどの分野でますます使用され、より多くの垂直産業で深く発展し、インテリジェント音声と関連産業の発展を牽引し、新しいビジネス形式と新しい成長ポイントを形成すると考えています。

「声」の剣を磨いた10年

今日の音声認識はどれくらい賢いのでしょうか? Baidu の主任科学者 Andrew Ng 氏は、現在の音声認識は普通の人の音声認識能力を超えていると考えています。感情合成を例にとると、ディープラーニングとビッグデータ処理技術に基づく音声認識は、データ収集、処理、モデリングなどの面で一連の革新を完了し、より表現力豊かで自然な読み上げ効果を実現できます。

一般の人々にとって、音声認識はどこからともなく現れた新しい技術のように思えます。TechCrunch の統計によると、米国だけでも音声認識技術を開発している企業が少なくとも 26 社あります。しかし、科学者や業界の専門家の目から見ると、音声認識は新興産業ではありません。

1952年には、デイビス氏と米国のベル研究所の研究者らが、10個の英語の数字の発音を認識できる世界初の実験システムを開発しました。 1960 年に、英国の Denes らが最初のコンピューター音声認識システムを開発しました。現在までに、音声認識技術はすでに半世紀にわたる開発を経てきました。

1950 年代、科学者たちは、音声認識など人間にしかできないことをコンピューターが実現するには、まず自然言語を理解しなければならないと信じていました。このため、人間による音声認識の研究は、コンピューターを使用して人間の脳をシミュレートすること、つまり、人間が言語を学習するのと同じようにコンピューターに学習させることに限定されてきました。この考えに導かれて、その後の 20 年間、音声認識の分野では科学的な研究成果はほとんどありませんでした。

音声認識が新たな命を吹き込まれたのは、1970 年以降になってから、統計言語学の出現によってでした。この技術的変化を推進している主要人物は、現代の音声認識と自然言語処理研究の先駆者であり、米国工学アカデミーの会員であり、彼が率いる IBM ワトソン研究所のデレク・ジャーニックです。 IBMは統計的手法を用いて音声認識率を70%から90%に向上させ、同時に音声認識の規模も数百語から数万語に拡大しました。これにより、音声認識を研究室から実際の応用へと移行することが可能になります。

それ以来、研究思想の変化に伴い、大規模な音声認識研究が実現され、科学者は小さな語彙や孤立した単語の認識において大きな進歩を遂げました。 1980 年代以降、音声認識研究の焦点は、徐々に大語彙、非特定話者の連続音声認識へと移行しました。

1990 年代以降、科学界は音声認識のシステムフレームワークにおいて大きな進歩を遂げていませんが、音声認識技術の応用と製品化においては大きな進歩を遂げてきました。 1970 年代に始まった DARPA システムは、言語理解システムの研究開発を支援するために米国国防総省の高等研究計画局が資金提供しているプログラムです。1990 年代も DARPA プログラムは継続しており、研究の焦点は認識装置の自然言語処理部分に移り、認識タスクは「航空旅行情報検索」に設定されました。

この期間中、英国ケンブリッジ大学の HTK システムは音声認識に多大な貢献を果たし、音声認識に携わる多くの研究部門に完全かつ包括的なソフトウェア ベースライン システムを提供しました。それ以来、音声認識研究の敷居は大幅に下がり、音声認識技術の急速な発展と相互交流がより効果的に促進されました。

1990 年代から現在に至るまで、コンピュータ コミュニティの音声認識に関する研究は、読み上げ形式の音声から実生活における「実際の会話音声」へと徐々に移行してきました。 21世紀に入り、インターネットが普及し、モバイルインターネット技術も急速に発展し、携帯電話のインターネットアクセス速度はますます高速化しており、音声認識技術の開発と応用に新たなプラットフォームをもたらしました。ハードウェア機器のますます安価な化とクラウドコンピューティング技術の出現も、音声認識の研究と応用を大きく促進しました。

中国の音声認識研究は、1958年に中国科学院音響研究所が真空管回路を使って10個の母音を認識したときに始まりました。しかし、それ以来、中国の音声認識研究はゆっくりとした発展段階にあります。中国科学院音響研究所がコンピューター音声認識を開始したのは 1973 年になってからでした。

1980年代以降、我が国ではコンピュータ応用技術が徐々に普及・応用され、デジタル信号技術もさらに発展したため、国内の多くの組織が音声技術を研究するための基礎条件を整えてきました。同時に、音声認識技術は長年の沈黙を経て、再び国際的な研究のホットスポットとなった。この形態のもと、多くの国内企業がこの研究に投資してきました。

2011年には音声認識分野にディープラーニング技術が導入され、業界全体の人工知能技術の応用がディープラーニング時代へと進みました。その後も、CNN(畳み込みニューラルネットワーク)、LSTM(長短期記憶モデル)、CNN混合LSTMモデリング技術が音声認識産業製品に登場し続け、音声認識製品の有効性を向上させ続けました。

[[185871]]

技術的な困難を克服する必要がある

2016 年 6 月 2 日、「インターネットの女王」として知られるメアリー・ミーカーが、2016 年のインターネット トレンド レポートを発表しました。このレポートでは、音声はコンピューター入力の最も効果的な形式であり、人間とコンピューターの相互作用の新たなパラダイムになると考えています。タイピングと比較すると、音声インタラクションには明らかな利点があります。シンプルで便利で、マイクだけで解決できます。特にモノのインターネットのシナリオに適しています。

しかし、新しい技術の研究開発には、必然的に、より多くの障害を克服し、突破することが必要になります。ビル・ゲイツは2008年の初めから何度も「今後5年間で、インターネット検索は音声で行われることが多くなるだろう」と予測していた。現在、音声検索はまだ初期段階ですが、ビル・ゲイツの推測を達成するには程遠い状況です。メアリー・ミーカー氏は、コンピューティングの将来はキーボードからマイクとキーボードへと進化すると予測しているが、「まだ始まったばかりだ」という。

Jia Lei 氏は、音声認識技術が現在直面している主な困難は、アクセント、ノイズ、遠距離音の認識であると考えています。中でも、ディープラーニングに基づくパーソナライズされた認識は、今後の音声認識技術の総合的な普及と応用に向けた大きな課題です。

現在、多くの大規模な技術会議では、主催者がさまざまな企業によって開発された音声速記システムの試用を手配しており、これらのシステムは従来のリアルタイム速記オペレーターに取って代わる可能性が高い。当初、この効率的で目を引く技術は人々に大きな感銘を与えました。しかし、会議室のスピーカーに訛りがあると、音声録音システムは頻繁に間違いを起こしました。現場に技術者がいてリアルタイムでデバッグしたとしても、会議室の大画面に表示されるテキストは文法的に間違っており、理解できないことがよくありました。

Jia Lei 氏は、人々のアクセントは大きく異なるため、1 つの音声認識装置ですべての音を認識することは不可能であり、パーソナライズを実現する必要があると考えています。ディープラーニングに基づくこのようなパーソナライズされた認識には、膨大なストレージスペースと大量のデータスループットの伝送能力が必要であり、これはビッグデータとクラウドコンピューティングのサービス能力を持つ企業によってのみ提供できます。

音声認識は、人工知能と機械学習における 10 の典型的な問題の 1 つです。この技術は、話者、環境、機器という 3 つの側面で不確実性という難しさに直面しています。

話者は多くの場合、異なる方言地域出身で、異なるアクセントを持ち、異なる話し方をし、異なる感情を表現します。現在の音声認識では、完璧な認識が達成できないことがよくあります。さらに、実際の言語環境は非常に複雑で、車のクラクション、飛行機の騒音、道路上の人々の声、会議会場での反響など、さまざまなノイズに囲まれています。また、スピーカーが使用する機器も多様です。自然音に加えて、ハンドヘルドマイク、ラベリアマイク、耳に装着するマイク、近距離および遠距離マイクなどを使用できます。

実際のアプリケーションシナリオでは、話者、環境、機器の 3 つの要素が重なり合って、音声認識のアプリケーションシナリオがより複雑になります。こうした不確実性にどう対処するかが、研究開発担当者が直面する大きな課題となっています。

話し言葉の認識にはトレーニングコーパスが必要であり、アクセントの有益な情報を得るには、最終的には大量のアクセントデータを解読する必要があります。 「将来的には、コーパスが大きくなり、より大きな音声認識システムをトレーニングする必要が出てくるでしょう。」 Jia Lei 氏は、複数のデータ ソースを混合してトレーニングすることが、アクセント、ノイズ、遠距離場の問題を解決するために依然として必要な手段であると考えています。

厳密に言えば、現在の音声認識システムは明らかに完璧には程遠い。フリース・キャピタルの初期段階のプロジェクト責任者である朱一洲氏は、テクノロジー企業が実験データに基づいて得た音声認識の精度は95%以上に達しているものの、実際の使用においてはそれほど高くないと考えている。

アリババクラウドインテリジェントボイスのテクニカルディレクター、ヤン・ジージエ氏も、「誇張された」精度は、非常に限られたシナリオでのみ達成できると考えている。「白熱した議論が交わされている会議室で、メモを取るために携帯電話を取り出す場合、97%どころか、断続的にかろうじて理解できれば良いでしょう。」

「音声認識の精度は、ニュースの見出しで宣伝されているほど高くはありません。実際の状況を考慮せずに精度について語るのはナンセンスです。」ヤン・ジージエ氏は、インテリジェント音声業界は、学術研究でどのような実質的な進歩が遂げられてきたのか、また、応用のどの側面でそれが本当に一般大衆に役立つのかについて、もっと真剣に考えるべきだと考えています。

「聞く」から「理解する」への進化

音声認識と音声検索は、モバイルインターネット時代には「必須」のものとなっています。しかし、インターネットがもたらすユーザー体験は、すべての人にとって平等なものではなく、インターネットユーザーの中には、インターネットを楽しめない人がまだ相当数存在します。技術レベルの違いにより、コンピュータや携帯電話を使って「正確なテキスト」を通じてインターネット時代の製品と「リンク」することができない。たとえば、高齢の両親にもう一度タイピングを習うように頼むのは簡単なことではありません。

インテリジェントな音声により、これまでの不平等な体験のバランスが回復する可能性があります。今日では、インテリジェントな顧客サービスとインテリジェントなアシスタントは、インターネット上の典型的なアプリケーション シナリオになっています。電話に出るカスタマーサービススタッフは、徐々に人工知能やロボットに置き換えられるかもしれません。多くのテクノロジー企業はすでに、自動音声転送、感情認識とキーワード認識、音声認識とキー情報抽出、自動全音量検査などを採用しており、スマートアシスタントは会話型音声制御を使用して、ユーザーがレストランを見つけたり、旅程を計画したり、曲を注文したり、ナビゲートしたり、レシピを見つけたりできるように支援できます。

音声インタラクションという斬新で便利な方法を活用して顧客基盤を迅速に獲得するために、インターネット企業は音声認識の研究と応用に人的、物的、および財政的資源を投入してきました。しかし、音声認識が多くの現実のシナリオでよりよく機能するには、まだ長い道のりがあることは明らかです。

賈磊氏は、アクセントやノイズの問題を解決するために、音声認識システムのトレーニングデータは今後も増え続けると考えています。現在、数万時間のトレーニングデータが業界の現状であり、近い将来には間違いなく10万時間に達するでしょう。これほど大量の計算が発生すると、コンピューティング能力に対する需要はさらに強くなるだろう。「ビッグデータと高性能コンピューティングは、これまでの音声認識の発展において最も明白で明確なトレンドです。」

「音声認識は産業爆発の瀬戸際にありますが、機械の計算コストが大きなボトルネックになっています。オンライン検索の50%が音声で行われ、計算コストが以前と同じままであれば、どの企業も負担できません。」賈磊氏は、音声サービスが大規模に普及し、一般大衆に利用されるようになるには、バックグラウンドサーバーのオーバーヘッドを削減する必要があると述べた。

Jia Lei 氏の見解では、明らかな業界動向として、音声認識技術は、意味理解、インタラクティブ技術などとともに、完全な音声ソリューションセットを形成することになるでしょう。

AI システムに質問に答えさせたり、指示された内容に基づいて行動を起こさせたりすることの本当の難しさは、意味認識にあります。現在の音声認識技術では、「聞いた」音声を高精度でテキストに変換することしかできず、将来のニーズを満たすには程遠い状況です。 「聞く」から「理解する」までは、たった一つの単語の違いですが、非常に難しい作業です。

音声認識システムをよりスマートにするには、コンピューター ハードウェアの進歩が重要です。近年のコンピュータ、特に汎用コンピューティングの急速な発展により、人間は強力なコンピューティング能力を持つようになり、過去には不可能だった人工知能アルゴリズムもいくつか可能になりました。しかし、音声サービスを普遍的に提供するには、コンピューティング能力をさらに向上させる余地がまだあります。

さらに重要なのは、音声認識を使用する目的は、音声をテキストに変換することだけではなく、音声を使用して対話し、必要なサービス結果を得ることであるということです。 Jia Lei 氏は、「これが将来の産業発展のトレンドです。サービス、プラットフォーム、コンピューティング機能なしで音声技術だけを開発する時代は終わりました」と考えています。

音声認識は現代生活にさまざまな利便性をもたらしましたが、真の正確性と自律的な思考を実現するにはまだ長い道のりがあります。研究者が進歩を続け、障壁を突破して初めて、音声認識技術の未来に本当の変革をもたらすことができます。

<<:  Nervana Technology の深掘り: Neon を使用したエンドツーエンドの音声認識の実装方法

>>:  音声認識、マッチングアルゴリズム、モデルに関する簡単な説明

推薦する

ドローン配送がレイアウトブームを巻き起こす、普及するには2つのポイントに注意が必要

滴滴出行が昨年11月にドローンによる食品配達サービスを検討すると発表し、美団も最近ドローン配達隊に加...

...

...

AIコードツールが人気、複雑な操作が数秒で簡単になり、ネットユーザー:VS Codeを放棄

最近、AIコードエディタCursorが人気になってきました—— GPT-3.5/GPT-4 に接続す...

AIとIoT:この2つの強力なテクノロジーが将来のビジネスモデルをどう変えるのか

無人ドローンや機械学習が一般的になる前、ジェームズ・キャメロンは1984年に自身の夢のプロジェクトで...

人工知能は人間の臨床試験に取って代わることができるでしょうか?

2013年のノーベル化学賞受賞者であるアリエ・ワーシェル氏は、COVID-19パンデミックと製薬業...

株式取引における人工知能の応用

1 か月以上の努力の末、私たちはついに、単純な完全接続ニューラル ネットワークを使用して翌日の株価の...

...

TCP/IPトランスポート層におけるTCP BBRアルゴリズムについての簡単な説明

0x00. はじめにこれは、TCP/IP プロトコル スタック シリーズの 3 番目の記事です。前回...

Llama2推論: RTX3090はレイテンシとスループットで4090を上回るが、A800には遠く及ばない

大規模言語モデル (LLM) は、学界と産業界の両方で大きな進歩を遂げてきました。しかし、LLM の...

数秒で AI を学ぶ - ディープラーニングの一般的な 4 つの活性化関数: シグモイド、Tanh、ReLU、Softmax

ディープラーニングにおける活性化関数は、ニューラル ネットワークの重要なコンポーネントです。活性化関...

...

...