音声認識技術はどのように発展したのでしょうか?

音声認識技術はどのように発展したのでしょうか?

音声認識技術は 1950 年代に開発され始めました。それでは、このテクノロジーが長年にわたってどのように進化してきたか、そしてテクノロジーの進化に伴って音声認識と音声テキスト変換機能の使用方法がどのように進化してきたかを見てみましょう。

[[435457]]

1950年代~1980年代: 音を聞くことができる最初のコンピューターが誕生

自動音声認識 (ASR) の威力により、その開発は多くの場合大企業と結び付けられています。

1952 年、ベル研究所は音声数字認識システムである AUDERY の開発に先駆けました。厳密に管理された条件下では、AUDERY システムは 97 ~ 99% の精度で音声番号を認識できます。しかし、科学者で元ベル研究所の電気技師であるジェームズ・フラナガン氏によると、AUDERY は「高さ 6 フィートのリレー ラックに設置され、膨大な電力を消費し、複雑な真空管回路に伴う無数のメンテナンス問題を引き起こした」とのことです。本来の目的からしても、AUDERY は高価すぎて不便でした。

1962 年、IBM は数字と簡単な数学用語を認識できる Shoebox を発表しました。一方、日本の研究室では母音と音素を認識する装置や、最初の音声単語分割装置を開発していました。コンピューターが0~9のような小さな数字の集合を理解するのは一つのことだが、京都大学の画期的な成果は、音声の断片を「セグメント化」して、その技術を音声の範囲に使用できるようにしたことだ。

1970 年代に、米国国防総省 (DARPA) は音声理解研究 (SUR) プログラムに資金を提供しました。この研究の成果には、カーネギーメロン大学の HARPY 音声認識システムが含まれています。 HARPY は 1,011 語の語彙から文章を認識し、システムの発話能力は平均的な 3 歳児の発話能力と同等になります。

HARPY は、HMM を使用した最も初期の音声認識モデルの 1 つです。この確率的アプローチは 1980 年代の ASR の開発を推進しました。実際、音声テキスト変換ツールの最初の実用的な使用例は、1980 年代に IBM の実験的な文字起こしシステム Tangora で登場しました。適切なトレーニングを行えば、Tangora は 20,000 語の英語の単語を認識して入力できるようになります。しかし、このシステムは商用利用にはまだ大きすぎます。

1990年代から2010年代: 消費者ASR

「機械に人間の真似をさせるのは間違っていると考えていました」とIBMの音声認識技術の革新者であるフレッド・ジェリネック氏は回想する。 「結局のところ、機械が移動しなければならない場合、それは徒歩ではなく車輪で移動します。人間がどのように音声を聞き理解するかを徹底的に研究するのではなく、機械がそれを自然に行う方法を見つけたいのです。」

1990 年に、Dragon Dictate が最初の商用音声認識ソフトウェアとして発売されました。当時の価格は約9,000ドルでした。 1997 年に Dragon Naturally Speaking が導入される前は、ユーザーは各単語の間に一時停止する必要がありました。

1992 年、AT&T はベル研究所の音声認識通話処理 (VRCP) サービスを開始しました。 VRCP は現在、年間約 12 億件の音声トランザクションを処理しています。

しかし、1990 年代には、音声認識に関する作業のほとんどは舞台裏で行われていました。パーソナルコンピュータとユビキタスネットワークはイノベーションの新たな展望を生み出しました。マイク・コーエン氏が2004年にGoogleに入社し、同社の音声技術開発を開始したときに見出したチャンスはまさにこれでした。 Google 音声検索 (2007) により、音声認識技術が一般大衆に普及しました。しかし、何百万ものウェブユーザーの音声データも機械学習のトレーニング教材として再利用されています。

Apple (Siri) と Microsoft (Cortana) がそれに続きました。 2010 年代初頭、ディープラーニング、リカレント ニューラル ネットワーク (RNN)、長短期記憶 (LSTM) の出現により、ASR テクノロジーの機能が飛躍的に向上しました。この前進の推進力は、低コストのコンピューティングと大規模なアルゴリズムの進歩の出現と利用可能性によっても大きく推進されています。

ASRの現状

音声認識技術は、数十年にわたる開発を経て、ユーザーの期待の高まりに応えて、過去 5 年間でさらに飛躍的な進歩を遂げました。さまざまなオーディオ忠実度と厳しいハードウェア要件に合わせてソリューションを最適化し、音声検索と IoT を通じて音声認識を日常的に便利に使用できます。

たとえば、スマート スピーカーはホットワード検出機能を使用して、組み込みソフトウェアを通じて即座に結果を提供します。一方、残りの文は処理のためにクラウドに送信されます。 Google の VoiceFilter-Lite は、トランザクションのデバイス側で個人の音声を最適化します。これにより、消費者は自分の声でデバイスを「トレーニング」できるようになります。このトレーニングにより、ソース歪み比 (SDR) が低減し、音声起動アシスタント アプリケーションの使いやすさが向上します。

[[435458]]

単語エラー率(WER – 音声からテキストへの変換中に生成される誤った単語の割合)が大幅に減少しています。研究者たちは、2020年代後半までに文字起こし作業の99%が自動化されると考えています。人間が介入するのは品質管理と修正のためだけです。

2020 年代の ASR ユースケース

インターネット時代の発展に伴い、ASR 機能も共生的に発展しています。ここでは、自動音声認識の魅力的な使用例を 3 つ紹介します。

2021年、ポッドキャスト業界は10億ドルのマークを超えるでしょう。視聴者数は急増しており、語彙も増えています。

ポッドキャスト プラットフォームでは、ポッドキャストをより簡単に作成し、コンテンツの価値を最大化できるように、高精度で単語ごとのタイムスタンプを備えた ASR プロバイダーを求めています。 「Description」のようなアプリは、音声をすぐに編集できるテキストに変換できます。

さらに、各単語にタイムスタンプを付けることで時間を節約し、編集者は完成したポッドキャストを粘土のように形作ることができます。これらのテキストにより、すべての視聴者がコンテンツにアクセスしやすくなり、クリエイターは SEO を通じて番組の検索性と発見性を向上させることができます。

COVID-19パンデミックの影響で、オンラインで開催される会議が増えています。議事録の作成には時間がかかりますが、参加者にとっては非常に実用的なツールです。議事録があれば、参加者は会議の概要を理解し、詳細を追跡することができるからです。ストリーミング ASR は、音声をリアルタイムでテキストに変換できるため、会議やセミナーでより便利な字幕やオンサイト文字起こしを提供できます。

法廷証言や採用などのプロセスも仮想化されつつあります。 ASR を使用すると、ビデオ コンテンツのアクセシビリティが向上します。しかし、さらに重要なのは、エンドツーエンド (E2E) 機械学習 (ML) モデルによって音声セグメンテーション技術がさらに向上し、誰が出席し、誰が何を言ったかが記録されるようになったことです。

<<:  視覚化と人工知能の強力な組み合わせ!

>>:  人工知能があなたの好きな家を見つけるお手伝いをします

ブログ    

推薦する

楽観主義と悲観主義の議論は無意味。AIに必要なのは開発モデルについて考えることだ

最近、烏鎮での夕食会で大物たちが何を食べたかという噂に加え、インターネット会議では人工知能に関する一...

Google Brain のディープラーニングと TensorFlow の過去と現在を分析

ディープラーニングの歴史において、ニューラルネットワーク方式が有効になり始めたのは1980~1990...

科学者らは初めてAIメタ学習を神経科学に導入し、脳画像精密医療の向上が期待される

最近、シンガポール国立大学、バイトダンス、その他の機関が共同で開発した技術的成果が、トップクラスの神...

...

軍事分野における人工知能の浸透と応用に関する考察

人工知能(AI)技術は現在、新たな急速な成長期に入り、将来の世界を変える可能性が最も高い破壊的技術と...

生産効率の向上以外に、AI テクノロジーは製造業に何をもたらすのでしょうか?

現代科学技術の発展は製造業の変革と向上に新たな活力をもたらしており、人工知能技術もその一つです。 [...

フランシス・バーガーは分析をよりスマートにし、難しくしない

[[386714]]北東部に拠点を置くエネルギー会社 Eversource で財務計画および分析 (...

Ctrip の AI 推論パフォーマンスの自動最適化プラクティス

[[424530]] 1. 背景近年、人工知能はセキュリティ、教育、医療、観光などの産業や生活の場面...

史上最大規模のAIによる疫病対策キャンペーン

普段は人工知能技術にあまり興味がない人でも、この特別な期間中はAIという文字の組み合わせに注目するで...

科学者たちは古い携帯電話を分解してリサイクルするためのAI搭載ロボットを開発している

2016年、AppleはiPhoneを11秒で分解できるリサイクルロボット「Liam」を開発したと発...

...

人工知能がエンタープライズ ソフトウェアを変える 10 の方法

人工知能の応用は、予想外の場所に現れるかもしれません。人工知能ソフトウェアの市場にいる場合、自社製品...