音声認識技術はどのように発展したのでしょうか?

音声認識技術はどのように発展したのでしょうか?

音声認識技術は 1950 年代に開発され始めました。それでは、このテクノロジーが長年にわたってどのように進化してきたか、そしてテクノロジーの進化に伴って音声認識と音声テキスト変換機能の使用方法がどのように進化してきたかを見てみましょう。

[[435457]]

1950年代~1980年代: 音を聞くことができる最初のコンピューターが誕生

自動音声認識 (ASR) の威力により、その開発は多くの場合大企業と結び付けられています。

1952 年、ベル研究所は音声数字認識システムである AUDERY の開発に先駆けました。厳密に管理された条件下では、AUDERY システムは 97 ~ 99% の精度で音声番号を認識できます。しかし、科学者で元ベル研究所の電気技師であるジェームズ・フラナガン氏によると、AUDERY は「高さ 6 フィートのリレー ラックに設置され、膨大な電力を消費し、複雑な真空管回路に伴う無数のメンテナンス問題を引き起こした」とのことです。本来の目的からしても、AUDERY は高価すぎて不便でした。

1962 年、IBM は数字と簡単な数学用語を認識できる Shoebox を発表しました。一方、日本の研究室では母音と音素を認識する装置や、最初の音声単語分割装置を開発していました。コンピューターが0~9のような小さな数字の集合を理解するのは一つのことだが、京都大学の画期的な成果は、音声の断片を「セグメント化」して、その技術を音声の範囲に使用できるようにしたことだ。

1970 年代に、米国国防総省 (DARPA) は音声理解研究 (SUR) プログラムに資金を提供しました。この研究の成果には、カーネギーメロン大学の HARPY 音声認識システムが含まれています。 HARPY は 1,011 語の語彙から文章を認識し、システムの発話能力は平均的な 3 歳児の発話能力と同等になります。

HARPY は、HMM を使用した最も初期の音声認識モデルの 1 つです。この確率的アプローチは 1980 年代の ASR の開発を推進しました。実際、音声テキスト変換ツールの最初の実用的な使用例は、1980 年代に IBM の実験的な文字起こしシステム Tangora で登場しました。適切なトレーニングを行えば、Tangora は 20,000 語の英語の単語を認識して入力できるようになります。しかし、このシステムは商用利用にはまだ大きすぎます。

1990年代から2010年代: 消費者ASR

「機械に人間の真似をさせるのは間違っていると考えていました」とIBMの音声認識技術の革新者であるフレッド・ジェリネック氏は回想する。 「結局のところ、機械が移動しなければならない場合、それは徒歩ではなく車輪で移動します。人間がどのように音声を聞き理解するかを徹底的に研究するのではなく、機械がそれを自然に行う方法を見つけたいのです。」

1990 年に、Dragon Dictate が最初の商用音声認識ソフトウェアとして発売されました。当時の価格は約9,000ドルでした。 1997 年に Dragon Naturally Speaking が導入される前は、ユーザーは各単語の間に一時停止する必要がありました。

1992 年、AT&T はベル研究所の音声認識通話処理 (VRCP) サービスを開始しました。 VRCP は現在、年間約 12 億件の音声トランザクションを処理しています。

しかし、1990 年代には、音声認識に関する作業のほとんどは舞台裏で行われていました。パーソナルコンピュータとユビキタスネットワークはイノベーションの新たな展望を生み出しました。マイク・コーエン氏が2004年にGoogleに入社し、同社の音声技術開発を開始したときに見出したチャンスはまさにこれでした。 Google 音声検索 (2007) により、音声認識技術が一般大衆に普及しました。しかし、何百万ものウェブユーザーの音声データも機械学習のトレーニング教材として再利用されています。

Apple (Siri) と Microsoft (Cortana) がそれに続きました。 2010 年代初頭、ディープラーニング、リカレント ニューラル ネットワーク (RNN)、長短期記憶 (LSTM) の出現により、ASR テクノロジーの機能が飛躍的に向上しました。この前進の推進力は、低コストのコンピューティングと大規模なアルゴリズムの進歩の出現と利用可能性によっても大きく推進されています。

ASRの現状

音声認識技術は、数十年にわたる開発を経て、ユーザーの期待の高まりに応えて、過去 5 年間でさらに飛躍的な進歩を遂げました。さまざまなオーディオ忠実度と厳しいハードウェア要件に合わせてソリューションを最適化し、音声検索と IoT を通じて音声認識を日常的に便利に使用できます。

たとえば、スマート スピーカーはホットワード検出機能を使用して、組み込みソフトウェアを通じて即座に結果を提供します。一方、残りの文は処理のためにクラウドに送信されます。 Google の VoiceFilter-Lite は、トランザクションのデバイス側で個人の音声を最適化します。これにより、消費者は自分の声でデバイスを「トレーニング」できるようになります。このトレーニングにより、ソース歪み比 (SDR) が低減し、音声起動アシスタント アプリケーションの使いやすさが向上します。

[[435458]]

単語エラー率(WER – 音声からテキストへの変換中に生成される誤った単語の割合)が大幅に減少しています。研究者たちは、2020年代後半までに文字起こし作業の99%が自動化されると考えています。人間が介入するのは品質管理と修正のためだけです。

2020 年代の ASR ユースケース

インターネット時代の発展に伴い、ASR 機能も共生的に発展しています。ここでは、自動音声認識の魅力的な使用例を 3 つ紹介します。

2021年、ポッドキャスト業界は10億ドルのマークを超えるでしょう。視聴者数は急増しており、語彙も増えています。

ポッドキャスト プラットフォームでは、ポッドキャストをより簡単に作成し、コンテンツの価値を最大化できるように、高精度で単語ごとのタイムスタンプを備えた ASR プロバイダーを求めています。 「Description」のようなアプリは、音声をすぐに編集できるテキストに変換できます。

さらに、各単語にタイムスタンプを付けることで時間を節約し、編集者は完成したポッドキャストを粘土のように形作ることができます。これらのテキストにより、すべての視聴者がコンテンツにアクセスしやすくなり、クリエイターは SEO を通じて番組の検索性と発見性を向上させることができます。

COVID-19パンデミックの影響で、オンラインで開催される会議が増えています。議事録の作成には時間がかかりますが、参加者にとっては非常に実用的なツールです。議事録があれば、参加者は会議の概要を理解し、詳細を追跡することができるからです。ストリーミング ASR は、音声をリアルタイムでテキストに変換できるため、会議やセミナーでより便利な字幕やオンサイト文字起こしを提供できます。

法廷証言や採用などのプロセスも仮想化されつつあります。 ASR を使用すると、ビデオ コンテンツのアクセシビリティが向上します。しかし、さらに重要なのは、エンドツーエンド (E2E) 機械学習 (ML) モデルによって音声セグメンテーション技術がさらに向上し、誰が出席し、誰が何を言ったかが記録されるようになったことです。

<<:  視覚化と人工知能の強力な組み合わせ!

>>:  人工知能があなたの好きな家を見つけるお手伝いをします

推薦する

ナレッジグラフと AIGC を組み合わせるにはどうすればよいでしょうか? JD.comがやっていること

I.はじめにまず、JD.com による電子商取引シナリオにおける AIGC の調査について紹介します...

...

GoogleのAI設計チップから「知能」の本質がわかる

先週、査読付き科学誌「ネイチャー」に掲載された論文で、Google Brain チームの科学者らは、...

Google Cloud が AI を活用したパーソナライズされたおすすめ商品をオンライン小売業者向けに提供開始

海外メディアの報道によると、1月22日、Google Cloudは、世界中の小売業者が電子商取引機能...

ChatGPTの最強の対戦相手が実際のテストでWen Xin Yi Yanに敗れました!

編纂者:王睿平校正 | Yan Zheng著作権侵害、プライバシー侵害、度重なる訴訟により、Chat...

...

...

TypeScript 実践アルゴリズムシリーズ (XII): Map と HashMap の実装

この記事では、辞書とハッシュテーブルの実装のアイデアを詳しく説明し、TypeScript を使用して...

専門家の視点:量子コンピューティングの開発動向

量子コンピューティングとは、量子理論の原理に基づいたコンピューター技術の開発に焦点を当てた研究分野を...

Facebookは人工知能を使ってコンテンツレビューの優先順位を決める

海外メディアによると、フェイスブックは機械学習アルゴリズムの使用を増やし、AIを使ってコンテンツの重...

自動運転トラックはレベル4を達成する可能性が最も高いが、自動運転車は2022年まで待たなければならない

過去10年間、テクノロジーおよび自動車の専門家は、人間の運転手による積極的な監視や入力なしに公道を走...

GPT-2はGPT-4を監督できる、イリヤがOpenAI初のスーパーアライメント論文を主導:AIアライメントAIは実証的な結果を達成

過去1年間、「次のトークンを予測する」ことを本質とする大規模なモデルが人間の世界の多くのタスクに浸透...

...

ディープラーニングの「ディープ」とはどういう意味ですか?

ディープラーニングの「深さ」については、ここ数年で多くの議論がなされてきました。私の周りではさまざま...

駐車問題を解決する 3 つの最善の方法をご存知ですか?

近年、都市部の駐車場の問題はますます顕著になっており、混乱した駐車が頻繁に発生し、人々の移動や生活に...