昨年 10 月、マイクロソフトの AI および研究部門の研究者およびエンジニアのチームは、自社の音声認識システムがプロの速記者の単語誤り率 (WER) と同等かそれよりも低い 5.9% を達成したと報告しました。しかし、IBMの公式ブログは本日、人間のレベルは実際には5.1%であるはずだと主張する記事を公開した。同時に、記事ではIBMシステムの単語エラー率がマイクロソフトが報告したこれまでの最高レベルを超え、5.5%に達したとも述べられている。 IBMは、これはまったく新しい画期的な成果であると主張していますが、関連する研究論文はまだ公開されていないようです(見つけることができませんでした)。Machine Heartは引き続き注目し、この成果の技術的な詳細をできるだけ早く読者と共有することを楽しみにしています。 以下のコンテンツは IBM ブログからまとめたものです。 このブログ投稿の日付とタイトル 会話では、人は20語聞くごとに1~2語聞き逃してしまいます。 5 分間の会話では、80 語を聞き逃す可能性があります。しかし、これは会話を妨げるものではありませんでした。この状況がコンピューターに置き換えられたらどうなるか想像してみてください。 昨年、IBM は会話型音声認識において大きな進歩を遂げ、音声認識における単語エラー率を 6.9% にまで削減したことを発表しました。それ以来、単語エラー率は低下し続け、現在では 5.5% に達しています。 単語エラー率は、車の購入など日常的な話題について人々の会話を録音するという難しい音声認識タスクから測定されます。この録音されたコーパスは SWITCHBOARD と呼ばれ、20 年以上にわたって音声認識システムの標準となっています。 IBMはディープラーニング応用技術の拡大に注力し、最終的に単語誤り率5.5%という画期的な成果を達成しました。 LSTM モデルと WaveNet 言語モデルを 3 つの強力な音響モデルと組み合わせました。使用される 3 つの音響モデルのうち、最初の 2 つは 6 層の双方向 LSTM であり、そのうちの 1 つはマルチ機能入力を持ち、もう 1 つは話者敵対的マルチタスク学習によってトレーニングされます。 3 番目のモデルは、正のサンプルと負のサンプルの両方から学習できるという点でユニークです。そのため、IBM のシステムは、特に類似した音声パターンが繰り返される場合に、ますます賢くなります。 人間の会話と同等の単語誤り率を達成することは、長い間業界の究極の目標でした。中には、人間レベルの単語誤り率 5.9% を達成したと主張するものもあります。本日の成果の一環として、実際の人間の単語エラー率は 5.1% であると再判定されました。これは、以前の成果よりも低い値です。 私たちのパートナーである Appen は音声および検索テクノロジー サービスを提供し、最終的に人間の実際の単語エラー率を決定するのに役立ちました。 5.5% の単語誤り率を達成したことは大きな進歩でしたが、実際の人間の単語誤り率を測定すると、まだそこに到達していないことがわかります。 私たちの研究活動の一環として、他の業界の専門家と協力して音声データを入手しました。モントリオール大学MILA研究所の医学博士ヨシュア・ベンジオ氏は、人間に似た人間になるためには、まだまだ努力が必要だと考えている。 「近年の目覚ましい進歩にもかかわらず、音声認識や物体認識などの AI タスクで人間レベルのパフォーマンスを達成することは、依然として最も困難な科学的課題の 1 つです。実際には、標準ベンチマークでは実際のデータの多様性と複雑性を必ずしも捉えることはできません。たとえば、データセットによってタスクのさまざまな側面に対する感度が異なり、音声認識の場合は熟練した文字起こし担当者を使用するなど、人間のパフォーマンスを評価する方法によって結果が大きく左右されます」とベンジオは述べています。「IBM は、ニューラル ネットワークとディープラーニングを音響モデルと言語モデルに適用することで、音声認識で大きな進歩を遂げてきました。」 また、業界全体で人間のパフォーマンスをテストする標準的な方法を見つけることは、予想以上に複雑であることもわかりました。 SWITCHBOARD に加えて、この業界の別のコーパスである CallHome は、事前に固定されたトピックのない家族間のより口語的な会話に基づいて作成された、テスト用の別の言語データセットを提供します。 CallHome データの会話は、Switchboard の会話よりも機械で書き起こすのが難しく、そのため、突破口を開くのがより困難になります。 (このコーパスでは、単語エラー率が 10.3% を達成しました。これは、業界記録です。ただし、Appen の助けにより、同じ状況での人間の精度は 6.8% です)。 さらに、SWITCHBOARD テスト中に、テスト スピーカー データと同じ人間の声の一部が、音響モデルと言語モデルのトレーニングに使用されるトレーニング データセットにも含められました。 CallHome にはそのような重複がないため、その音声認識モデルはテスト話者のデータにさらされることはありません。このため、繰り返しがなくなり、人間と機械のパフォーマンスの差が大きくなってしまいます。私たちが人間と同等の地位を目指して努力を続ける中で、こうした再現を活用できるディープラーニング技術の進歩は、最終的にこれらの困難な問題を克服する上で重要な役割を果たすことになるでしょう。 コロンビア大学のコンピューターサイエンス教授兼学部長であるジュリア・ヒルシュバーグ氏は、音声認識の複雑な課題について次のようにコメントしている。
本日の成果は、音声テクノロジーにおける当社にとって新たなマイルストーンとなります。たとえば、昨年 12 月には、Watson 音声テキスト変換サービスに話者ダイアライゼーションを追加しました。これは、会話中の個人を区別する機能の向上です。こうした音声の進歩は数十年にわたる研究に基づいており、人間レベルの音声認識を実現するのは複雑な作業です。私たちは、人間が聞き、話し、考える複雑さにいつの日か到達できるテクノロジーを創り出すために、これからも努力を続けていきます。私たちは進歩に勇気づけられていますが、私たちの仕事は将来の研究、そしてさらに重要なことに、可能な限り最高の精度基準を達成することにかかっています。 元記事: https://www.ibm.com/blogs/watson/2017/03/reaching-new-records-in-speech-recognition/ [この記事は、51CTOコラムニストのMachine Heart、WeChatパブリックアカウント「Machine Heart(id:almosthuman2014)」によるオリジナル翻訳です] この著者の他の記事を読むにはここをクリックしてください |
<<: FacebookがFaissオープンソースリソースライブラリをリリース。精度と効率をトレードすることが機械学習の発展方向となるのか?
>>: Google、AIの地位強化のためデータサイエンスコミュニティKaggleの買収を発表
これまで、多くの独創的なコンピュータ アルゴリズムの設計が私たちのコンピューティング技術を変えてきま...
5G建設の展開に伴い、「デジタルトランスフォーメーション」という言葉も注目を浴び、さまざまな展示会...
LLM について議論するときは、必ず「人間のフィードバックによる強化学習 (RLHF)」と呼ばれるプ...
米国現地時間9月25日、AmazonとAnthropicは共同で次のように発表した。アマゾンはアント...
製造企業は、ビジネスのやり方を合理化し、効率を高めるために人工知能に注目しています。一般的な使用例を...
以前、LeNet、AlexNet、Vgg についてお話しましたが、今週は GoogLeNet につい...
[[380661]] [51CTO.com クイック翻訳] 会話型 AI により、アプリケーションは...
近年、ディープラーニング技術の登場により、視覚画像処理はますます普及し、さまざまな分野で広く利用され...
まず、人工知能プラットフォームの実装により、人工知能技術は多くの業界や分野、特にインターネットと密接...
論文: ディープラーニングの最近の進歩: 概要論文アドレス: https://arxiv.org/p...