Baiduの新しい論文はGram-CTCを提案:単一システムの音声転写が最高レベルに到達

Baiduの新しい論文はGram-CTCを提案:単一システムの音声転写が最高レベルに到達

[[188128]]

最近、百度シリコンバレーAI研究所の劉海栄氏、李翔剛氏らは、音声認識の速度と精度を大幅に向上させる新しい音声認識モデルGram-CTCを提案する論文を発表しました。研究者によると、この新しい方法により、モデルのトレーニングと推論時間を大幅に短縮できるという。同じタスクにおいて、新しいモデルのパフォーマンスは、単一モデルの比較において Microsoft および他の企業による研究を上回りました。クリックすると原文が読め、この論文をダウンロードできます。

Baidu の研究が発表される前に、Microsoft は 2016 年 10 月に、同社のマルチシステム アプローチにより、Switchboard と呼ばれる 2,000 時間の音声言語データベースで 5.9% のエラー率を達成したと発表しました。後者はマルチシステムアプローチの可能性を探るものと考えられているが、今回Baiduが提案した単一システムアプローチの方が実装が容易である。

CTC エンドツーエンド学習では、通常はディープニューラルネットワークを使用して、入力と出力をリンクするアルゴリズムを使用します。このアプローチでは、人工的な機能設計を減らし、中間ユニットを減らすことを推奨します。エンドツーエンドの学習システムには、CTC ベースの音声認識と注意ベースの機械翻訳が含まれます。CTC は、業界の多くの製品に使用されています。

Fisher-Switchboard ベンチマークでは、Baidu の研究者がドメイン内データを使用して、以前に公開された結果と比較しました。表には、1 つのモデルの結果のみが記載されています。

Deep Speech は、複数の言語での音声認識に CTC 損失を使用するエンドツーエンドのニューラル アーキテクチャを提供します。 Baidu が実証した Gram CTC は、CTC 損失関数を拡張して、文字ではなくフィールドを自動的に検出して予測できるようにします。

Gram-CTC を使用するモデルは、単一のモデルで Fisher-Swbd ベンチマークの他のどの以前のモデルよりも優れたパフォーマンスを達成できます。これは、Gram-CTC を使用したエンドツーエンドの学習がコンテキストと関連する音素に基づくシステムよりも優れていること、また同じトレーニング データを使用してトレーニングを 2 倍高速化できることを示しています。

同じオーディオ クリップの次の可能な転写を検討してください。これらはすべて、音声転写に適しています。

  • 常識を使って会話を認識する
  • 素敵なビーチを破壊して、穏やかなお香を歌う

CTC は、入力オブジェクトが互いに独立していると仮定して、一度に 1 文字しか予測できません。 2 つの転写が類似するようにするには、CTC は以下に示すように、空白を埋めるために 2 つの文字を選択する必要があります。

オプション 2 の候補のみを使用して空欄を埋めると、最初の目標である「音声を認識する...」を達成できます。オプション 1 の候補を使用すると、「素敵なビーチを破壊...」という結果が得られます。さらに、オプション 1 と 2 を一緒に選択すると、意味のないステートメントが多くなります。

フィールドとは、「ing」、「euax」、「sch」など、文字と単語の間の単位です (接辞を含みますが、これに限定されません)。同じフィールドでも単語や文脈によって発音が異なる場合がありますが、英語では一般的にフィールドは同じ発音になる傾向があります。私たちの場合、予測のためにフィールドを使用することもできます。

上の図に示すように、この方法により、意味のない予測の組み合わせを大幅に削減できます。また、予測接辞には次のような利点があります。

  • フィールドは発音に関連する個々の文字よりも広範囲にわたるため、モデル化が容易になります。
  • フィールドは文字よりも長い範囲の音を反映するため、このアプローチにより、アルゴリズムが予測を行うために必要なステップ数を大幅に削減できます。私たちのモデルは時間ステップを半分に短縮し、トレーニングと推論の速度が大幅に向上します。同じハードウェア環境で、2000 時間のデータセットのトレーニング時間が 9 時間から 5 時間に短縮されました。
  • モデルは同じ発音の一般的なスペルを認識することを学習できます。上記の例では、「alm」と「omm」の発音は非常に似ています。 CTC ではこの識別は困難ですが、Gram-CTC でははるかに簡単です。

論文: Gram-CTC: シーケンスラベリングのための自動ユニット選択とターゲット分解

既存のシーケンス ラベリング モデルのほとんどは、ターゲット シーケンスを基本単位シーケンスに固定的に分解することに依存しています。しかし、これらの方法には 2 つの大きな欠点があります。1) 音声認識における単語、文字、音素のセットなど、基本単位のセットが固定されている。 2) 対象シーケンスの分解が固定されます。これらの欠点により、シーケンスをモデリングするときにパフォーマンスが最適でなくなることがよくあります。本稿では、これらの制限を軽減するために一般的な CTC 損失基準を拡張し、Gram-CTC という新しい損失関数を提案します。 Gram-CTC は、CTC の利点を維持しながら、最適な基本単位 (グラム) のセットと、ターゲット シーケンスを分解する最も適切な方法を自動的に学習できます。 CTC とは異なり、Gram-CTC ではモデルが各タイム ステップで文字の変数値を出力できるため、モデルはより長期的な依存関係をキャプチャし、計算効率を向上させることができます。提案された Gram-CTC は、さまざまなデータ サイズの大語彙音声認識タスクにおける CTC のパフォーマンスだけでなく効率も向上することを実証します。さらに、Gram-CTC を使用して、標準的な音声ベンチマークにおける現在の最先端技術を上回る結果を達成します。

<<:  ゲームプログラミングにおける人工知能

>>:  機械学習の発展の歴史と啓蒙

ブログ    
ブログ    
ブログ    

推薦する

役に立つヒント | 複数の事前トレーニング済みビジョンモデルの転移学習

この記事では、Keras Tensorflow 抽象ライブラリに基づく転移学習アルゴリズム モデルを...

中国人工知能産業発展連盟メディアプロジェクトグループが設立され、51CTOは連盟の最初の専門メディアの1つになりました。

中国人工知能産業発展連盟メディアプロジェクトグループの設立会議が2018年1月25日に北京で開催され...

...

顔認識の「レッドライン」と「ボトムライン」を理解していますか?

顔認識技術の応用を標準化するため、2023年8月8日、中国サイバースペース管理局が起草した「顔認識技...

自動化とエンタープライズAIは2021年に大きく成長する

最近のガートナーの調査によると、労働力の自動化とエンタープライズ人工知能が 2021 年の主要なトレ...

AI検出器は復活するのか?成功率は98%と高く、OpenAIを上回っている。

現在の AI テキスト検出器には、AI が生成したテキストと人間が作成したテキストを効果的に区別する...

...

認知分析について知っておくべきことすべて

コンテキストを提供し、大量の情報に隠された答えを発見するために、コグニティブ コンピューティングはさ...

2021 年の機械学習の 6 つのトレンド

機械学習は今日ではよく知られた革新的な技術となっています。ある調査によると、現在人々が使用しているデ...

AIが再び人間に勝つ:たった1枚の自撮り写真から人の性格を判別

[[327813]]新たな研究によると、人工知能(AI)は、自撮り写真だけに基づいて人の性格を識別す...

人工知能をより深く理解するための人工知能と機械学習の12のキーワード

[[260979]]人工知能(AI)技術があらゆる分野にますます大きな影響を及ぼすようになるにつれ、...

Shell、EY、GE で変革を推進している AI Center of Excellence はどれほど素晴らしいのでしょうか?

シェルが2013年に初めて「AI Center of Excellence」を立ち上げたとき、それは...

人工知能市場の需要と応用

「人工知能」は3年連続で政府活動報告に盛り込まれており、2019年にはビッグデータ、人工知能などの研...

Googleが謝罪:Vision AIが人種差別的な結果を生成

新型コロナウイルスと闘っている多くの国々は、駅や空港で国民に体温検査を受けるよう命じている。この状況...