線形ネットワークに基づく音声合成のための話者適応

線形ネットワークに基づく音声合成のための話者適応

[51CTO.com からのオリジナル記事] 話者適応アルゴリズムは、少量の話者データを使用して、満足のいく音声を合成できる話者適応型音声合成システムを構築します。本稿では、線形ネットワークに基づく音声合成のための話者適応アルゴリズムを提案する。このアルゴリズムは、各話者ごとに特定の線形ネットワークを学習し、対象話者に属する音響モデルを取得します。このアルゴリズムにより、対象話者の適応コーパスの 200 文でトレーニングされた話者適応システムは、1000 文でトレーニングされた話者依存システムと同様の合成効果を達成できます。

背景

対象話者について、十分なトレーニングデータがあれば、話者依存の音響モデルを構築することができます。この音響モデルに基づくシステムは、話者依存音声合成システムと呼ばれます。このシステムを使用すると、対象話者の音声に非常によく似た音声を合成することができます。しかし、ほとんどの場合、対象話者のデータが十分でないため、合成音声は理想的なものにはなりません。話者適応アルゴリズムを使用すると、比較的限られたデータに基づいて、より優れた音声合成システムを実現できます。このタイプのアルゴリズムは、録音、転写、検証作業を大幅に節約し、新しい音声を作成するコストを非常に低く抑えます。

本稿では、線形ネットワーク (LN) に基づく音声合成のための話者適応アルゴリズムを提案します。このアルゴリズムは、ソース話者の音響モデルの層の間に線形ネットワークを挿入し、ターゲット話者のデータを使用して線形ネットワークとニューラル ネットワークの出力層を更新し、ターゲット話者に属する音響モデルを取得します。さらに、低ランクプラス対角 (LRPD) に基づくモデル圧縮アルゴリズムが線形ネットワークに適用されます。実験により、データ量が少ない場合、LRPD を使用して一部の冗長なパラメータを削除し、システムによって合成されたサウンドをより安定させることができることがわかりました。

アルゴリズムの説明

本稿では、図1の左側に示すように、ソーススピーカー音響モデルはマルチタスクDNN-BLSTMに基づく音響モデルである。音響モデルの入力は音声特徴であり、出力は音響特徴です。音響特徴にはメル周波数ケプストラム係数などが含まれます。実験では、音響モデルの最下層でディープニューラルネットワーク (DNN) を使用すると、より優れた基礎機能が得られ、DNN を使用しない場合よりも収束速度が速くなることが示されています。出力層では、さまざまな音響特徴が独自の出力層を使用し、音響モデルの隠し層のみを共有します。

線形ネットワークに基づく適応アルゴリズムは音声認識の分野で初めて提案されました。そのシステム構造は図1の右側に示されています。線形ネットワークが挿入される位置に応じて、線形入力ネットワーク (LIN)、線形隠れネットワーク (LHN)、線形出力ネットワーク (LON) に分けられます。

実験

この論文で提案されたアルゴリズムは、3 人の話者、各話者の 5000 文、所要時間約 5 時間の中国語データセットで実験されました。データセット内の音声のサンプリング レートは 16k で、特徴抽出におけるウィンドウの長さとウィンドウ シフトはそれぞれ 25 ミリ秒と 5 ミリ秒です。 3 人の話者の名前をそれぞれ A-男性、B-女性、C-女性とします。この実験では、ソース話者音響モデルのトレーニングプロセスで使用される文の数は 5000 です。異なる文数での合成効果を比較するために、対象話者の適応データセットに対応する文数は 50 から 1000 の範囲です。適応データセットに加えて、開発セットとして 200 文、テスト セット (主観的スコアリング用) として 20 文を使用します。性別が適応効果に与える影響を分析するために、女性同士、男性同士、女性同士、女性同士の 3 組のソース話者とターゲット話者のペア間で実験を実施しました。さらに、客観的な測定と主観的な視聴覚観察を使用して、モデルのパフォーマンスを測定します。客観的な指標には主に、メルケプストラム歪み (MCD)、F0 の二乗平均平方根誤差 (RMSE)、無声音/有声音 (U/V) 予測誤差、開発セットの MSE が含まれます。主観的聴力検査では、主にシステムによって合成されたサウンドサンプルの自然さと類似性をスコア化します - 平均意見評点 (MOS)。

C-female – B-femaleを例にとると、図3は異なる適応文の数と客観的な指標の関係を示しています。このうち、SD は話者依存システム、OL はソース話者音響モデルの出力層のみを更新する話者適応システム、OL+Full-LN と OL+LRPD-LN はそれぞれ Full-LN と LRPD-LN に基づく話者適応システムを表します。図3によると、トレーニング/適応文の数が増えるにつれて、すべてのシステム間の客観的な指標は同様になります。 SD と他の 3 つの適応型システムを比較すると、同じ文数では適応型システムのパフォーマンスの方が優れています。さらに、OL+LRPD-LN と OL+Full-LN はどちらも OL と比較してパフォーマンスが飛躍的に向上しており、他の層を更新せずに出力層のみを更新しても、良好な適応効果が得られないことがわかります。同時に、適応文の数が少ない場合、OL+Full-LN の客観的なパフォーマンスは OL+LRPD-LN よりも悪くなります。これは、OL+Full-LN が導入するパラメータが多すぎるため、過剰適合の問題があるからです。逆に、文数が多い場合、客観的なパフォーマンスではOL+Full-LNの方がOL+LRPD-LNよりも優れています。この時点で、OL+LRPD-LNはパラメータ数が少ないため、アンダーフィッティングの問題があります。

図 4 は、異なるシステム間の自然さと類似性を比較しています。文数が減少するにつれて、SD システムのパフォーマンスは急激に低下し、OL+LRPD-LN は SD や OL+Full-LN よりも安定しています。客観的な測定と一致して、OL+Full-LN と OL+LRPD-LN は同じ数の文で SD よりも優れています。さらに、200 文での OL+Full-LN と OL+LRPD-LN のパフォーマンスは、1000 文での SD のパフォーマンスと同様です。客観的なメトリックとは異なり、文数が 500 未満の場合は、OL+LRPD-LN が OL+Full-LN よりも優れています。これは、過剰適合により合成音が不安定になり(客観的な指標は向上するが)、音の明瞭度が低下するためです。このことから、同じ結論を導き出すことができます。つまり、適応文の数が少ない場合、オーバーフィッティングによって OL+Full-LN のパフォーマンスが低下します。

結論は

本稿では、線形ネットワークに基づく話者適応アルゴリズムを音声合成の分野に適用し、LRPD に基づくモデル圧縮アルゴリズムによって音の安定性を向上させることができることを示した。 3 つの異なるソース話者とターゲット話者のペアを使用した実験を通じて、適応文の数が非常に少ない場合に LRPD によって音声の安定性が向上することがわかりました。さらに、提案されたアルゴリズムにより、200 人の対象話者のトレーニング コーパスでトレーニングされた話者適応型システムは、1000 文でトレーニングされた話者依存型システムと同様の結果を達成できます。

【今月のランキング***0】

  1. 張震: AIOps の 6 つの技術的難しさと CreditEase の運用と保守における大きな変化
  2. 新居ネットワークの程永馨氏:AIの助けを借りて、運用保守プラットフォームは新たな活力を得ました
  3. SIEM&AIからSIEM@AIまで、AIが次世代のエンタープライズセキュリティの頭脳を構築
  4. 線形ネットワークに基づく音声合成のための話者適応
  5. 孫玄、Zhuanzhuan 社アーキテクチャアルゴリズム部門: AI によるマイクロサービスアーキテクチャ

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  ITBハードドライブがあなたを待っています | 人工知能+ブロックチェーンの開発動向と応用に関する研究

>>:  人工知能にブレーキをかけるべき6つの理由

ブログ    
ブログ    

推薦する

2020 年の人工知能に関するトップ 10 の予測

[[318614]] [51CTO.com クイック翻訳] 2019年、世界中の意思決定者の53%が...

謎の AI 顔変更ソフトウェアが世界中のソーシャル ネットワークに侵入!マスク氏は数秒でルネサンス貴族になる

[[410798]] FaceAppの人気は過ぎ去り、最近では、あなたの顔を数秒で「ディズニー」に変...

速報、劉強東が核爆弾を投げる!宅配便は早く消えます!

本当に信じられません、この時代の変化のスピードは想像を絶します!革新!革新!再びイノベーション!次か...

...

国内トップクラスのAIカンファレンスCPALに採択された論文の成果を公開!合計30件の口頭発表と60件のスポットライト記事

今年5月に発表され、国内の有力者である馬怡氏と沈向陽氏が主導する、まったく新しい初のAI学術会議CP...

...

AIはHRにどのように役立つのでしょうか?

全国的に人材不足が進む中、テクノロジーは雇用者が厳しい市場で最高の人材を見つけるのに役立ちますが、人...

なぜ機械学習モデルの90%が実稼働に至らないのか

会社は厳しい時期を迎えている。私はパンデミックや株式市場の変動について話しているのではない。時代は不...

武器化されたAIとIoT攻撃は最大の技術的脅威となる

1. 「企業が人工知能やモノのインターネットなどの新しいテクノロジーの導入を検討するにつれ、攻撃対象...

機械学習で知っておくべき3つの特徴選択方法!

ディープラーニングの活発な発展に伴い、業務シナリオで使用するためのディープ ニューラル ネットワーク...

...

...

人工知能はそれほど信頼できるものではない。システムは「知らないことを知らない」し、アルゴリズムは安全ではない。

[[419993]]文/陳潔人工知能技術は、画像分析から自然言語理解、科学分野に至るまで、現在の科...

大規模言語モデルの脆弱性緩和ガイド

大規模言語モデル (LLM) アプリケーションは世界中で急速に普及していますが、企業は依然として大規...

スイスのCERTがボットネットのドメイン名生成アルゴリズムを解読し、多数のトップレベルドメインをブロック

スイス政府コンピュータ緊急対応センター(GovCERT)は、ボットネットTofseeが通信に使用して...