まとめ ディープフィードフォワードシーケンスメモリネットワークに基づく音声合成システムを提案します。このシステムは、双方向の長短期記憶ユニットに基づく音声合成システムと同じ主観的なリスニング体験を実現しながら、後者のモデルサイズがわずか 4 分の 1 で、合成速度が後者の 4 倍であるため、メモリ使用量とコンピューティング効率に非常に敏感なエンドツーエンドの製品環境に非常に適しています。 背景 音声合成システムは、主に連結型合成システムとパラメトリック合成システムの 2 つのカテゴリに分けられます。中でも、パラメータ合成システムは、ニューラルネットワークをモデルとして導入して以来、合成品質と自然さにおいて大きな進歩を遂げました。一方、IoT デバイス (スマート スピーカーやスマート TV など) の普及により、デバイスに導入されるパラメータ合成システムにはコンピューティング リソースの制約とリアルタイム レートの要件も課せられます。この研究で導入されたディープフィードフォワードシーケンスメモリネットワークは、計算量を効果的に削減し、合成品質を維持しながら合成速度を向上させることができます。 ベースライン システムとして、双方向長短期記憶ユニット (BLSTM) に基づく統計的パラメトリック音声合成システムを使用します。他の最新の統計パラメータ音声合成システムと同様に、私たちが提案するディープフィードフォワードシーケンスメモリネットワーク(DFSMN)に基づく統計パラメータ音声合成システムも、上図に示すように、サウンドシンセサイザー(ボコーダー)、フロントエンドモジュール、バックエンドモジュールの3つの主要部分で構成されています。私たちは、オープンソースツールの WORLD をサウンドシンセサイザーとして使用し、モデルのトレーニング中に元の音声波形からスペクトル情報、基本周波数の対数、バンド周期特徴 (BAP)、有声音と無声音のマーカーを抽出し、音声合成中に音響パラメータから実際の音への変換を完了します。フロントエンド モジュールは、入力テキストを正規化し、語彙を解析するために使用されます。これらの言語的特徴をニューラル ネットワーク トレーニングの入力としてエンコードします。バックエンド モジュールは、入力言語特徴から音響パラメータへのマッピングを確立するために使用されます。私たちのシステムでは、バックエンド モジュールとして DFSMN を使用します。 ディープフィードフォワードシーケンスメモリネットワーク 標準フィードフォワード シーケンス メモリ ネットワーク (FSMN) の改良版であるコンパクト フィードフォワード シーケンス メモリ ネットワーク (cFSMN) では、ネットワーク構造に低ランクの行列分解が導入されています。この改良により、FSMN が簡素化され、モデル パラメータの数が削減され、モデルのトレーニングと予測のプロセスが高速化されます。 上の図はcFSMNの構造を示しています。ニューラルネットワークの各cFSMN層について、計算プロセスは次の手順で表すことができます。①線形マッピングにより、前の層の出力が低次元ベクトルにマッピングされます。②メモリモジュールは、現在のフレームと現在のフレームの前後のいくつかのフレームの低次元ベクトルの次元ごとの加重和を計算する計算を実行します。③加重和にアフィン変換と非線形関数を適用して、現在の層の出力を取得します。 3 つのステップは、次の式のように順番に表すことができます。 リカレントニューラルネットワーク (RNN、BLSTM を含む) と同様に、cFSMN はメモリモジュールの順序を調整することで、シーケンスの長距離情報をキャプチャできます。一方、cFSMN は、バックプロパゲーション アルゴリズム (BP) を使用して直接トレーニングできます。これは、バックプロパゲーション スルー 時間 (BPTT) アルゴリズムを使用してトレーニングする必要がある RNN よりも高速で、勾配消失の影響を受けにくくなります。 cFSMN をさらに改良することで、Deep Feedforward Sequential Memory Network (DFSMN) が得られました。 DFSMN は、さまざまなディープ ニューラル ネットワークで広く使用されているスキップ接続テクノロジを活用します。バックプロパゲーション アルゴリズムを実行すると、勾配によって非線形変換をバイパスできます。DFSMN レイヤーをさらに積み重ねても、ネットワークは迅速かつ正確に収束できます。 DFSMN モデルの場合、深さを増やすことによる利点は 2 つあります。一方では、ネットワークが深くなるほど、一般的に表現能力が強くなります。一方、深さを増やすと、DFSMN モデルが現在のフレームの出力を予測するときに使用できるコンテキストの長さが間接的に増加します。これは、シーケンスの長距離情報をキャプチャするのに直感的に非常に役立ちます。具体的には、次の式に示すように、隣接する 2 つのレイヤーのメモリ モジュール間にスキップ接続を追加します。 DFSMN の各層のメモリ モジュールの寸法は同じなので、スキップ接続は恒等変換によって実現できます。 DFSMN は非常に柔軟なモデルと考えることができます。入力シーケンスが短い場合や予測遅延要件が高い場合は、より小さいメモリモジュール順序を使用できます。この場合、現在のフレームに近いフレームの情報のみを使用して、現在のフレームの出力を予測します。入力シーケンスが非常に長い場合、または予測遅延がそれほど重要でないシナリオでは、より大きなメモリモジュール順序を使用できるため、シーケンスの長距離情報を効果的に活用してモデル化することができ、モデルのパフォーマンスを向上させるのに役立ちます。 順序に加えて、DFSMN のメモリ モジュールに別のハイパーパラメータであるストライドを追加しました。これは、メモリ モジュールが過去または将来のフレームから情報を抽出するときにスキップする隣接フレームの数を示すために使用されます。これは、音声合成タスクにおける隣接フレーム間の重なりが音声認識タスクにおける重なりよりもさらに大きいため、理にかなっています。 前述のように、各レイヤーのメモリ モジュールの順序を直接的に増やすことに加えて、モデルの深さを増やすと、現在のフレームの出力を予測するときにモデルが使用できるコンテキストの長さを間接的に増やすこともできます。上の図はその一例です。 実験 実験段階では、男性が読んだ中国の小説のデータセットを使用しました。データセットは 2 つの部分に分かれており、トレーニング セットには 38,600 文の読み上げ (約 83 時間) が含まれ、検証セットには 1,400 文の読み上げ (約 3 時間) が含まれます。すべての音声データのサンプリングレートは16kHz、各フレームのフレーム長は25ミリ秒、フレームシフトは5ミリ秒です。 WORLD サウンド シンセサイザーを使用して、60 次元のメル周波数ケプストラム係数、基本周波数の 3 次元対数、11 次元の BAP 特徴、1 次元の有声音と無声音のラベルなどの音響パラメータをフレームごとに抽出します。上記の 4 つの特徴セットをニューラル ネットワーク トレーニングの 4 つの目的として使用し、多目的トレーニングを実行します。フロントエンド モジュールによって抽出された合計 754 次元の言語特徴は、ニューラル ネットワーク トレーニングの入力として使用されます。 私たちが比較したベースライン システムは、強力な BLSTM モデルに基づいています。このモデルは、下部に 1 つの完全接続層、上部に 3 つの BLSTM 層で構成され、完全接続層には 2048 個のユニットが含まれ、BLSTM 層には 2048 個のメモリ ユニットが含まれます。このモデルは、Back-Propagation Through Time (BPTT) アルゴリズムを使用してトレーニングされますが、DFSMN モデルは、標準の Back-Propagation (BP) アルゴリズムを使用してトレーニングされます。ベースライン システムを含む当社のモデルは、Blockwise Model Update Filtering (BMUF) アルゴリズムを使用して 2 つの GPU でトレーニングされます。トレーニング目標として、多目的フレームレベルの平均二乗誤差 (MSE) を使用します。 すべての DFSMN モデルは、下部の複数の DFSMN レイヤーと上部の 2 つの完全接続レイヤーで構成されます。各 DFSMN レイヤーには 2048 個のノードと 512 個の投影ノードが含まれ、各完全接続レイヤーには 2048 個のノードが含まれます。上図の 3 列目は、モデルが複数の DFSMN 層と複数の完全接続層で構成されていることを示しています。4 列目は、モデルの DFSMN 層のメモリ モジュールの順序とステップ サイズを示しています。 FSMN モデルが音声合成タスクに適用されるのは今回が初めてであるため、実験は浅く、低次のモデル、つまりモデル A から開始します (モデル A のみステップ サイズが 1 であることに注意してください。これは、ステップ サイズが 2 のモデルが、ステップ サイズが 1 の対応するモデルよりも常にわずかに優れていることがわかったためです)。システムAからシステムDまで、DFSMN層数を3に固定したまま、段階的に次数を増やしていきます。システムDからシステムFまで、順序とステップサイズを10、10、2、2に固定しながら、レイヤーの数を徐々に増やしていきます。システム F からシステム I まで、DFSMN レイヤーの数を 10 に固定し、徐々に次数を増やしていきます。上記の一連の実験では、DFSMNモデルの深さと次数が増加するにつれて、客観指標は徐々に減少しています(低いほど良い)。この傾向は非常に顕著で、システムHの客観指標はBLSTMベースラインを超えています。 一方、平均主観スコア(MOS)テスト(高いほど良い)も実施し、そのテスト結果を上の図に示します。主観テストは、有料のクラウドソーシングプラットフォームを通じて、中国語を母国語とするテスター40人によって実施されました。主観テストでは、各システムが 20 個のセット外合成音声文を生成し、各合成音声は 10 人の異なるテスターによって個別に評価されました。平均主観スコアのテスト結果によると、リスニングの主観的な自然さはシステム A からシステム E にかけて徐々に向上し、システム E は BLSTM ベースライン システムと一致するレベルに達しています。しかし、その後のシステムの客観的指標は改善を続けたものの、主観的指標はシステム E スコア付近で変動しただけで、それ以上の改善は見られませんでした。 結論は 上記の主観的および客観的なテストに基づいて、音声合成音響モデルのモデリングに必要なコンテキスト長の上限は、それぞれ 120 フレーム (600 ミリ秒) の履歴情報と未来情報をキャプチャすることであり、コンテキスト情報が増えても合成結果に直接影響しないという結論に達しました。私たちが提案したDFSMNシステムは、BLSTMベースラインシステムと比較して、モデルサイズがベースラインシステムの1/4に抑えられ、予測速度がベースラインシステムの4倍でありながら、ベースラインシステムと同じ主観的なリスニング体験を実現できます。これにより、このシステムは、さまざまなIoTデバイスへの展開など、メモリ使用量とコンピューティング効率に対する要件が高いエンドツーエンドの製品環境に非常に適しています。 オリジナルリンク: https://arxiv.org/abs/1802.09194 チーム: Alibaba Voice Interaction Intelligence チーム 著者: Mengxiao Bi、Heng Lu、Shiliang Zhang、Ming Lei、Zhijie Yan |
>>: 人工知能産業は急速に発展しており、その規模は2020年には1600億ドルを超えるだろう
先日終了した全国人民代表大会と中国人民政治協商会議では、「科学技術イノベーション」という言葉が頻繁に...
ほんの数年前までは、マーケティングに特化した AI エンジンがマーケティングの未来につながると信じて...
[[206273]]人々は 1960 年代から HAL のような SF レベルの AI を...
広州市のある商業銀行は最近、顔認証引き出し機能を備えたATMを導入し、利用者が銀行カードを持っていな...
[[263447]]人工知能技術の継続的な導入は、新たな産業発展の中核的な原動力となり、さまざまな...
最近、NVIDIA GPU 製品や SDK を使用してディープラーニングを学習している学生に多く出会...
指紋認証ドアロックは新しいものではなく、誰もがよく知っているものだと思います。近年、スマートホームが...
01 はじめにこの論文は、深層強化学習に対する敵対的攻撃に関する研究です。本論文では、著者らは、堅牢...
ロボットは「製造業の至宝」とみなされており、ロボット産業の発展は国家のイノベーションと産業競争力の向...
2023年も半ばを過ぎた現在、ビッグモデルは爆発後のメタバースのように冷めることなく、ますます活発...
序文LZ77 アルゴリズムは、1977 年にイスラエルの Abraham Lempel によって公開...
史上最速の大規模モデル推論を実現するには、1171万ドル(8410万元)の費用がかかりますか? ? ...
以前のPC時代では、人々は携帯電話やウェブページを通じて近くのレストランに注文をしていたが、これには...