テクノロジーから製品まで、Apple Siriのディープラーニング音声合成技術の秘密が明らかに

テクノロジーから製品まで、Apple Siriのディープラーニング音声合成技術の秘密が明らかに

[[201603]]

Siri は、音声合成技術を使用して人間とコミュニケーションをとるパーソナルアシスタントです。 iOS 10以降、AppleはSiriの音声にディープラーニングを採用しており、iOS 11のSiriも引き続きこの技術を使用しています。ディープラーニングの使用により、Siri の音声はより自然で滑らか、そして人間味のあるものになります。 Synced では Apple Journal のこの技術ブログを紹介しました。より詳しい技術については原文を参照してください。

導入

音声合成は、人間の声を人工的に生成するもので、アシスタントからゲームやエンターテイメントまで幅広い用途で使用されています。最近では、音声認識とともに、音声合成も Siri などの音声アシスタントの不可欠な部分になっています。

現在、音声合成業界では、単位選択[1]とパラメトリック合成[2]という2つの主要な音声合成技術が使用されています。単位選択型音声合成技術は、十分に高品質な録音があれば高品質な音声を合成できるため、市販製品で最も多く使われている音声合成技術となっています。一方、パラメトリック合成では、非常に明瞭で流暢な音声を提供できますが、全体的な品質は若干低下します。したがって、コーパスが小さく占有率が低い場合には、パラメトリック合成技術がよく使用されます。最新のユニット選択システムは、両方の技術の利点を組み合わせているため、ハイブリッド システムと呼ばれています。ハイブリッド ユニット選択方法は従来のユニット選択手法に似ていますが、選択されるユニットを予測するためにパラメータ合成手法が使用されます。

最近、ディープラーニングは隠れマルコフモデルなどの従来の技術を大きく上回り、音声分野に大きな影響を与えています。パラメトリック合成技術もディープラーニング技術の恩恵を受けます。ディープラーニングにより、新しいタイプの音声合成技術、つまり直接音波モデリング技術 (WaveNet など) も可能になります。この技術は、細胞選択技術の高品質とパラメータ選択技術の柔軟性の両方を実現する大きな可能性を秘めています。ただし、このテクノロジは計算コストが高く、まだ生産できるほど成熟していません。 Apple は、デバイス内のハイブリッド ユニット選択システムでディープラーニングを使用して、すべてのプラットフォームで最高品質の Siri 音声を提供するためにこの措置を講じました。

Appleのディープ音声合成技術の仕組み

パーソナルアシスタント用の高品質なテキスト読み上げ (TTS) システムを構築するのは簡単な作業ではありません。まず、最初の段階は、声が心地よく、理解しやすく、Siri の性格と一致しているプロのアナウンサーを見つけることです。人間の音声の幅広い範囲をカバーするために、まず録音スタジオで 10 ~ 20 時間の音声を録音しました。録音されたスクリプトは、オーディオブックからナビゲーション指示、プロンプトの回答からジョークまで多岐にわたります。一般的に、アシスタントが話すすべての単語を録音することは不可能であるため、この自然な音声を録音したまま使用することはできません。したがって、単位選択型 TTS システムは、録音された音声をセミフォンなどの基本コンポーネントに分割し、それらを再結合して、入力テキストに基づいてまったく新しい音声を作成します。実際には、適切な音素を選択して組み合わせることは簡単な作業ではありません。各音素の音響特性は隣接する音素や音声の韻律によって決まり、音声単位に互換性がないことがよくあるからです。図 1 は、半音に分割されたデータベースを使用して音声を合成する方法を示しています。

図 1: セミフォンを使用した単位選択音声合成のデモンストレーション。合成の発音は「単位選択合成」で、図の上側は半音を使った音声方式です。対応する合成波形とスペクトルは図の下部にあります。垂直線で区切られた音声セグメントは、データセットからの連続した音声セグメントであり、1 つ以上の半音を含む場合があります。

単位の選択 TTS テクノロジの基本的な課題は、入力テキストに適合し、対象の韻を予測し、明らかなエラーなしに組み合わせることができる単位のシーケンス (半音など) を見つけることです。従来、このプロセスはフロントエンドとバックエンドの 2 つの部分で構成されますが (図 2 を参照)、最新のシステムでは境界が曖昧になることがあります。フロントエンドの目的は、生のテキスト入力に基づいて音声転写と音韻情報を提供することです。これには、数字、略語などを含む生のテキストを単語に正規化し、各単語に音声転写を割り当て、テキストから構文、音節、単語、強勢、言い回しを解析することが含まれます。フロントエンドは言語に大きく依存することに注意してください。

図 2: テキスト音声合成プロセス。

音韻生成モジュールは、テキスト分析モジュールによって作成された記号言語表現を使用して、ピッチや継続時間などの音響特徴の値を予測します。これらの値は適切な単位を選択するために使用されます。単位選択のタスクは非常に複雑であるため、現代の合成装置は機械学習の手法を使用してテキストと音声の一貫性を学習し、未知のテキストの特徴値に基づいて音声の特徴値を予測します。このモジュールは、大量のテキストおよび音声データを使用して、シンセサイザーのトレーニング フェーズ中に学習する必要があります。音韻モデルの入力は、音素特性、音素コンテキスト、音節、単語、句レベルでの位置特性などの数値言語特性を適切な数値形式に変換したものです。音韻モデルの出力は、スペクトル、基本周波数、音素持続時間などの音声の数値的な音響特性で構成されます。合成フェーズでは、トレーニング済みの統計モデルを使用して入力テキストの特徴を音声の特徴にマッピングし、その後、トーンや音の長さの適合性が極めて重要となる単位選択バックエンド プロセスをガイドするために使用されます。

フロントエンドとは異なり、バックエンドは通常、言語に依存しません。ユニット選択と波形接合部分が含まれます。システムのトレーニング中、録音された音声とトランスクリプトは強制アライメント(音声認識音響モデルを使用)を使用してアライメントされ、録音された音声データは個々の音声セグメントに分割されます。次に、音声セグメントを使用してユニット データベースを作成します。このデータベースは、各単位の言語的コンテキストや音響的特徴などの重要な情報でさらに強化されています。このデータをユニットインデックスと呼びます。構築された単位データベースと予測された音韻特徴を使用して選択プロセスをガイドし、音声空間でビタビ検索を実行して単位合成の最適なパスを見つけます (図 3 を参照)。

図 3. グリッド内のセル合成の最適なパスを見つけるために Viterbi 検索を使用する。合成されたターゲットセミフォンは図の上部に表示され、その下の各ボックスは個々のユニットに対応します。 Viterbi 検索によって見つかった最適なパスは、選択したセルを接続する線です。

この選択は、(1)単位が目標音韻論に従わなければならないこと、(2)単位は可能な限り単位境界で聴覚上の不具合なく結合されなければならないことという2つの基準に基づいていました。これら 2 つの基準は、ターゲット コストとスプライシング コストと呼ばれます。ターゲット コストは、予測されたターゲット音響特性と各ユニットから抽出された音響特性 (ユニット インデックスに格納) との差であり、連結コストは後続のユニット間の音響差です (図 4 を参照)。合計コストは次の式に従って計算されます。

ここで、u_n は n 番目のユニット、N はユニット数、w_t と w_c はそれぞれターゲット コストとスプライシング コストの重みを表します。ユニットの最適な順序を決定した後、各ユニット波形を連結して連続した合成音声を作成します。

図4. 目標コストとスプライシングコストに基づくユニット選択方法。

Siriの新しい音声を支える技術

隠れマルコフモデルは音響パラメータの分布を直接モデル化するため、ターゲット予測の統計モデル化によく使用され[5][6]、KLダイバージェンスなどの関数を使用してターゲットコストを簡単に計算できます。ただし、ディープラーニング ベースの方法は通常、パラメトリック音声合成でより優れたパフォーマンスを発揮するため、ディープラーニングの利点をハイブリッド単位選択合成にも応用できることを期待しています。

Siri の TTS システムの目標は、データベース内のユニットのターゲット コストと連結コストを自動的かつ正確に予測できる、統合されたディープラーニング ベースのモデルをトレーニングすることです。そのため、この手法では隠れマルコフモデルは使用せず、代わりに深層混合密度モデル(深層混合密度ネットワーク/MDN)[7][8]を使用して特徴量の分布を予測します。 MDS は、従来のディープ ニューラル ネットワークとガウス混合モデル (GMM) を組み合わせたものです。

従来の DNN は、入力層と出力層の間に複数の隠れ層を持つ人工ニューラル ネットワークです。したがって、このようなディープ ニューラル ネットワークは、入力機能と出力機能間の複雑で非線形な関係をモデル化できます。通常、ディープ ニューラル ネットワークは、バックプロパゲーション アルゴリズムを使用して、エラーを伝播することで DNN 全体の重みを更新します。対照的に、GMM は、ガウス分布のファミリーを使用して、入力データが与えられた場合の出力データの分布をモデル化します。 GMM は通常、期待値最大化 (EM) アルゴリズムを使用してトレーニングされます。 MDN は、DNN モデルと GMM モデルの利点を組み合わせたもので、入力と出力の複雑な関係を DNN を通じてモデル化し、出力として確率分布を改善します (下の図 5 を参照)。

図 5: 音響特性の平均と分散をモデル化するための深層混合密度ネットワーク。出力された音響平均と分散は、合成のためのユニット選択のガイドとして使用できます。

Siri では、MDN に基づく統合ターゲットおよび連結モデルを使用します。このモデルは、音声ターゲット機能 (スペクトル、ピッチ、継続時間) と連結コスト分布を予測し、ユニット検索をガイドします。 MDN の分布はガウス確率表分布であるため、ターゲットと連結コストの損失関数として尤度関数を使用できます。

ここで、x_i は i 番目のターゲット特徴、μ_i は予測平均、(σ_i)^2 は予測分散です。実際のコスト計算では、負の対数尤度関数を使用し、定数項を削除する方が便利です。上記の処理の後、次の単純な損失関数に簡略化されます。

ここで、w_i は特徴の重みです。

このアプローチの利点は、自然言語を考慮すると明らかになります。場合によっては、母音と同様に、音声の特徴 (音素など) は非常に安定しており、非常にゆっくりと進化します。有声音と無声音の移行など、変化が非常に急速な場合もあります。この変動性を考慮すると、モデルはこの変動性に基づいてパラメータを調整できる必要があります。Deep MDN は、モデルに埋め込まれた変動性を使用してこれを実現します。予測の分散はコンテキストに依存するため、コストに対する自動的なコンテキスト依存の重みとして扱います。これは、現在のコンテキストでターゲット コストとステッチ コストを計算する必要があるため、合成品質を向上させるために非常に重要です。

ここで、w_t と w_c はそれぞれターゲットと連結コストの重みです。 *** 定式化では、目標コストは、合成音声で音韻 (イントネーションと継続時間) が再現されることを保証することを目的としています。また、スプライシングコストにより、スムーズな韻とスムーズなスプライシングが保証されます。

ディープ MDN を使用してセルの合計コストをスコアリングした後、従来の Viterbi 検索を実行してセルの最適パスを見つけました。次に、波形類似度オーバーラップ追加 (WSOLA) アルゴリズムを使用して最適なスプライシング モーメントを見つけ、滑らかで連続的な合成音声を生成します。

結論は

私たちは、Siri の新しい音声のために、Deep MDN をベースにした完全なハイブリッド単位選択 TTS システムを構築しました。トレーニング音声データは、48KHz でサンプリングされた最低 15 時間の高品質音声で構成されます。音声データを半音に分割するために強制アライメント手法を採用しました。つまり、入力音素シーケンスを、自動音声認識によって音声信号から抽出された音響特徴と一致させます。このセグメンテーション プロセスでは、音声データの量に応じて 100 万から 200 万の半音単位が生成されます。

ユニット選択プロセスをガイドするために、MDN アーキテクチャを使用して統合ターゲットおよび連結モデルをトレーニングします。 Deep MDN への入力は、いくつかの追加の連続値の特徴を持つバイナリ値で構成されます。この機能は、一連の文における五音音素(過去 2 つ、現在 2 つ、後音素)に関する情報を、音節、句、文のレベルで表し、さらに顕著性と強勢の特徴も示します。

出力ベクトルには、メル周波数ケプストラム係数 (MFCC)、デルタ MFCC、基本周波数 (基本周波数 - f0)、デルタ f0 (各単位の開始値と終了値を含む)、および各単位の継続時間などの音響特性が含まれます。音響モデルとして MDN を使用しているため、出力には自動コンテキスト依存性の重みとして各機能の分散も含まれます。

また、音声領域全体の基本周波数は発音に大きく依存します。自然で鮮明なイントネーションを持つ合成音声を作成するために、f0 特徴をモデル化するリカレントディープ MDN モデルを導入しました。

トレーニングされたディープ MDN のアーキテクチャは、非線形活性化関数としてそれぞれ 512 個の正規化線形単位 (ReLU) を持つ 3 つの隠し層で構成されています。入力機能と出力機能は、トレーニング前に平均と分散によって正規化されます。最終的な単位選択音には、単位データベース (各単位の特徴と音声データを含む) とトレーニング済みのディープ MDN モデルが含まれます。新しい TTS システムの品質は、以前の Siri システムよりも優れています。 AB ペアの主観的リスニング テストでは、被験者は深い MDN に基づいて、以前の音よりも新しい音を明示的に選択しました。結果は図6に示されています。品質の向上は、より優れたユニット選択と連結、より高いサンプリング レート (22 kHz 対 48 kHz)、より優れたオーディオ圧縮を可能にする Deep MDN ベースのバックエンドなど、TTS システムのいくつかの改善に関連しています。

図 6: ABペア主観的リスニングテストの結果。新しいサウンドは以前のバージョンよりも大幅に優れています。

TTS システムはモバイル デバイス上で実行する必要があるため、高速事前選択メカニズム、ユニット プルーニング、計算の並列化を使用して、速度、メモリ使用量、フットプリントの観点から実行時パフォーマンスを最適化しました。

新しい声

iOS 11では、Siriの声の自然さ、個性、表現力を高めるために、新しい女性声優を選択しました。私たちは、最高の声優を選ぶ前に何百人もの候補者を評価しました。選定後、20時間以上の音声を録音し、新しいディープラーニングTTSテクノロジーを使用して新しいTTS音声を構築しました。 ***、新しいアメリカ英語の Siri は以​​前よりも音質が良くなりました。下の表には音声の比較がいくつか含まれています(表示できませんので、原文をご確認ください)。

より技術的な詳細については、論文「Siriオンデバイスディープラーニングガイド付き単位選択テキスト読み上げシステム[9]」を参照してください。

表1. iOS 11の新しいSiriの音声の例

<<:  人工知能技術はビッグデータに基づいていますか?

>>:  ロボットの開発について冷静に考える:ロボットは本当にあなたの仕事を奪うのでしょうか?倫理的価値観の再構築のきっかけとなるか?

ブログ    

推薦する

AI による執筆の歴史を振り返ると、AI が人間の執筆作業に取って代わるまでにはどのくらい時間がかかるのでしょうか?

AI がまた本を出版しました。今回は専門家向けの教科書です。科学技術系出版社のひとつ、ドイツのシュ...

人工知能は人間の生活水準をどのように向上させることができるのでしょうか?

米国を例にとると、10年後には、成人一人当たり人工知能ビジネスから年間13,500ドルの利益を得るこ...

看護師の負担を軽減し、病院の効率化を実現します!医療物流ロボットが「新たな人気」に

[[399194]]ロボット産業は、我が国のインテリジェント製造業の発展における重要なリンクであり、...

ピュー研究所:アルゴリズム時代の7つの主要テーマとその主な影響

世界的に権威のある調査機関であるピュー研究所は最近、「アルゴリズムの時代」と題する報告書を発表し、1...

...

Google の Transformer が NeurIPS 2021 で 4 つの SOTA 賞を受賞

[[440180]] Google の Vision Transformer に関する新しい取り組み...

アルゴリズムエンジニアのメリット: 超実践的技術ロードマップ

これは、会社のアルゴリズム グループの同僚向けに作成された技術ロードマップです。主な目的は、技術ルー...

5種類の画像注釈の紹介

[[341366]] [51CTO.com クイック翻訳] 画像内のさまざまなグラフィック領域の注釈...

...

...

...

Nature 誌に「なぜディープラーニング システムは騙されやすいのか?」という記事が掲載されました。

数枚のステッカーで交通標識の認識結果が「変わる」ことがあり、方向を変えると写真に写っている動物の種類...

...

パフォーマンスが最大480倍向上:Armが2つの新しいAIエッジコンピューティングチップ設計を発表

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...