蝶ネクタイボイスチェンジャーなしでも1秒でコナンになれる——音声合成+ディープラーニング

蝶ネクタイボイスチェンジャーなしでも1秒でコナンになれる——音声合成+ディープラーニング

[51CTO.com からのオリジナル記事] 「名探偵コナン」を見たことがある友人なら、コナンに出てくるさまざまな黒いテクノロジー「命を救う遺物」を覚えているだろうと思う。彼らはコナンとともにさまざまな犯罪現場に行き、事件解決を手伝うだけでなく、危機的な瞬間にコナンが危険から逃れるのを助けることもできます。最もよく知られているのは蝶ネクタイ型ボイスチェンジャーです。近年、科学技術の発展により、この魔法の蝶ネクタイ型ボイスチェンジャーが現実のものとなりました。今日は、それがどのように達成されるかを探ってみましょう。

[[235877]]

音声合成の3つの部分

簡単に言えば、音声合成は、テキスト分析、韻律分析、音響分析の 3 つの部分に分かれています。テキスト分析によってテキストの特徴が抽出され、これに基づいて基本周波数、継続時間、リズムなどのさまざまな韻律的特徴が予測されます。次に、音響モデルを通じてフロントエンドパラメータから音声パラメータへのマッピングが実現されます。

音声合成の2つの方法

音声合成では、主に波形接合合成と統計パラメータ合成の 2 つの方法が使用されます。

波形接合音声合成のプロセスは簡単に理解できます。つまり、コーパスから適切な接合単位を抽出し、それを文章に接合するのです。パラメトリック音声合成には、サウンドライブラリのパラメトリックモデリングと、トレーニングされたモデルに基づく韻律および音響パラメータの予測が必要です。

通常、波形スプライシング音声合成ではレコーダーによる数十時間の録音が必要ですが、パラメトリック音声合成ではカスタマイズされた音声パッケージの作成を完了するのに 10 時間の録音しか必要ありません。

総合的に比較すると、つなぎ合わせた合成音声は実際の発音に近いですが、波形つなぎ合わせ音声合成では、高品質の音声を合成するために十分な高品質の話者録音が必要です。統計パラメータ音声合成の全体的な合成品質はわずかに低くなりますが、話者コーパスのサイズが限られている条件下ではその利点がより明らかになります。

ディープラーニングによる音声合成

近年、ディープラーニングはAI分野で最もホットな話題となっています。急速に発展しているだけでなく、その分野もますます広がっています。学術研究と企業への応用はともに指数関数的な成長傾向を示しています。この技術が成熟し続けるにつれて、ディープラーニングはインテリジェント音声の分野にも大きな影響を与え、従来の音声合成技術を大きく上回っています。

1. 従来のDNN/LSTMベースの合成

HMM 統計パラメータに基づく従来の音声合成では、トレーニング プロセス中にテキスト パラメータと音響パラメータ間のマッピング モデルを確立し、ガウス混合モデルを通じて各モデリング ユニットを記述します。モデリング プロセスには、音声品質を低下させる 3 つのリンクがあります。1 つ目は決定木のクラスタリング、2 つ目はボコーダー、3 つ目はパラメータ生成アルゴリズムです。決定木クラスタリング問題では、ディープニューラルネットワークを使用して、テキスト特徴と音響特徴のマッピング関係を確立し、従来の浅いモデルを置き換えてモデルの精度を向上させることができます。 典型的なディープニューラルネットワークモデル構造には、ディープビリーフニューラルネットワークと長短期記憶再帰ニューラルネットワークがあります。後者はシーケンス学習機能がより強力です。 BLSTM-RNNモデリングを使用する場合、パラメータ生成アルゴリズムをスキップして、音声パラメータを直接予測することもできます。 最後に、ボコーダーを介して音声を合成できます。 一般に、ディープニューラルネットワークの強力な非線形モデリング機能により、音声合成システムのパフォーマンスがある程度向上しましたが、元の音声合成システムのフレームワークから脱却していません。

2. WaveNetベースの合成

既存の研究では、時間領域で既存のオーディオを直接モデル化する人はほとんどいません。直感的に言えば、各サンプルが以前のすべてのサンプルによってどのように影響を受けるかを予測できる自己回帰モデルを構築することは、かなり困難な作業です。 Google が提案した WaveNets ベースの音声合成方法は、従来の音声合成フレームワークから脱却し、ボコーダー モジュールをバイパスしてサンプリング ポイントを直接予測することで、この困難な問題に対する画期的な解決策を実現しました。

WaveNet 音声合成システムへの入力には、前の期間のテキスト機能と音声サンプルが含まれます。その中で、テキストの特徴を効果的に表現することが非常に重要な役割を果たします。ネットワークがテキストシーケンスなしでトレーニングされた場合、音声は生成できますが、出力オーディオの内容を理解することはできません。 WaveNet 音声合成システムの問題は、モデルが毎回 1 つのサンプリング ポイントを出力するため、計算効率が実際の要件を満たすのが難しいことです。既存のモデルを最適化して、さまざまな話者に適合させるために、いくつかの適応型手法を導入することができます。また、モデルの入力時に感情やアクセントなどのより多くの情報を提供することも可能で、生成される音声はより多様で表現力豊かになります。

3. DeepVoiceに基づく合成

2017 年 2 月、Baidu Research は、完全にディープ ニューラル ネットワークで構築された高品質のテキスト読み上げシステムである Deep Voice システムを提案しました。

多くのモジュールをディープ ニューラル ネットワークを使用して実装し、WaveNet に似たシンセサイザーで合成しており、その効果は非常に理想的です。既存の音声合成システムはいくつかの側面でディープラーニングを使用していますが、Deep Voice 以前には、完全なディープラーニング フレームワークを採用したチームはありませんでした。従来の音声合成では多くの特徴処理と特徴構築が必要ですが、Baidu はディープラーニングを使用することでこれらの問題を回避します。これにより、Deep Voice の適用範囲が広がり、より便利に使用できるようになります。新しいデータ セットを適用する必要がある場合、従来の音声合成システムでは再トレーニングと調整を完了するのに数日から数週間かかりますが、Deep Voice のモデルを手動で操作してトレーニングするのに必要な時間はわずか数時間です。 WaveNet音声合成システムと比較すると、このシステムの実効速度は400倍高速になりました。

4. エンドツーエンドの音声合成

1 つ目は Char2Wav です。このモデルは、エンコーダー/デコーダー モデルを使用して入力テキストを直接エンコードします。入力された特徴はエンコードされ、生成された中間エンコード情報はデコーダーに配置され、最終的な合成が行われます。合成では、SimpleRNN シンセサイザーを使用して音声を合成します。効果は比較的理想的で、典型的なエンドツーエンドの音声合成モデルです。

もう 1 つは、Google が提案したエンドツーエンドの音声合成システムである Tacotron です。Char2Wav に似ています。このモデルは、Embeddings の入力を受け取り、対応する元のスペクトログラムを出力し、それを Griffin-Lim 再構成アルゴリズムに提供して直接音声を生成します。総合的な効果も比較的合理的です。

テスト結果では、合成効果も理想的であることが示されました。アメリカ英語テストにおける Tacotron の平均主観的意見スコアは 3.82 ポイント (合計 5 ポイント) に達し、自然さの点で、これまで制作で使用されてきたパラメトリック システムよりも優れています。さらに、Tacotron はフレーム レベルで音声を生成するため、サンプル レベルの自己回帰方式よりもはるかに高速です。

さて、ここまでお話ししましたが、ディープラーニングに基づく音声合成技術について、少し理解が深まりましたか?実際、この技術は現在、多くの分野で巧みに応用されています。AI推進者が先ほど言及したドキュメンタリー「Creating China」では、番組ディレクターが「時代の声」李毅氏の音声を合成することに成功しました。また、百度はレスリー・チャン生誕60周年の「ユニークな」記念行事で、生前のレスリー・チャンの声を合成し、レスリー・チャンの最新映画「宿命」の公開前に実際の会話動画を初めて公開し、アイドルとの「交流」に対するファンの願いを実現し、特別な方法で一世代の王者を記念しました。 。 。 。

音声合成技術の継続的な発展は、科学技術の発展の重要性を浮き彫りにするだけでなく、私たちの日常生活に数え切れないほどの驚きをもたらします。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  インタラクティブな推測 | ワールドカップとブラックテクノロジーが出会ったとき、最終的な勝者は誰になるでしょうか?

>>:  「AI+教育」は偽のトリックか本物のスキルか?本質は依然としてAIの能力のテスト

推薦する

中間レビュー: 2020 年に最も注目されたデータ サイエンスと機械学習のスタートアップ 10 社

企業がビッグデータを活用するには、データ サイエンティストと開発者がデータを準備して整理し、アナリス...

Googleのジェフ・ディーンが単独著者として執筆: ディープラーニング研究の黄金の10年

コンピュータの出現以来、人類は思考できる機械を創ることを夢見てきました。 1956 年、ジョン マッ...

...

PS効果よりも優れています!このような写真編集ツールを使ったことがありますか?

そうです、グラフィックカードを作っている会社、NVIDIA です。 NV はグラフィック カード メ...

8 クイーン問題を解く C# アルゴリズムの簡単な分析

8つのクイーンの問題の説明: 8 クイーン問題は古くからある有名な問題であり、バックトラッキング ア...

50 以上の実用的な機械学習および予測 API (2018 年版)

[51CTO.com クイック翻訳] この記事では、顔認識や画像認識、テキスト分析、自然言語処理 ...

...

ハイパーオートメーションはビジネスの未来か?企業にとって何ができるのでしょうか?

ロボティックプロセスオートメーション、人工知能、機械学習などの新しいテクノロジーを組み合わせることで...

...

AIがデータセンターのワークロード管理の課題を解決

データセンターのワークロードが急増するにつれ、効率性の向上と経費削減を図りながら IT チームの管理...

OpenAI: 著作権のあるコンテンツを使用しないと、ChatGPTのようなAIモデルを開発することはできない

IT Homeは1月10日、ChatGPTの開発元であるOpenAIが最近、ChatGPTのようなA...

マスク氏がウルトラマンの七つの大罪を明かす!アルトマンが交渉を再開、ChatGPTは崩壊

ChatGPTが再びダウンしました。半月前の大規模な障害に続いて、ChatGPT はアクセスの急増に...

...

基本に立ち返る: 一歩先を行くために読むべき 5 つのデータ サイエンス論文

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...