蝶ネクタイボイスチェンジャーなしでも1秒でコナンになれる——音声合成+ディープラーニング

蝶ネクタイボイスチェンジャーなしでも1秒でコナンになれる——音声合成+ディープラーニング

[51CTO.com からのオリジナル記事] 「名探偵コナン」を見たことがある友人なら、コナンに出てくるさまざまな黒いテクノロジー「命を救う遺物」を覚えているだろうと思う。彼らはコナンとともにさまざまな犯罪現場に行き、事件解決を手伝うだけでなく、危機的な瞬間にコナンが危険から逃れるのを助けることもできます。最もよく知られているのは蝶ネクタイ型ボイスチェンジャーです。近年、科学技術の発展により、この魔法の蝶ネクタイ型ボイスチェンジャーが現実のものとなりました。今日は、それがどのように達成されるかを探ってみましょう。

[[235877]]

音声合成の3つの部分

簡単に言えば、音声合成は、テキスト分析、韻律分析、音響分析の 3 つの部分に分かれています。テキスト分析によってテキストの特徴が抽出され、これに基づいて基本周波数、継続時間、リズムなどのさまざまな韻律的特徴が予測されます。次に、音響モデルを通じてフロントエンドパラメータから音声パラメータへのマッピングが実現されます。

音声合成の2つの方法

音声合成では、主に波形接合合成と統計パラメータ合成の 2 つの方法が使用されます。

波形接合音声合成のプロセスは簡単に理解できます。つまり、コーパスから適切な接合単位を抽出し、それを文章に接合するのです。パラメトリック音声合成には、サウンドライブラリのパラメトリックモデリングと、トレーニングされたモデルに基づく韻律および音響パラメータの予測が必要です。

通常、波形スプライシング音声合成ではレコーダーによる数十時間の録音が必要ですが、パラメトリック音声合成ではカスタマイズされた音声パッケージの作成を完了するのに 10 時間の録音しか必要ありません。

総合的に比較すると、つなぎ合わせた合成音声は実際の発音に近いですが、波形つなぎ合わせ音声合成では、高品質の音声を合成するために十分な高品質の話者録音が必要です。統計パラメータ音声合成の全体的な合成品質はわずかに低くなりますが、話者コーパスのサイズが限られている条件下ではその利点がより明らかになります。

ディープラーニングによる音声合成

近年、ディープラーニングはAI分野で最もホットな話題となっています。急速に発展しているだけでなく、その分野もますます広がっています。学術研究と企業への応用はともに指数関数的な成長傾向を示しています。この技術が成熟し続けるにつれて、ディープラーニングはインテリジェント音声の分野にも大きな影響を与え、従来の音声合成技術を大きく上回っています。

1. 従来のDNN/LSTMベースの合成

HMM 統計パラメータに基づく従来の音声合成では、トレーニング プロセス中にテキスト パラメータと音響パラメータ間のマッピング モデルを確立し、ガウス混合モデルを通じて各モデリング ユニットを記述します。モデリング プロセスには、音声品質を低下させる 3 つのリンクがあります。1 つ目は決定木のクラスタリング、2 つ目はボコーダー、3 つ目はパラメータ生成アルゴリズムです。決定木クラスタリング問題では、ディープニューラルネットワークを使用して、テキスト特徴と音響特徴のマッピング関係を確立し、従来の浅いモデルを置き換えてモデルの精度を向上させることができます。 典型的なディープニューラルネットワークモデル構造には、ディープビリーフニューラルネットワークと長短期記憶再帰ニューラルネットワークがあります。後者はシーケンス学習機能がより強力です。 BLSTM-RNNモデリングを使用する場合、パラメータ生成アルゴリズムをスキップして、音声パラメータを直接予測することもできます。 最後に、ボコーダーを介して音声を合成できます。 一般に、ディープニューラルネットワークの強力な非線形モデリング機能により、音声合成システムのパフォーマンスがある程度向上しましたが、元の音声合成システムのフレームワークから脱却していません。

2. WaveNetベースの合成

既存の研究では、時間領域で既存のオーディオを直接モデル化する人はほとんどいません。直感的に言えば、各サンプルが以前のすべてのサンプルによってどのように影響を受けるかを予測できる自己回帰モデルを構築することは、かなり困難な作業です。 Google が提案した WaveNets ベースの音声合成方法は、従来の音声合成フレームワークから脱却し、ボコーダー モジュールをバイパスしてサンプリング ポイントを直接予測することで、この困難な問題に対する画期的な解決策を実現しました。

WaveNet 音声合成システムへの入力には、前の期間のテキスト機能と音声サンプルが含まれます。その中で、テキストの特徴を効果的に表現することが非常に重要な役割を果たします。ネットワークがテキストシーケンスなしでトレーニングされた場合、音声は生成できますが、出力オーディオの内容を理解することはできません。 WaveNet 音声合成システムの問題は、モデルが毎回 1 つのサンプリング ポイントを出力するため、計算効率が実際の要件を満たすのが難しいことです。既存のモデルを最適化して、さまざまな話者に適合させるために、いくつかの適応型手法を導入することができます。また、モデルの入力時に感情やアクセントなどのより多くの情報を提供することも可能で、生成される音声はより多様で表現力豊かになります。

3. DeepVoiceに基づく合成

2017 年 2 月、Baidu Research は、完全にディープ ニューラル ネットワークで構築された高品質のテキスト読み上げシステムである Deep Voice システムを提案しました。

多くのモジュールをディープ ニューラル ネットワークを使用して実装し、WaveNet に似たシンセサイザーで合成しており、その効果は非常に理想的です。既存の音声合成システムはいくつかの側面でディープラーニングを使用していますが、Deep Voice 以前には、完全なディープラーニング フレームワークを採用したチームはありませんでした。従来の音声合成では多くの特徴処理と特徴構築が必要ですが、Baidu はディープラーニングを使用することでこれらの問題を回避します。これにより、Deep Voice の適用範囲が広がり、より便利に使用できるようになります。新しいデータ セットを適用する必要がある場合、従来の音声合成システムでは再トレーニングと調整を完了するのに数日から数週間かかりますが、Deep Voice のモデルを手動で操作してトレーニングするのに必要な時間はわずか数時間です。 WaveNet音声合成システムと比較すると、このシステムの実効速度は400倍高速になりました。

4. エンドツーエンドの音声合成

1 つ目は Char2Wav です。このモデルは、エンコーダー/デコーダー モデルを使用して入力テキストを直接エンコードします。入力された特徴はエンコードされ、生成された中間エンコード情報はデコーダーに配置され、最終的な合成が行われます。合成では、SimpleRNN シンセサイザーを使用して音声を合成します。効果は比較的理想的で、典型的なエンドツーエンドの音声合成モデルです。

もう 1 つは、Google が提案したエンドツーエンドの音声合成システムである Tacotron です。Char2Wav に似ています。このモデルは、Embeddings の入力を受け取り、対応する元のスペクトログラムを出力し、それを Griffin-Lim 再構成アルゴリズムに提供して直接音声を生成します。総合的な効果も比較的合理的です。

テスト結果では、合成効果も理想的であることが示されました。アメリカ英語テストにおける Tacotron の平均主観的意見スコアは 3.82 ポイント (合計 5 ポイント) に達し、自然さの点で、これまで制作で使用されてきたパラメトリック システムよりも優れています。さらに、Tacotron はフレーム レベルで音声を生成するため、サンプル レベルの自己回帰方式よりもはるかに高速です。

さて、ここまでお話ししましたが、ディープラーニングに基づく音声合成技術について、少し理解が深まりましたか?実際、この技術は現在、多くの分野で巧みに応用されています。AI推進者が先ほど言及したドキュメンタリー「Creating China」では、番組ディレクターが「時代の声」李毅氏の音声を合成することに成功しました。また、百度はレスリー・チャン生誕60周年の「ユニークな」記念行事で、生前のレスリー・チャンの声を合成し、レスリー・チャンの最新映画「宿命」の公開前に実際の会話動画を初めて公開し、アイドルとの「交流」に対するファンの願いを実現し、特別な方法で一世代の王者を記念しました。 。 。 。

音声合成技術の継続的な発展は、科学技術の発展の重要性を浮き彫りにするだけでなく、私たちの日常生活に数え切れないほどの驚きをもたらします。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  インタラクティブな推測 | ワールドカップとブラックテクノロジーが出会ったとき、最終的な勝者は誰になるでしょうか?

>>:  「AI+教育」は偽のトリックか本物のスキルか?本質は依然としてAIの能力のテスト

ブログ    
ブログ    

推薦する

心が開かれました! Adobeなどの研究者が「自撮り」を「他人が撮った写真」に変え、感動的な魔法の写真編集効果を実現

自撮り写真を他人が撮った写真に変えることもできます。魔法の写真編集の世界に新しいトリックが登場し、そ...

自動運転競争が熱を帯び、実用化への道が始まろうとしている

科学技術の継続的な発展に伴い、人工知能、5Gネットワ​​ーク、生体認証、ロボットなどのインテリジェン...

...

米政府、AIの競争力と倫理について助言する委員会を設立

[[422878]]海外メディアCNETによると、米商務省は水曜日、人工知能の研究開発についてジョー...

一般的な基本的なソートアルゴリズムを今回から理解しましょう

[[383742]]この記事はWeChatの公開アカウント「Beta Learns JAVA」から転...

...

スタンフォード大学の研究者がAIを活用してCOVID-19の治療薬の発見を加速

COVID-19の流行が世界中の人々の生命と日常生活を脅かし続けている中、人々はこの病気の予防と治療...

AlphaGoの仕組み:マルチエージェント強化学習の詳細な説明

このレビュー記事では、著者はマルチインテリジェンス強化学習の理論的基礎を詳細に紹介し、さまざまなマル...

高精度地図のデータの問題についてお話ししましょう。地図以外の認識の落とし穴は何でしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人工知能の大学が雨後の筍のように次々と誕生しています。そこでは何を教えるのでしょうか?どのように教えるか?

[[240090]] 2018年グローバル人工知能製品アプリケーション博覧会で、来場者がテーマポス...

アルゴリズミア:人工知能は2021年に主流になる

1月6日、海外メディアの報道によると、新型コロナウイルス肺炎流行の影響により、企業内での人工知能技術...

IoTと機械学習がビジネスを加速させる5つの方法

モノのインターネットと機械学習は、今日のビジネスにおいて最も破壊的なテクノロジーの 2 つです。さら...

人工知能は企業の組織化の方法をどのように変えるのでしょうか?

[[184562]]企業への人工知能の浸透はまだ始まったばかりですが、すでにビジネスリーダーたちは...

データサイエンスのための Python: ニューラル ネットワーク

人工ニューラル ネットワーク (ANN) は、数学的および物理的な方法を使用して人間の脳のニューラル...

実践 | 人工知能が小売体験を向上させる 20 の例

小売体験は長年にわたってあまり変わっていません。つまり、店に入って、適切な製品を見つけて、それを購入...