清華大学の朱俊氏のチームは、拡散モデルを打ち破り、シュレーディンガー橋に基づく新しい音声合成システムを開発した。

清華大学の朱俊氏のチームは、拡散モデルを打ち破り、シュレーディンガー橋に基づく新しい音声合成システムを開発した。

最近、清華大学コンピュータサイエンス学部の朱軍教授の研究グループが発表したシュレーディンガー橋[1]に基づく音声合成システムは、「データからデータ」生成パラダイムのおかげで、サンプル品質とサンプリング速度の両方の点で拡散モデルの「ノイズからデータ」パラダイムを打ち破りました。

論文リンク: https://arxiv.org/abs/2312.03491

プロジェクトウェブサイト: https://bridge-tts.github.io/

コード実装: https://github.com/thu-ml/Bridge-TTS

背景

2021年以降、拡散モデルはテキスト読み上げ(TTS)分野における中核的な生成手法の一つとなり始めている。Huawei Noah's Ark Laboratoryが提案したGrad-TTS [2]や浙江大学が提案したDiffSinger [3]などの手法は、高い生成品質を実現している。それ以来、事前最適化[2,3,4]、モデル蒸留[5,6]、残差予測[7]などの方法を通じて、多くの研究が拡散モデルのサンプリング速度を効果的に改善してきました。しかし、この研究で示されているように、拡散モデルは「ノイズからデータへ」生成パラダイムによって制約されているため、その事前分布は常に生成されたターゲットに関する限られた情報しか提供せず、条件付き情報を十分に活用することはできません。

音声合成の分野における最新の研究成果である Bridge-TTS は、シュレーディンガー ブリッジに基づく生成フレームワークを使用して、 「データからデータ」の生成プロセスを実現します。音声合成の事前情報をノイズからクリーン データへ分布から決定論的表現へと初めて変更します。

この方法の主なアーキテクチャは、上の図に示されています。入力テキストは、まずテキスト エンコーダーによって抽出され、ターゲットの潜在空間表現 (メル スペクトログラム) が生成されます。その後、この情報をノイズ分布に組み込んだり、条件情報として使用したりする拡散モデルとは異なり、Bridge-TTS 方式では、事前情報として直接使用し、ランダムまたは決定論的サンプリングを通じて高品質で高速なターゲット生成をサポートします。

仕事の結果

研究チームは、音声合成品質を検証するための標準データセットであるLJ-Speech上で、Bridge-TTSを9つの高品質音声合成システムおよび拡散モデルの加速サンプリング法と比較しました。以下に示すように、私たちの方法は、サンプル品質(1000ステップ、50ステップのサンプリング)の点で高品質の拡散モデルベースのTTSシステム[2、3、7]に勝っており、追加のモデル蒸留などの後処理なしでのサンプリング速度の点で、残差予測、漸進的蒸留、最新の一貫性蒸留作業[5、6、7]などの多くの加速方法よりも優れています。

以下は、Bridge-TTS と拡散モデルベースの方法による生成効果の例です。生成サンプルの比較については、プロジェクトの Web サイトをご覧ください: https://bridge-tts.github.io/

  • 1000ステップ合成効果の比較

入力テキスト: 「したがって、私たちの目的においては、印刷とは可動式活字を使用して本を作成する技術と考えることができます。」

実サンプル、マシンハート、7秒

Bridge-TTS-1000 、同期、6秒

Grad-TTS-1000 、同期、6秒

  • 4段階合成効果の比較

入力テキスト: 「最初の本は黒文字、つまり古代ローマ文字のゴシック的発展である文字で印刷されました。」

実サンプル、マシンハート、7秒

ブリッジ-TTS-4 、同期、7秒

高速グラデーション-TTS-4 、同期、7秒

ResGrad-4 、同期、6秒

  • 2段階合成効果の比較

入力テキスト: 「刑務所の収容人数は大きく変動しました」

実サンプル-2 、マシンハート、2秒

ブリッジ-TTS-2 、同期、2秒

CoMoSpeech-2 、同期、3秒

以下は、2 ステップと 4 ステップの Bridge-TTS の決定論的合成 (ODE サンプリング) の例です。 4 段階の合成では、この方法は残留ノイズの問題なしに、拡散モデルと比較して大幅に多くのサンプルの詳細を合成します。 2 段階の合成では、この方法は完全に純粋なサンプリング軌跡を示し、各サンプリング ステップで生成される詳細がさらに改善されます。

周波数領域では、生成されたサンプルがさらに表示されます。1000 ステップの合成では、この方法は拡散モデルよりも高品質のメル スペクトルを生成します。サンプリング ステップ数が 50 ステップに削減されると、拡散モデルでは一部のサンプリングの詳細が犠牲になりますが、シュレディンガー ブリッジ ベースの方法では依然として高品質の生成効果が維持されます。この方法では、4 ステップ合成と 2 ステップ合成の両方において、蒸留、多段階トレーニング、敵対的損失関数を必要とせず、高品質の生成結果を実現します。

1000ステップ合成におけるブリッジTTSと拡散モデルベースの方法のメルスペクトログラムの比較

50ステップ合成におけるブリッジTTSと拡散モデルベースの方法のメルスペクトログラム比較

4段階合成におけるブリッジTTSと拡散モデルベースの方法のメルスペクトログラムの比較

2段階合成におけるブリッジTTS法と拡散モデルベースの方法のメルスペクトログラム比較

Bridge-TTSはリリースされると、斬新なデザインと高品質の音声合成効果でTwitterで大きな注目を集め、100回以上のリポストと数百のいいねを獲得しました。12月7日にはHuggingfaceの日刊紙に選ばれ、同日支持率1位を獲得しました。また、LinkedIn、Weibo、Zhihu、Xiaohongshuなど国内外の複数のプラットフォームでもフォローされ、リポストされました。

いくつかの海外ウェブサイトもこの事件を報道し、議論した。

方法の紹介

シュレーディンガー橋は、拡散モデルの後に最近登場した新しいタイプの深層生成モデルであり、当初は画像生成や画像変換などの分野に適用されていました[8,9]。データとガウスノイズ間の変換プロセスを確立する拡散モデルとは異なり、シュレーディンガーブリッジは任意の 2 つの境界分布間の変換をサポートします。 Bridge-TTS の研究では、著者らは、ペアデータ間のシュレーディンガー橋に基づく音声合成フレームワークを提案しました。このフレームワークは、さまざまな順方向プロセス、予測ターゲット、およびサンプリングプロセスを柔軟にサポートします。この方法の概要を下図に示します。


  • 順方向プロセス: この研究では、強い情報事前分布と生成目標の間に完全に解けるシュレーディンガー橋を構築し、対称ノイズ戦略:、定数、非対称ノイズ戦略:、線形、および拡散モデルに直接対応する分散保存 (VP)ノイズ戦略などの柔軟な順方向プロセスの選択をサポートします。この方法により、音声合成タスクでは、非対称ノイズ戦略(線形(gmax)および VP プロセス)が対称ノイズ戦略よりも優れた生成効果を持つことがわかりました。


  • モデルトレーニング: この方法は、単一ステージ、単一モデル、単一損失関数など、拡散モデルトレーニングプロセスの多くの利点を維持します。また、拡散モデル[10,11]のフローマッチング技術に対応するノイズ予測(Noise)、生成ターゲット予測(Data)、速度予測(Velocity)などのネットワークトレーニング目標の選択など、さまざまなモデルパラメータ化方法を比較します。この論文では、生成ターゲット、つまりメルスペクトルをネットワーク予測ターゲットとして使用すると、比較的優れた生成効果が得られることがわかりました。

  • サンプリングプロセス: この研究におけるシュレーディンガー橋の完全に解ける形式のおかげで、著者らはシュレーディンガー橋に対応する前方-後方 SDE システムを変換し、推論用のブリッジ SDE とブリッジ ODE を取得しました。同時に、ブリッジSDE/ODE推論の直接シミュレーションは速度が遅いため、サンプリングを高速化するために、本研究では拡散モデル[12,13]で一般的に使用される指数積分器を使用して、シュレーディンガーブリッジの1次SDEおよびODEサンプリング形式を与えました。

1 ステップでサンプリングする場合、1 次 SDE および ODE のサンプリング形式は、ネットワークの 1 ステップ予測に退化します。同時に、それらは事後サンプリング/拡散モデル DDIM サンプリングと密接に関連しており、この記事の付録では詳細な分析が示されています。この記事では、シュレーディンガー橋の 2 次サンプリング SDE および ODE サンプリング アルゴリズムも紹介します。著者らは、音声合成では、生成品質が一次サンプリングプロセスと同等であることを発見した。

著者らは、この研究が、音声強調、音声分離、音声編集、および事前情報が同様に強力なその他のタスクなど、他のタスクにも大きな応用価値をもたらすことを期待しています。

著者について

この研究には、Chen Zehua、He Guande、Zheng Kaiwen の 3 人の共同筆頭著者がおり、いずれも清華大学コンピューター科学部の Zhu Jun の研究グループに所属しています。記事の責任著者は Zhu Jun 教授で、Microsoft Research Asia の主任研究マネージャー Tan Xu がプロジェクトの協力者です。

朱俊教授

タン・シュー、マイクロソフト リサーチ アジア チーフ リサーチ マネージャー

Chen Zehua 氏は、清華大学コンピューターサイエンス学部の水木奨学生博士研究員です。彼の主な研究分野は、確率的生成モデルと、その音声、音響効果、生体電気信号合成への応用です。彼は、Microsoft、JD.com、TikTok など多くの企業でインターンを経験し、ICML/NeurIPS/ICASSP など音声および機械学習の分野における重要な国際会議で多数の論文を発表しました。

He Guande 氏は清華大学の修士課程 3 年生です。主な研究分野は不確実性推定と生成モデルです。これまでに ICLR などの会議で第一著者として論文を発表しています。

Kevin Zheng は清華大学の修士課程 2 年生です。彼の主な研究分野は、深層生成モデルの理論とアルゴリズム、およびそれらの画像、音声、3D 生成への応用です。彼はこれまで、ICML/NeurIPS/CVPR などのトップカンファレンスで、拡散モデルにおけるフローマッチングや指数積分器などの技術に関する論文をいくつか発表しています。

<<: 

>>:  Metaは14秒でビデオを再構築し、役割を変更できるため、ビデオ合成が44倍高速化されます。

ブログ    
ブログ    

推薦する

130 の大学が人工知能専攻を追加。次の「陥没穴」専攻になるのでしょうか?

大学の専攻の盛衰は、時代の発展と技術の進歩を最もよく物語る証拠でもあります。今日のいわゆる「落とし穴...

...

CNN の弱点を見つけ、MNIST の「ルーチン」に注意する

[[191828]] CNN は現在非常に人気のあるモデルです。多くの画像検索問題において、CNN ...

中国のAI研究は米国を上回る?専門家:例えば、ディープラーニングに関する論文の発表数

現在、世界の人工知能分野には、業界で「神のような存在」とみなされるトップの専門家が3人いる。そのうち...

スマートホーム技術における感情AIの役割

スマートホーム テクノロジーの登場により、私たちが生活空間と関わる方法は大きく変わりました。音声制御...

...

GPT-4 MATHの精度は84.3%まで上昇しました!香港中文大学や清華大学を含むトップ7大学が新たなCSV方式を提案

大規模言語モデル (LLM) は常識理解やコード生成などのタスクでは大きな進歩を遂げていますが、数学...

「理解する」シナリオ + 「理解する」テクノロジー: スマート交通で旅行が予測可能になる

【51CTO.comオリジナル記事】 [[337243]]よくよく数えてみると、一般的に誰もが悩まさ...

人工知能技術に注目し導入すべき3つの理由

AI の導入が拡大しているにもかかわらず、多くの IT リーダーは AI のリスクと機会を取り巻く不...

人工知能は人間の弱点を克服できる

人工知能の多くの利点はよく知られ、理解され、宣伝されていますが、その限界も明らかです。しかし、あまり...

...

...

AIとMLがコネクテッドデバイスの成長を促進

COVID-19 パンデミックをきっかけに、ビジネス運営における自動化、リモート監視、制御の必要性が...

顔認識ブームは沈静化すべきでしょうか?

北京地下鉄は昨年11月から、セキュリティチェックに顔認識技術を使用する試験運用を開始し、ブラックリス...

...