最近、清華大学コンピュータサイエンス学部の朱軍教授の研究グループが発表したシュレーディンガー橋[1]に基づく音声合成システムは、「データからデータ」生成パラダイムのおかげで、サンプル品質とサンプリング速度の両方の点で拡散モデルの「ノイズからデータ」パラダイムを打ち破りました。 論文リンク: https://arxiv.org/abs/2312.03491 プロジェクトウェブサイト: https://bridge-tts.github.io/ コード実装: https://github.com/thu-ml/Bridge-TTS 背景2021年以降、拡散モデルはテキスト読み上げ(TTS)分野における中核的な生成手法の一つとなり始めている。Huawei Noah's Ark Laboratoryが提案したGrad-TTS [2]や浙江大学が提案したDiffSinger [3]などの手法は、高い生成品質を実現している。それ以来、事前最適化[2,3,4]、モデル蒸留[5,6]、残差予測[7]などの方法を通じて、多くの研究が拡散モデルのサンプリング速度を効果的に改善してきました。しかし、この研究で示されているように、拡散モデルは「ノイズからデータへ」生成パラダイムによって制約されているため、その事前分布は常に生成されたターゲットに関する限られた情報しか提供せず、条件付き情報を十分に活用することはできません。 音声合成の分野における最新の研究成果である Bridge-TTS は、シュレーディンガー ブリッジに基づく生成フレームワークを使用して、 「データからデータ」の生成プロセスを実現します。音声合成の事前情報をノイズからクリーン データへ、分布から決定論的表現へと初めて変更します。 この方法の主なアーキテクチャは、上の図に示されています。入力テキストは、まずテキスト エンコーダーによって抽出され、ターゲットの潜在空間表現 (メル スペクトログラム) が生成されます。その後、この情報をノイズ分布に組み込んだり、条件情報として使用したりする拡散モデルとは異なり、Bridge-TTS 方式では、事前情報として直接使用し、ランダムまたは決定論的サンプリングを通じて高品質で高速なターゲット生成をサポートします。 仕事の結果研究チームは、音声合成品質を検証するための標準データセットであるLJ-Speech上で、Bridge-TTSを9つの高品質音声合成システムおよび拡散モデルの加速サンプリング法と比較しました。以下に示すように、私たちの方法は、サンプル品質(1000ステップ、50ステップのサンプリング)の点で高品質の拡散モデルベースのTTSシステム[2、3、7]に勝っており、追加のモデル蒸留などの後処理なしでのサンプリング速度の点で、残差予測、漸進的蒸留、最新の一貫性蒸留作業[5、6、7]などの多くの加速方法よりも優れています。 以下は、Bridge-TTS と拡散モデルベースの方法による生成効果の例です。生成サンプルの比較については、プロジェクトの Web サイトをご覧ください: https://bridge-tts.github.io/
入力テキスト: 「したがって、私たちの目的においては、印刷とは可動式活字を使用して本を作成する技術と考えることができます。」 実サンプル、マシンハート、7秒 Bridge-TTS-1000 、同期、6秒 Grad-TTS-1000 、同期、6秒
入力テキスト: 「最初の本は黒文字、つまり古代ローマ文字のゴシック的発展である文字で印刷されました。」 実サンプル、マシンハート、7秒 ブリッジ-TTS-4 、同期、7秒 高速グラデーション-TTS-4 、同期、7秒 ResGrad-4 、同期、6秒
入力テキスト: 「刑務所の収容人数は大きく変動しました」 実サンプル-2 、マシンハート、2秒 ブリッジ-TTS-2 、同期、2秒 CoMoSpeech-2 、同期、3秒 以下は、2 ステップと 4 ステップの Bridge-TTS の決定論的合成 (ODE サンプリング) の例です。 4 段階の合成では、この方法は残留ノイズの問題なしに、拡散モデルと比較して大幅に多くのサンプルの詳細を合成します。 2 段階の合成では、この方法は完全に純粋なサンプリング軌跡を示し、各サンプリング ステップで生成される詳細がさらに改善されます。 周波数領域では、生成されたサンプルがさらに表示されます。1000 ステップの合成では、この方法は拡散モデルよりも高品質のメル スペクトルを生成します。サンプリング ステップ数が 50 ステップに削減されると、拡散モデルでは一部のサンプリングの詳細が犠牲になりますが、シュレディンガー ブリッジ ベースの方法では依然として高品質の生成効果が維持されます。この方法では、4 ステップ合成と 2 ステップ合成の両方において、蒸留、多段階トレーニング、敵対的損失関数を必要とせず、高品質の生成結果を実現します。 1000ステップ合成におけるブリッジTTSと拡散モデルベースの方法のメルスペクトログラムの比較 50ステップ合成におけるブリッジTTSと拡散モデルベースの方法のメルスペクトログラム比較 4段階合成におけるブリッジTTSと拡散モデルベースの方法のメルスペクトログラムの比較 2段階合成におけるブリッジTTS法と拡散モデルベースの方法のメルスペクトログラム比較 Bridge-TTSはリリースされると、斬新なデザインと高品質の音声合成効果でTwitterで大きな注目を集め、100回以上のリポストと数百のいいねを獲得しました。12月7日にはHuggingfaceの日刊紙に選ばれ、同日支持率1位を獲得しました。また、LinkedIn、Weibo、Zhihu、Xiaohongshuなど国内外の複数のプラットフォームでもフォローされ、リポストされました。 いくつかの海外ウェブサイトもこの事件を報道し、議論した。 方法の紹介シュレーディンガー橋は、拡散モデルの後に最近登場した新しいタイプの深層生成モデルであり、当初は画像生成や画像変換などの分野に適用されていました[8,9]。データとガウスノイズ間の変換プロセスを確立する拡散モデルとは異なり、シュレーディンガーブリッジは任意の 2 つの境界分布間の変換をサポートします。 Bridge-TTS の研究では、著者らは、ペアデータ間のシュレーディンガー橋に基づく音声合成フレームワークを提案しました。このフレームワークは、さまざまな順方向プロセス、予測ターゲット、およびサンプリングプロセスを柔軟にサポートします。この方法の概要を下図に示します。
1 ステップでサンプリングする場合、1 次 SDE および ODE のサンプリング形式は、ネットワークの 1 ステップ予測に退化します。同時に、それらは事後サンプリング/拡散モデル DDIM サンプリングと密接に関連しており、この記事の付録では詳細な分析が示されています。この記事では、シュレーディンガー橋の 2 次サンプリング SDE および ODE サンプリング アルゴリズムも紹介します。著者らは、音声合成では、生成品質が一次サンプリングプロセスと同等であることを発見した。 著者らは、この研究が、音声強調、音声分離、音声編集、および事前情報が同様に強力なその他のタスクなど、他のタスクにも大きな応用価値をもたらすことを期待しています。 著者についてこの研究には、Chen Zehua、He Guande、Zheng Kaiwen の 3 人の共同筆頭著者がおり、いずれも清華大学コンピューター科学部の Zhu Jun の研究グループに所属しています。記事の責任著者は Zhu Jun 教授で、Microsoft Research Asia の主任研究マネージャー Tan Xu がプロジェクトの協力者です。 朱俊教授 タン・シュー、マイクロソフト リサーチ アジア チーフ リサーチ マネージャー Chen Zehua 氏は、清華大学コンピューターサイエンス学部の水木奨学生博士研究員です。彼の主な研究分野は、確率的生成モデルと、その音声、音響効果、生体電気信号合成への応用です。彼は、Microsoft、JD.com、TikTok など多くの企業でインターンを経験し、ICML/NeurIPS/ICASSP など音声および機械学習の分野における重要な国際会議で多数の論文を発表しました。 He Guande 氏は清華大学の修士課程 3 年生です。主な研究分野は不確実性推定と生成モデルです。これまでに ICLR などの会議で第一著者として論文を発表しています。 Kevin Zheng は清華大学の修士課程 2 年生です。彼の主な研究分野は、深層生成モデルの理論とアルゴリズム、およびそれらの画像、音声、3D 生成への応用です。彼はこれまで、ICML/NeurIPS/CVPR などのトップカンファレンスで、拡散モデルにおけるフローマッチングや指数積分器などの技術に関する論文をいくつか発表しています。 |
>>: Metaは14秒でビデオを再構築し、役割を変更できるため、ビデオ合成が44倍高速化されます。
昨日の3.15ガラでは、CCTVによって顔認識が初めて公開されました。 3月15日に顔認証が命名され...
青いステージの真ん中に黒いパネルが立っていた。パネルには青い楕円形のスクリーンが点滅し、その奥から冷...
2005 年には画期的な著作「The Graph Neural Network Model」が出版さ...
先日行われた世界的に権威のある多言語理解評価XTREME(Cross-Lingual Transfe...
自動運転は近年市場で最も活発なトピックの1つです。資金が継続的に流入し、大手企業が存在感を示そうと競...
この論文は浙江大学CAD&CG国家重点実験室の視覚化と視覚分析グループが特別にまとめたもので...
今日、機械学習モデルはビジネス上の意思決定の主な原動力となっています。他のビジネス戦略と同様に、これ...
2015年11月9日、Googleは人工知能システムTensorFlowをリリースし、オープンソー...
テンセントは10月26日、テンセント渾源モデルが新たなアップグレードを経て、「文勝図」機能を正式に公...
[[426039]]かつて人々は、技術の進歩が労働者に大きな解放をもたらし、人類が牧歌的な生活を送れ...
Google の新しいキラー兵器、Gemini が世界に登場します! GeminiはGPT-4のよう...
科学の最前線から世界を眺め、熱心に学び、宇宙を理解するホーキング博士はかつて、人工知能(AI)の発達...
PyTorch または TensorFlow を使用していますか?人々のグループによって答えは異なる...