AIが関わる音声の世界はまさに魔法のようです。ある人の声を別の人の声に置き換えるだけでなく、動物と声を交換することもできます。 音声変換の目的は、内容を変更せずにソース音声をターゲット音声に変換することであることはわかっています。最近の任意対任意の音声変換アプローチでは、自然さと話者の類似性が向上しましたが、複雑さが大幅に増加しました。つまり、トレーニングと推論のコストが高くなり、改善を評価して確立することが難しくなります。 問題は、高品質の音声変換には複雑さが必要かどうかです。南アフリカのステレンボッシュ大学の最近の論文では、数人の研究者がこの疑問を調査しました。
この研究のハイライトは、シンプルで強力な任意対任意の音声変換方法であるK近傍音声変換(kNN-VC)を導入したことです。このプロセスでは明示的な変換モデルはトレーニングされませんが、K 最近傍回帰が単純に使用されます。 具体的には、研究者らはまず自己教師型音声表現モデルを使用してソース発話と参照発話の特徴シーケンスを抽出し、次にソース表現の各フレームを参照内の最も近い隣接フレームに置き換えることでそれらをターゲット話者に変換し、最後にニューラルボコーダーを使用して変換された特徴を合成して変換された音声を取得しました。 結果から、KNN-VC はシンプルであるにもかかわらず、いくつかのベースライン音声変換システムと比較して、主観的評価と客観的評価の両方において、明瞭度と話者の類似性において同等か、さらに向上できることがわかります。 KNN-VC音声変換の効果を実感してみましょう。まず、LibriSpeech データセット内の未知のソース話者とターゲット話者に KNN-VC を適用して音声変換を確認します。 ソースオーディオ00:11 合成音声1 00:11 合成音声2 00:11 KNN-VC は、スペイン語からドイツ語、ドイツ語から日本語、中国語からスペイン語など、言語間の音声変換もサポートしています。 オリジナル中国語00:08 ターゲットスペイン語00:05 合成音声3 00:08 さらに驚くべきことは、KNN-VC は人間の声と犬の鳴き声を交換することもできるということです。 ソース 犬の吠え声00:09 ソースボーカル00:05 合成音声4 00:08 合成音声5 00:05 次に、KNN-VC がどのように機能し、他の jixian 方式とどのように比較されるかを見ていきます。 方法の概要と実験結果エンコーダー、コンバーター、ボコーダー構造に従った kNN-VC のアーキテクチャ図を以下に示します。まず、エンコーダーがソース音声と参照音声の自己教師表現を抽出し、次にトランスフォーマーが各ソース フレームを参照内の最も近い隣接フレームにマッピングし、最後にボコーダーが変換された特徴に基づいてオーディオ波形を生成します。 エンコーダーは WavLM を使用し、コンバーターは K 最近傍回帰を使用し、ボコーダーは HiFiGAN を使用します。トレーニングが必要な唯一のコンポーネントはボコーダーです。 WavLM エンコーダーについては、研究者は事前トレーニング済みの WavLM-Large モデルのみを使用し、この論文ではトレーニングは実行していません。 kNN 変換モデルの場合、kNN は非パラメトリックであり、トレーニングは必要ありません。 HiFiGAN ボコーダーの場合、元の HiFiGAN 作成者のリポジトリを使用して WavLM 機能をボコードします。これは、トレーニングが必要な唯一の部分になります。 写真 実験では、研究者らはまず KNN-VC を他のベースライン手法と比較し、利用可能な最大のターゲット データ (話者 1 人あたり約 8 分の音声) を使用して音声変換システムをテストしました。 KNN-VC の場合、すべてのターゲット データをマッチング セットとして使用します。ベースライン方式では、各ターゲット発話について話者の埋め込みを平均化します。 以下の表 1 は、各モデルの明瞭度、自然さ、話者の類似性の結果を示しています。ご覧のとおり、kNN-VC は、最良のベースライン FreeVC と同様の自然さと明瞭さを実現しますが、話者の類似性が大幅に向上しています。これは、この記事の主張を裏付けるものでもあり、高品質の音声変換には複雑さを増す必要はない。 さらに研究者たちは、事前にマッチングされたデータでトレーニングされた HiFi-GAN によってどの程度の改善がもたらされるのか、また、ターゲット話者データのサイズが明瞭度と話者の類似性にどの程度影響するのかを理解したいと考えています。 下の図 2 は、異なるターゲット スピーカー サイズでの 2 つの HiFi-GAN バリアントの WER (小さいほど良い) と EER (高いほど良い) の関係を示しています。 写真 ネットユーザーからの熱いコメントこの「最近傍のみを使用する」新しい音声変換方法 kNN-VC に関して、記事では事前学習済みの音声モデルを使用しているため、「のみ」という言葉はあまり正確ではないと考える人もいます。しかし、kNN-VC が他のモデルよりも単純であることは否定できません。 また、この結果は、kNN-VC が非常に複雑な any-to-any 音声変換方法と比較して、最高ではないにしても同等に効果的であることを示しています。 写真 他の人は、人間の声と犬の鳴き声が入れ替わる例は非常に興味深いと述べました。 写真 |
10月9日、近年、犯罪者が詐欺の手口を絶えず革新しており、金融消費者がそれを防ぐことが困難になってお...
「教育は死んだが、学習は不滅である。」半世紀前、アメリカの教育思想家イリイチは著書『脱学校社会』の...
AI が OpenAI の内部闘争ドラマを変える...錦江の味がスクリーンから溢れ出てきます! イリ...
ドローンはすでに、医療製品の配送、インフラの検査、監視、メンテナンス、人間の労働力へのリスクの軽減、...
ジョージタウン大学の科学者が率いる国際研究チームは、COVID-19パンデミックの原因ウイルスである...
10月12日、国家情報セキュリティ標準化技術委員会の公式サイトによると、同委員会が組織し策定した技...
人工知能は急速に発展しており、その理論と技術はますます成熟し、その応用分野は絶えず拡大しています。人...
EPFL のジュゼッペ・カルレオ教授とコロンビア大学の大学院生マティヤ・メドビドビッチ氏は、従来のコ...
OpenAI が新たな App Store を立ち上げると報じられています。今回は「小規模」なプラグ...
[[279803]] △『小林さんちのメイドラゴン』よりこの記事はAI新メディアQuantum Bi...
翻訳者 |李睿レビュー | Chonglouコードの生成は、ChatGPT や指示に従うその他の大規...
こんにちは、ルガです。今日は、人工知能エコシステムの中核技術である AIGC (「生成型人工知能」の...
著者 | Tu Chengyeレビュー | Chonglou前の記事:「人材が足りないのではなく、A...