言語間、人間の声と犬の鳴き声の相互変換をサポートし、最も近いものだけを使用するシンプルな音声変換モデルはどれほど素晴らしいか

言語間、人間の声と犬の鳴き声の相互変換をサポートし、最も近いものだけを使用するシンプルな音声変換モデルはどれほど素晴らしいか

AIが関わる音声の世界はまさに魔法のようです。ある人の声を別の人の声に置き換えるだけでなく、動物と声を交換することもできます。

音声変換の目的は、内容を変更せずにソース音声をターゲット音声に変換することであることはわかっています。最近の任意対任意の音声変換アプローチでは、自然さと話者の類似性が向上しましたが、複雑さが大幅に増加しました。つまり、トレーニングと推論のコストが高くなり、改善を評価して確立することが難しくなります。

問題は、高品質の音声変換には複雑さが必要かどうかです。南アフリカのステレンボッシュ大学の最近の論文では、数人の研究者がこの疑問を調査しました。

  • 論文アドレス: https://arxiv.org/pdf/2305.18975.pdf
  • GitHub アドレス: https://bshall.github.io/knn-vc/

この研究のハイライトは、シンプルで強力な任意対任意の音声変換方法であるK近傍音声変換(kNN-VC)を導入したことです。このプロセスでは明示的な変換モデルはトレーニングされませんが、K 最近傍回帰が単純に使用されます。

具体的には、研究者らはまず自己教師型音声表現モデルを使用してソース発話と参照発話の特徴シーケンスを抽出し、次にソース表現の各フレームを参照内の最も近い隣接フレームに置き換えることでそれらをターゲット話者に変換し、最後にニューラルボコーダーを使用して変換された特徴を合成して変換された音声を取得しました。

結果から、KNN-VC はシンプルであるにもかかわらず、いくつかのベースライン音声変換システムと比較して、主観的評価と客観的評価の両方において、明瞭度と話者の類似性において同等か、さらに向上できることがわかります。

KNN-VC音声変換の効果を実感してみましょう。まず、LibriSpeech データセット内の未知のソース話者とターゲット話者に KNN-VC を適用して音声変換を確認します。

ソースオーディオ00:11

合成音声1 00:11

合成音声2 00:11

KNN-VC は、スペイン語からドイツ語、ドイツ語から日本語、中国語からスペイン語など、言語間の音声変換もサポートしています。

オリジナル中国語00:08

ターゲットスペイン語00:05

合成音声3 00:08

さらに驚くべきことは、KNN-VC は人間の声と犬の鳴き声を交換することもできるということです。

ソース 犬の吠え声00:09

ソースボーカル00:05

合成音声4 00:08

合成音声5 00:05

次に、KNN-VC がどのように機能し、他の jixian 方式とどのように比較されるかを見ていきます。

方法の概要と実験結果

エンコーダー、コンバーター、ボコーダー構造に従った kNN-VC のアーキテクチャ図を以下に示します。まず、エンコーダーがソース音声と参照音声の自己教師表現を抽出し、次にトランスフォーマーが各ソース フレームを参照内の最も近い隣接フレームにマッピングし、最後にボコーダーが変換された特徴に基づいてオーディオ波形を生成します。

エンコーダーは WavLM を使用し、コンバーターは K 最近傍回帰を使用し、ボコーダーは HiFiGAN を使用します。トレーニングが必要な唯一のコンポーネントはボコーダーです。

WavLM エンコーダーについては、研究者は事前トレーニング済みの WavLM-Large モデルのみを使用し、この論文ではトレーニングは実行していません。 kNN 変換モデルの場合、kNN は非パラメトリックであり、トレーニングは必要ありません。 HiFiGAN ボコーダーの場合、元の HiFiGAN 作成者のリポジトリを使用して WavLM 機能をボコードします。これは、トレーニングが必要な唯一の部分になります。

写真

実験では、研究者らはまず KNN-VC を他のベースライン手法と比較し、利用可能な最大のターゲット データ (話者 1 人あたり約 8 分の音声) を使用して音声変換システムをテストしました。

KNN-VC の場合、すべてのターゲット データをマッチング セットとして使用します。ベースライン方式では、各ターゲット発話について話者の埋め込みを平均化します。

以下の表 1 は、各モデルの明瞭度、自然さ、話者の類似性の結果を示しています。ご覧のとおり、kNN-VC は、最良のベースライン FreeVC と同様の自然さと明瞭さを実現しますが、話者の類似性が大幅に向上しています。これは、この記事の主張を裏付けるものでもあり、高品質の音声変換には複雑さを増す必要はない。

さらに研究者たちは、事前にマッチングされたデータでトレーニングされた HiFi-GAN によってどの程度の改善がもたらされるのか、また、ターゲット話者データのサイズが明瞭度と話者の類似性にどの程度影響するのかを理解したいと考えています。

下の図 2 は、異なるターゲット スピーカー サイズでの 2 つの HiFi-GAN バリアントの WER (小さいほど良い) と EER (高いほど良い) の関係を示しています。

写真

ネットユーザーからの熱いコメント

この「最近傍のみを使用する」新しい音声変換方法 kNN-VC に関して、記事では事前学習済みの音声モデルを使用しているため、「のみ」という言葉はあまり正確ではないと考える人もいます。しかし、kNN-VC が他のモデルよりも単純であることは否定できません。

また、この結果は、kNN-VC が非常に複雑な any-to-any 音声変換方法と比較して、最高ではないにしても同等に効果的であることを示しています。

写真

他の人は、人間の声と犬の鳴き声が入れ替わる例は非常に興味深いと述べました。

写真

<<: 

>>:  人類の未来における人工知能の重要性

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

人工知能の将来の展望と動向は何でしょうか?

AlphaGo の人間と機械の戦いから、自動運転車のロードトリップ、AI 合成アンカーの採用まで、...

RNNに注目メカニズムを導入し、5つの主要分野におけるシーケンス予測問題を解決する

[[198915]]エンコーダー/デコーダー アーキテクチャは、多くの分野で最先端のパフォーマンスを...

ICCV 2021 | 生成されたデータに基づく顔認識

[[422257]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

...

ストリームPETRを超えて! BEVNeXt: 高密度 BEV 認識のための新しいフレームワーク

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

人工知能によって人々の仕事が失われることは確実だが、仕事がなくなることはないと言われているのはなぜでしょうか。

1956年に人工知能の概念が提案されて以来、人工知能と労働市場の関係については議論されてきました。...

機械に「忘却の呪文」をかける? Google、初の機械忘却チャレンジを開始

機械学習はよく話題になりますが、「機械の忘却」について聞いたことがありますか?機械学習の目的は誰もが...

ゲーム内で優れたリアルタイム音声体験を提供する方法

ゲーム内音声通信の要件2015 年にはすでに、iMedia Research がモバイル ゲームのソ...

この目立たないロボットトラックにユニコーンが登場しました!

人工知能やビッグデータなどの技術の発展に伴い、チャットボットも大きな進歩を遂げています。その応用分野...

...

ベンチャーキャピタル企業がAIについて知っておくべきこと

タレスのグローバル副社長であるアシュヴィン・カマラジュ氏は、AI リスクに関する懸念の高まりについて...

...

DES、3DES、AES、PBE対称暗号化アルゴリズムの実装と応用

[[272601]] 1. 対称暗号化アルゴリズムの概要対称暗号化アルゴリズムは、成熟した技術を備...