言語間、人間の声と犬の鳴き声の相互変換をサポートし、最も近いものだけを使用するシンプルな音声変換モデルはどれほど素晴らしいか

言語間、人間の声と犬の鳴き声の相互変換をサポートし、最も近いものだけを使用するシンプルな音声変換モデルはどれほど素晴らしいか

AIが関わる音声の世界はまさに魔法のようです。ある人の声を別の人の声に置き換えるだけでなく、動物と声を交換することもできます。

音声変換の目的は、内容を変更せずにソース音声をターゲット音声に変換することであることはわかっています。最近の任意対任意の音声変換アプローチでは、自然さと話者の類似性が向上しましたが、複雑さが大幅に増加しました。つまり、トレーニングと推論のコストが高くなり、改善を評価して確立することが難しくなります。

問題は、高品質の音声変換には複雑さが必要かどうかです。南アフリカのステレンボッシュ大学の最近の論文では、数人の研究者がこの疑問を調査しました。

  • 論文アドレス: https://arxiv.org/pdf/2305.18975.pdf
  • GitHub アドレス: https://bshall.github.io/knn-vc/

この研究のハイライトは、シンプルで強力な任意対任意の音声変換方法であるK近傍音声変換(kNN-VC)を導入したことです。このプロセスでは明示的な変換モデルはトレーニングされませんが、K 最近傍回帰が単純に使用されます。

具体的には、研究者らはまず自己教師型音声表現モデルを使用してソース発話と参照発話の特徴シーケンスを抽出し、次にソース表現の各フレームを参照内の最も近い隣接フレームに置き換えることでそれらをターゲット話者に変換し、最後にニューラルボコーダーを使用して変換された特徴を合成して変換された音声を取得しました。

結果から、KNN-VC はシンプルであるにもかかわらず、いくつかのベースライン音声変換システムと比較して、主観的評価と客観的評価の両方において、明瞭度と話者の類似性において同等か、さらに向上できることがわかります。

KNN-VC音声変換の効果を実感してみましょう。まず、LibriSpeech データセット内の未知のソース話者とターゲット話者に KNN-VC を適用して音声変換を確認します。

ソースオーディオ00:11

合成音声1 00:11

合成音声2 00:11

KNN-VC は、スペイン語からドイツ語、ドイツ語から日本語、中国語からスペイン語など、言語間の音声変換もサポートしています。

オリジナル中国語00:08

ターゲットスペイン語00:05

合成音声3 00:08

さらに驚くべきことは、KNN-VC は人間の声と犬の鳴き声を交換することもできるということです。

ソース 犬の吠え声00:09

ソースボーカル00:05

合成音声4 00:08

合成音声5 00:05

次に、KNN-VC がどのように機能し、他の jixian 方式とどのように比較されるかを見ていきます。

方法の概要と実験結果

エンコーダー、コンバーター、ボコーダー構造に従った kNN-VC のアーキテクチャ図を以下に示します。まず、エンコーダーがソース音声と参照音声の自己教師表現を抽出し、次にトランスフォーマーが各ソース フレームを参照内の最も近い隣接フレームにマッピングし、最後にボコーダーが変換された特徴に基づいてオーディオ波形を生成します。

エンコーダーは WavLM を使用し、コンバーターは K 最近傍回帰を使用し、ボコーダーは HiFiGAN を使用します。トレーニングが必要な唯一のコンポーネントはボコーダーです。

WavLM エンコーダーについては、研究者は事前トレーニング済みの WavLM-Large モデルのみを使用し、この論文ではトレーニングは実行していません。 kNN 変換モデルの場合、kNN は非パラメトリックであり、トレーニングは必要ありません。 HiFiGAN ボコーダーの場合、元の HiFiGAN 作成者のリポジトリを使用して WavLM 機能をボコードします。これは、トレーニングが必要な唯一の部分になります。

写真

実験では、研究者らはまず KNN-VC を他のベースライン手法と比較し、利用可能な最大のターゲット データ (話者 1 人あたり約 8 分の音声) を使用して音声変換システムをテストしました。

KNN-VC の場合、すべてのターゲット データをマッチング セットとして使用します。ベースライン方式では、各ターゲット発話について話者の埋め込みを平均化します。

以下の表 1 は、各モデルの明瞭度、自然さ、話者の類似性の結果を示しています。ご覧のとおり、kNN-VC は、最良のベースライン FreeVC と同様の自然さと明瞭さを実現しますが、話者の類似性が大幅に向上しています。これは、この記事の主張を裏付けるものでもあり、高品質の音声変換には複雑さを増す必要はない。

さらに研究者たちは、事前にマッチングされたデータでトレーニングされた HiFi-GAN によってどの程度の改善がもたらされるのか、また、ターゲット話者データのサイズが明瞭度と話者の類似性にどの程度影響するのかを理解したいと考えています。

下の図 2 は、異なるターゲット スピーカー サイズでの 2 つの HiFi-GAN バリアントの WER (小さいほど良い) と EER (高いほど良い) の関係を示しています。

写真

ネットユーザーからの熱いコメント

この「最近傍のみを使用する」新しい音声変換方法 kNN-VC に関して、記事では事前学習済みの音声モデルを使用しているため、「のみ」という言葉はあまり正確ではないと考える人もいます。しかし、kNN-VC が他のモデルよりも単純であることは否定できません。

また、この結果は、kNN-VC が非常に複雑な any-to-any 音声変換方法と比較して、最高ではないにしても同等に効果的であることを示しています。

写真

他の人は、人間の声と犬の鳴き声が入れ替わる例は非常に興味深いと述べました。

写真

<<: 

>>:  人類の未来における人工知能の重要性

ブログ    

推薦する

...

ARMの機能によりIBMの包括的なAI自動化ポートフォリオが強化される

Turbonomic の買収計画により、IBM はビジネスと IT 全体にわたって人工知能の自動化機...

ハギングフェイスCEOが2024年のAI業界の6つの大きな変化を予測!

2024年にAI業界はどのように進化するのでしょうか? OpenAIのグレッグ・ブロックマン会長は...

AI 生成コードを使ってみませんか?人気のコパイロットの「リスク評価」を実施した人がいた

[[412069]]最近、GitHub は、人工知能を使用してコードを合成するモデルを生成する Co...

...

百度地図のデータ収集リンクの80%はAIベースになっており、旅行業界はインテリジェントにアップグレードされている

人工知能時代の地図データ制作はどのような変化を遂げるのでしょうか?7月3日、「Baidu Creat...

人事戦略と人材開発の形成における AI の役割

AI の力を活用することで、人事チームは複雑な課題に対処し、効率性を向上させ、前向きな職場環境を育む...

古典的なアルゴリズム: 順序付けられていない配列の K 番目に大きい値を見つける

[[409182]] 1. K番目に大きいものを見つけるタイトル順序付けられていない整数配列がありま...

Google DeepMindは少なくとも21の新しい生成AI機能を開発中

Google は、人生アドバイスや予算作成などのタスクを実行できるさまざまな生成 AI 機能を開発し...

AIの冬がまた来るのか?アメリカ人教授がarXivにAIを批判する記事を掲載し、Redditのネットユーザーから批判された

人工知能の発展の勢いは非常に強く、一般の人々や専門家は楽観的です。しかし、歴史的には、1950年代初...

ワイヤレス ネットワーク戦略に必要な 6 つの AI 要素

人工知能 (AI) の進歩により、組織は予測可能で信頼性が高く、測定可能な WiFi を使用してワイ...

ヒープソートアルゴリズムの普及チュートリアル

[[121962]]この記事の参考文献: アルゴリズム入門、第 2 版。この記事では、ヒープソートア...

...