オーディオソーシャルネットワーキングでの音声変更にはどのようなアルゴリズムが使用されていますか?

モバイルインターネット技術のサポートにより、オーディオソーシャルネットワーキングは、さまざまなシナリオでソーシャルニーズを満たすだけでなく、エクスペリエンスの革新、特にAI + 5G技術をもたらし、オーディオソーシャルネットワーキングにさらに明らかな推進効果をもたらします。多くのソーシャル製品は、オーディオ技術に基づいて、音声変更、美声、ステレオ、残響、シーンベースのサウンド効果を追加し、ユーザーのリスニング体験を豊かにします。 Pano の技術共有に関するこの記事では、オーディオソーシャルシナリオで音声変更を実現するために使用されるアルゴリズムについて説明します。

[[383171]]

01 音声変更はどのように実現されるのですか?

日常生活でビデオを見るとき、2倍速で再生することがあります。再生速度を上げると、動画内の男性の声が少し「女性の声」のように聞こえ、再生速度を落とすと、「ズートピア」のゆっくり話す「ナマケモノの声」に似た声が聞こえます。これらは実際には単純な音声変更です。

技術的な観点から言えば、16k のサンプリングレートを使用して 100Hz の正弦波を収集し、32k または 8k のサンプリングレートを使用して再生すると、正弦波の周波数が 2 倍 (200Hz) または半分 (50Hz) になることは理解しにくいことではありません。オーディオの周波数を増減する方法は非常に簡単です。周波数を 1 倍に上げるには、サンプルを 1 つおきに破棄し、周波数を 1 倍に下げるには、線形補間を実行します。専門用語で言えば、これはリサンプリングプロセスです。リサンプリング方式では、ピッチの変更は実現できますが、同時にオーディオ時間が長くなったり短くなったりすることも簡単に見つかります。これは元の入力オーディオの長さと一致しないため、リアルタイム通信では受け入れられません。リアルタイム通信では、速度を変えずにピッチを変える音声変換機能が必要ですが、これは単一のリサンプリング方法では実現できません。もちろん、リサンプリングに加えて、速度を変えずにピッチを変えるというニーズを満たすことができる他の音声変更方法もいくつかあります。

02 音声変更の一般的なアルゴリズムは何ですか?

一般的なピッチシフトアルゴリズムには、時間領域、周波数領域、およびパラメトリックメソッドが含まれます。時間領域は実装が簡単で、ピッチを変更せずに速度を変更し、速度を変更せずにピッチを変更するためにリサンプリングを使用することが多いです。周波数領域法とパラメトリック法は比較的複雑であり、計算量は時間領域法よりもはるかに大きくなります。この記事では、一般的な時間領域アルゴリズムと周波数領域アルゴリズムを簡単に紹介します。

時間領域では、主なアルゴリズムは OLA (Overlap-Add) アルゴリズムです。OLA、同期オーバーラップ追加 (SOLA)、固定合成 (SOLAFS)、時間領域ピッチ同期オーバーラップ追加 (TD-PSOLA)、波形類似性オーバーラップ追加 (WSOLA) などです。周波数領域では、主なアルゴリズムはピッチ同期 OLA (PSOLA) などです。

1)オーラ

OLA は TSM の最も単純かつ最も残酷な方法です。元の音声がフレームに分割された後、サンプリングポイントの間隔で音声フレームの一部が繰り返されるか破棄され、音声が再構築されます。これにより、簡単な音声変更効果が実現されます。原理は以下の図に示されています。

a. フレーミング、時間領域オーディオのフレーミング。

b. 入力信号Xにハニングウィンドウを追加します。

c. 最初のフレームの後に、一定の間隔 Ha で 2 番目のフレームを取り出します。

d. 音声の 2 番目のフレームにウィンドウを追加し、最初のフレームと重ねて追加します。

この操作は音声の最後まで繰り返され、ピッチシフトされた新しい音声を再構築できます。ただし、このアルゴリズムには一定の制限があり、音声の連続性を保証することはできず、ピッチが途切れる可能性があります。このような発話はクリック音のように聞こえ、発話の歪みを引き起こします。

2) 波形類似度オーバーラップアンドアド（WSOLA）

単純で粗雑な OLA アルゴリズムを理解すると、OLA アルゴリズムの限界と欠陥が明確にわかります。もちろん、この欠陥の原因は位相の不連続性であることもわかっています。ピッチの破損と位相の不連続の問題を軽減するために、Verhelst と Roelands は波形相似性重ね合わせ法 (WSOLA) を提案しました。オープンソースコード soundtouch は現在このアルゴリズムを使用しています。原則は次のとおりです。

a. 元のオーディオから最初のフレームを取得し、フレームをウィンドウ化して y 信号に出力します。

b+c. 点線の青い範囲内で 2 番目のフレームを見つけます。2 番目のフレームの位相パラメータは、最初のフレームの位相と揃っている必要があります。青い範囲内で 2 番目のフレームに最も類似するフレームを出力フレームとして見つけます。これが y 信号の 2 番目のフレームです。

d. 最も類似したフレームが最初のフレームと重なり、y信号に追加されます。

焦点は、2 段階の bc 操作で最も類似したフレームを見つける方法にあります。多くの論文では、「自己相関」を計算するという最も直接的な方法が示されています。 WSOLA はピッチブレイクや位相不連続の問題を解決できますが、音色に影響を及ぼします。この現象は、WSOLA を打楽器のオーディオに適用すると、より顕著になります。

3) ピッチ同期OLA（PSOLA）

PSOLA のアルゴリズム原理は WSOLA のそれとは異なります。PSOLA は周波数領域で処理するため、ピッチ同期の目的をさらに達成できます。このアルゴリズムでは、速度の変更とピッチの変更は、異なるパラメータによって制御される 2 つの独立したプロセスです。まず基本ピッチを検出し、基本ピッチ周期をマークします。ピッチ周期をマークすることで、音声は複数の合成単位に分割されます。音声速度は合成単位を繰り返したり、省略したりすることで制御されます。音声の基本周波数は、隣接する合成単位の重なりの長さを変更するか、速度変更と組み合わせた再サンプリングによって変更されます。

PSOLA は基本周波数を修正し、音色に大きな影響を与えることなく共鳴ピークを良好に保護します。しかし、このアルゴリズムは周波数領域で処理されるため、膨大な計算量が必要となり、リアルタイムの速度やピッチの変更処理の要件を満たすことが困難です。

03 結論

上記は、Pano が簡単に紹介した 3 つの一般的な音声変更アルゴリズムです。これらの 3 つのアルゴリズムにより、おじさん、ロリ、モンスターなどの声を大まかに実現できます。ただし、音声変更後に音声をよりリアルで自然に聞こえさせたい場合は、さらに最適化とデバッグが必要になります。これらのアルゴリズムに加えて、ビブラートやトレモロアルゴリズムを使用する一般的な「ホラーサウンド」や、エコーアルゴリズムを使用する「空の谷のサウンド」など、他のサウンド変更効果もあります。これらのアルゴリズムはすべて、従来の信号処理に基づいています。従来の信号処理による音声変更方法に加えて、より高度な音声変更アルゴリズムである AI 音声変更があります。従来の信号処理方法と比較して、AI 音声変更により、変更された音声はよりリアルで自然になります。

注: この記事の写真は論文「音楽信号の時間スケール変更のレビュー」からの引用です。

<<: AI はデータセンターをよりスマートにするためにどのように役立ちますか?

>>: サイバーセキュリティにおけるAIの新たな機会を見つける方法