オーディオソーシャルネットワーキングでの音声変更にはどのようなアルゴリズムが使用されていますか?

オーディオソーシャルネットワーキングでの音声変更にはどのようなアルゴリズムが使用されていますか?

モバイルインターネット技術のサポートにより、オーディオソーシャルネットワーキングは、さまざまなシナリオでソーシャルニーズを満たすだけでなく、エクスペリエンスの革新、特にAI + 5G技術をもたらし、オーディオソーシャルネットワーキングにさらに明らかな推進効果をもたらします。多くのソーシャル製品は、オーディオ技術に基づいて、音声変更、美声、ステレオ、残響、シーンベースのサウンド効果を追加し、ユーザーのリスニング体験を豊かにします。 Pano の技術共有に関するこの記事では、オーディオ ソーシャル シナリオで音声変更を実現するために使用されるアルゴリズムについて説明します。

[[383171]]

01 音声変更はどのように実現されるのですか?

日常生活でビデオを見るとき、2倍速で再生することがあります。再生速度を上げると、動画内の男性の声が少し「女性の声」のように聞こえ、再生速度を落とすと、「ズートピア」のゆっくり話す「ナマケモノの声」に似た声が聞こえます。これらは実際には単純な音声変更です。

技術的な観点から言えば、16k のサンプリング レートを使用して 100Hz の正弦波を収集し、32k または 8k のサンプリング レートを使用して再生すると、正弦波の周波数が 2 倍 (200Hz) または半分 (50Hz) になることは理解しにくいことではありません。オーディオの周波数を増減する方法は非常に簡単です。周波数を 1 倍に上げるには、サンプルを 1 つおきに破棄し、周波数を 1 倍に下げるには、線形補間を実行します。専門用語で言えば、これはリサンプリング プロセスです。リサンプリング方式では、ピッチの変更は実現できますが、同時にオーディオ時間が長くなったり短くなったりすることも簡単に見つかります。これは元の入力オーディオの長さと一致しないため、リアルタイム通信では受け入れられません。リアルタイム通信では、速度を変えずにピッチを変える音声変換機能が必要ですが、これは単一のリサンプリング方法では実現できません。もちろん、リサンプリングに加えて、速度を変えずにピッチを変えるというニーズを満たすことができる他の音声変更方法もいくつかあります。

02 音声変更の一般的なアルゴリズムは何ですか?

一般的なピッチシフト アルゴリズムには、時間領域、周波数領域、およびパラメトリック メソッドが含まれます。時間領域は実装が簡単で、ピッチを変更せずに速度を変更し、速度を変更せずにピッチを変更するためにリサンプリングを使用することが多いです。周波数領域法とパラメトリック法は比較的複雑であり、計算量は時間領域法よりもはるかに大きくなります。この記事では、一般的な時間領域アルゴリズムと周波数領域アルゴリズムを簡単に紹介します。

時間領域では、主なアルゴリズムは OLA (Overlap-Add) アルゴリズムです。OLA、同期オーバーラップ追加 (SOLA)、固定合成 (SOLAFS)、時間領域ピッチ同期オーバーラップ追加 (TD-PSOLA)、波形類似性オーバーラップ追加 (WSOLA) などです。周波数領域では、主なアルゴリズムはピッチ同期 OLA (PSOLA) などです。

1)オーラ

OLA は TSM の最も単純かつ最も残酷な方法です。元の音声がフレームに分割された後、サンプリングポイントの間隔で音声フレームの一部が繰り返されるか破棄され、音声が再構築されます。これにより、簡単な音声変更効果が実現されます。原理は以下の図に示されています。


a. フレーミング、時間領域オーディオのフレーミング。

b. 入力信号Xにハニングウィンドウを追加します。

c. 最初のフレームの後に、一定の間隔 Ha で 2 番目のフレームを取り出します。

d. 音声の 2 番目のフレームにウィンドウを追加し、最初のフレームと重ねて追加します。

この操作は音声の最後まで繰り返され、ピッチシフトされた新しい音声を再構築できます。ただし、このアルゴリズムには一定の制限があり、音声の連続性を保証することはできず、ピッチが途切れる可能性があります。このような発話はクリック音のように聞こえ、発話の歪みを引き起こします。

2) 波形類似度オーバーラップアンドアド(WSOLA)

単純で粗雑な OLA アルゴリズムを理解すると、OLA アルゴリズムの限界と欠陥が明確にわかります。もちろん、この欠陥の原因は位相の不連続性であることもわかっています。ピッチの破損と位相の不連続の問題を軽減するために、Verhelst と Roelands は波形相似性重ね合わせ法 (WSOLA) を提案しました。オープンソースコード soundtouch は現在このアルゴリズムを使用しています。原則は次のとおりです。


a. 元のオーディオから最初のフレームを取得し、フレームをウィンドウ化して y 信号に出力します。

b+c. 点線の青い範囲内で 2 番目のフレームを見つけます。2 番目のフレームの位相パラメータは、最初のフレームの位相と揃っている必要があります。青い範囲内で 2 番目のフレームに最も類似するフレームを出力フレームとして見つけます。これが y 信号の 2 番目のフレームです。

d. 最も類似したフレームが最初のフレームと重なり、y信号に追加されます。

焦点は、2 段階の bc 操作で最も類似したフレームを見つける方法にあります。多くの論文では、「自己相関」を計算するという最も直接的な方法が示されています。 WSOLA はピッチブレイクや位相不連続の問題を解決できますが、音色に影響を及ぼします。この現象は、WSOLA を打楽器のオーディオに適用すると、より顕著になります。

3) ピッチ同期OLA(PSOLA)

PSOLA のアルゴリズム原理は WSOLA のそれとは異なります。PSOLA は周波数領域で処理するため、ピッチ同期の目的をさらに達成できます。このアルゴリズムでは、速度の変更とピッチの変更は、異なるパラメータによって制御される 2 つの独立したプロセスです。まず基本ピッチを検出し、基本ピッチ周期をマークします。ピッチ周期をマークすることで、音声は複数の合成単位に分割されます。音声速度は合成単位を繰り返したり、省略したりすることで制御されます。音声の基本周波数は、隣接する合成単位の重なりの長さを変更するか、速度変更と組み合わせた再サンプリングによって変更されます。

PSOLA は基本周波数を修正し、音色に大きな影響を与えることなく共鳴ピークを良好に保護します。しかし、このアルゴリズムは周波数領域で処理されるため、膨大な計算量が必要となり、リアルタイムの速度やピッチの変更処理の要件を満たすことが困難です。

03 結論

上記は、Pano が簡単に紹介した 3 つの一般的な音声変更アルゴリズムです。これらの 3 つのアルゴリズムにより、おじさん、ロリ、モンスターなどの声を大まかに実現できます。ただし、音声変更後に音声をよりリアルで自然に聞こえさせたい場合は、さらに最適化とデバッグが必要になります。これらのアルゴリズムに加えて、ビブラートやトレモロ アルゴリズムを使用する一般的な「ホラー サウンド」や、エコー アルゴリズムを使用する「空の谷のサウンド」など、他のサウンド変更効果もあります。これらのアルゴリズムはすべて、従来の信号処理に基づいています。従来の信号処理による音声変更方法に加えて、より高度な音声変更アルゴリズムである AI 音声変更があります。従来の信号処理方法と比較して、AI 音声変更により、変更された音声はよりリアルで自然になります。

注: この記事の写真は論文「音楽信号の時間スケール変更のレビュー」からの引用です。

<<:  AI はデータセンターをよりスマートにするためにどのように役立ちますか?

>>:  サイバーセキュリティにおけるAIの新たな機会を見つける方法

ブログ    

推薦する

AI、新たなアリババとテンセント

インターネット時代の恩恵が徐々に薄れていくにつれ、プレイヤーは次の発展のトレンドを求めて模索と実践を...

ものづくりを変える6つのAI活用法!

1. 欠陥検出のためのディープラーニング[[391865]]製造業では、生産ラインにおける欠陥検出...

2021年世界人工知能会議の結論によって、どのような新しいトレンドが明らかになるのでしょうか?

7月10日、2021年世界人工知能会議(WAIC)が上海で閉幕した。 2011年以来、ビッグデータ...

人工知能が習得する必要がある知識ポイントは何ですか?どんな本を読めばいいでしょうか?非常に詳細なチュートリアル

[[243197]]人工知能とは何ですか?人工知能の定義は、「人工知能」と「知能」の 2 つの部分に...

米国商務省は、生成型人工知能の潜在的なリスクに対処するために、公開AIワーキンググループを設立した。

6月25日、ジーナ・ライモンド米国商務長官は、国立標準技術研究所(NIST)が人工知能(AI)に関...

2018 年 4 月の最も人気のある AI 機械学習プロジェクト トップ 5

データサイエンスと機械学習に関しては、GitHub と Reddit が最も人気のある 2 つのプラ...

...

顔認識は常に私たちのそばにあり、中秋節は「ハッピースキャン」から始まります

[[424699]]中秋節が近づいており、旅行の計画を立てている方も多いと思います。この特別な期間中...

Python 向け 5 つの強化学習フレームワーク

独自の強化学習実装をゼロから作成するのは大変な作業になる可能性がありますが、そうする必要はありません...

究極のAlp​​haGo、DeepMindの新アルゴリズムMuZero、著者の解釈

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

人工知能を始めるには

業界の専門家によると、人工知能を使用していない多くの企業がこの新興技術を急いで導入し始めている一方で...

...

...

オープンソース: ディープラーニングモデルと姿勢推定コードのオープンソースコードの推奨、人工知能チュートリアル

オープンソース: ディープラーニング モデルとポーズ推定コードのオープンソース コードの推奨、人工知...