オーディオソーシャルネットワーキングでの音声変更にはどのようなアルゴリズムが使用されていますか?

オーディオソーシャルネットワーキングでの音声変更にはどのようなアルゴリズムが使用されていますか?

モバイルインターネット技術のサポートにより、オーディオソーシャルネットワーキングは、さまざまなシナリオでソーシャルニーズを満たすだけでなく、エクスペリエンスの革新、特にAI + 5G技術をもたらし、オーディオソーシャルネットワーキングにさらに明らかな推進効果をもたらします。多くのソーシャル製品は、オーディオ技術に基づいて、音声変更、美声、ステレオ、残響、シーンベースのサウンド効果を追加し、ユーザーのリスニング体験を豊かにします。 Pano の技術共有に関するこの記事では、オーディオ ソーシャル シナリオで音声変更を実現するために使用されるアルゴリズムについて説明します。

[[383171]]

01 音声変更はどのように実現されるのですか?

日常生活でビデオを見るとき、2倍速で再生することがあります。再生速度を上げると、動画内の男性の声が少し「女性の声」のように聞こえ、再生速度を落とすと、「ズートピア」のゆっくり話す「ナマケモノの声」に似た声が聞こえます。これらは実際には単純な音声変更です。

技術的な観点から言えば、16k のサンプリング レートを使用して 100Hz の正弦波を収集し、32k または 8k のサンプリング レートを使用して再生すると、正弦波の周波数が 2 倍 (200Hz) または半分 (50Hz) になることは理解しにくいことではありません。オーディオの周波数を増減する方法は非常に簡単です。周波数を 1 倍に上げるには、サンプルを 1 つおきに破棄し、周波数を 1 倍に下げるには、線形補間を実行します。専門用語で言えば、これはリサンプリング プロセスです。リサンプリング方式では、ピッチの変更は実現できますが、同時にオーディオ時間が長くなったり短くなったりすることも簡単に見つかります。これは元の入力オーディオの長さと一致しないため、リアルタイム通信では受け入れられません。リアルタイム通信では、速度を変えずにピッチを変える音声変換機能が必要ですが、これは単一のリサンプリング方法では実現できません。もちろん、リサンプリングに加えて、速度を変えずにピッチを変えるというニーズを満たすことができる他の音声変更方法もいくつかあります。

02 音声変更の一般的なアルゴリズムは何ですか?

一般的なピッチシフト アルゴリズムには、時間領域、周波数領域、およびパラメトリック メソッドが含まれます。時間領域は実装が簡単で、ピッチを変更せずに速度を変更し、速度を変更せずにピッチを変更するためにリサンプリングを使用することが多いです。周波数領域法とパラメトリック法は比較的複雑であり、計算量は時間領域法よりもはるかに大きくなります。この記事では、一般的な時間領域アルゴリズムと周波数領域アルゴリズムを簡単に紹介します。

時間領域では、主なアルゴリズムは OLA (Overlap-Add) アルゴリズムです。OLA、同期オーバーラップ追加 (SOLA)、固定合成 (SOLAFS)、時間領域ピッチ同期オーバーラップ追加 (TD-PSOLA)、波形類似性オーバーラップ追加 (WSOLA) などです。周波数領域では、主なアルゴリズムはピッチ同期 OLA (PSOLA) などです。

1)オーラ

OLA は TSM の最も単純かつ最も残酷な方法です。元の音声がフレームに分割された後、サンプリングポイントの間隔で音声フレームの一部が繰り返されるか破棄され、音声が再構築されます。これにより、簡単な音声変更効果が実現されます。原理は以下の図に示されています。


a. フレーミング、時間領域オーディオのフレーミング。

b. 入力信号Xにハニングウィンドウを追加します。

c. 最初のフレームの後に、一定の間隔 Ha で 2 番目のフレームを取り出します。

d. 音声の 2 番目のフレームにウィンドウを追加し、最初のフレームと重ねて追加します。

この操作は音声の最後まで繰り返され、ピッチシフトされた新しい音声を再構築できます。ただし、このアルゴリズムには一定の制限があり、音声の連続性を保証することはできず、ピッチが途切れる可能性があります。このような発話はクリック音のように聞こえ、発話の歪みを引き起こします。

2) 波形類似度オーバーラップアンドアド(WSOLA)

単純で粗雑な OLA アルゴリズムを理解すると、OLA アルゴリズムの限界と欠陥が明確にわかります。もちろん、この欠陥の原因は位相の不連続性であることもわかっています。ピッチの破損と位相の不連続の問題を軽減するために、Verhelst と Roelands は波形相似性重ね合わせ法 (WSOLA) を提案しました。オープンソースコード soundtouch は現在このアルゴリズムを使用しています。原則は次のとおりです。


a. 元のオーディオから最初のフレームを取得し、フレームをウィンドウ化して y 信号に出力します。

b+c. 点線の青い範囲内で 2 番目のフレームを見つけます。2 番目のフレームの位相パラメータは、最初のフレームの位相と揃っている必要があります。青い範囲内で 2 番目のフレームに最も類似するフレームを出力フレームとして見つけます。これが y 信号の 2 番目のフレームです。

d. 最も類似したフレームが最初のフレームと重なり、y信号に追加されます。

焦点は、2 段階の bc 操作で最も類似したフレームを見つける方法にあります。多くの論文では、「自己相関」を計算するという最も直接的な方法が示されています。 WSOLA はピッチブレイクや位相不連続の問題を解決できますが、音色に影響を及ぼします。この現象は、WSOLA を打楽器のオーディオに適用すると、より顕著になります。

3) ピッチ同期OLA(PSOLA)

PSOLA のアルゴリズム原理は WSOLA のそれとは異なります。PSOLA は周波数領域で処理するため、ピッチ同期の目的をさらに達成できます。このアルゴリズムでは、速度の変更とピッチの変更は、異なるパラメータによって制御される 2 つの独立したプロセスです。まず基本ピッチを検出し、基本ピッチ周期をマークします。ピッチ周期をマークすることで、音声は複数の合成単位に分割されます。音声速度は合成単位を繰り返したり、省略したりすることで制御されます。音声の基本周波数は、隣接する合成単位の重なりの長さを変更するか、速度変更と組み合わせた再サンプリングによって変更されます。

PSOLA は基本周波数を修正し、音色に大きな影響を与えることなく共鳴ピークを良好に保護します。しかし、このアルゴリズムは周波数領域で処理されるため、膨大な計算量が必要となり、リアルタイムの速度やピッチの変更処理の要件を満たすことが困難です。

03 結論

上記は、Pano が簡単に紹介した 3 つの一般的な音声変更アルゴリズムです。これらの 3 つのアルゴリズムにより、おじさん、ロリ、モンスターなどの声を大まかに実現できます。ただし、音声変更後に音声をよりリアルで自然に聞こえさせたい場合は、さらに最適化とデバッグが必要になります。これらのアルゴリズムに加えて、ビブラートやトレモロ アルゴリズムを使用する一般的な「ホラー サウンド」や、エコー アルゴリズムを使用する「空の谷のサウンド」など、他のサウンド変更効果もあります。これらのアルゴリズムはすべて、従来の信号処理に基づいています。従来の信号処理による音声変更方法に加えて、より高度な音声変更アルゴリズムである AI 音声変更があります。従来の信号処理方法と比較して、AI 音声変更により、変更された音声はよりリアルで自然になります。

注: この記事の写真は論文「音楽信号の時間スケール変更のレビュー」からの引用です。

<<:  AI はデータセンターをよりスマートにするためにどのように役立ちますか?

>>:  サイバーセキュリティにおけるAIの新たな機会を見つける方法

ブログ    

推薦する

Hacker News のホットな話題: 利用できるパッケージが非常に多いにもかかわらず、プログラマーは依然としてアルゴリズムを学ぶ必要があるのでしょうか?

さまざまなアルゴリズムの実装やソフトウェア パッケージがオープン ソースで利用できる世界において、ア...

100日学習プラン | データサイエンスの詳細ガイド

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

クラウドネットワークとAIに焦点を当てると、3大通信事業者の財務報告はどのようなことを明らかにするのでしょうか。

少し前に、中国移動、中国聯通、中国電信の3大通信事業者が2023年第2四半期の財務報告書を発表しまし...

5分で様々な人工知能技術を紹介

人工知能は、コンピューターが人間と同様のレベルの知能を発揮できるようにするさまざまな技術を網羅する幅...

...

AIの革命的道: OpenAIのGPT-4ツアー

ソフトウェア開発者は OpenAI の GPT-4 を使用して複数のアプリケーションを生成し、時間の...

デジタル変革の波の中で、車の購入もアルゴリズムの最適化に頼ることができるのでしょうか?

近年、デジタル変革の波に牽引され、自動車業界は着実な変革、アップグレード、ビジネスの再編を遂げていま...

マルチユーザーデータ取得: LangChain 技術ガイドとケーススタディ

著者 | 崔昊レビュー | Chonglouまとめこの記事では、さまざまなユーザー データの分離を確...

...

5G+UAVの利点

5G+UAVの利点を見てみましょう。 [[398161]]現在、ドローンの開発は3つの大きな障害に直...

...

これらの「ブラックテクノロジー」は洪水対策をよりスマートにする

現在、我が国の南北はともに洪水の季節を迎え、大雨が頻繁に発生し、洪水の予防と制御は危機的な段階に達し...

AIはワールドカップ賭博の「必殺武器」となるが、その精度は「イカ・リュー」ほど高くない

[[234677]]画像出典: Visual China韓国がドイツを2対0で破った後、私の別のグル...

GPT-4より18倍高速、世界最速の大型モデルGroqが登場!毎秒500トークンが記録を破る、自社開発LPUはNVIDIA GPUの10倍

気がつくと、1 秒あたり 500 トークンを出力できる Groq モデルがインターネット上に広まって...