NetEase Cloudのリアルタイムオーディオフレームワークの背後にあるアルゴリズムの最適化により、製品エクスペリエンスが全面的に向上

NetEase Cloudのリアルタイムオーディオフレームワークの背後にあるアルゴリズムの最適化により、製品エクスペリエンスが全面的に向上

2018 年 10 月 19 日、毎年恒例のオーディオおよびビデオ技術カンファレンス LiveVideoStackCon が北京で開催されました。今年のカンファレンスのテーマは「テクノロジーが新しい「視覚」の世界を切り開く」で、上級オーディオおよびビデオ技術エンジニアが集まり、オーディオ、ビデオ、イメージング、その他のテクノロジーの実践と考え方について議論します。教育セッションの基調講演で、NetEase Cloudの上級オーディオアルゴリズムエンジニアであるLi Bei氏は、NetEase Cloud NRTCがソフトウェアレベルのリアルタイムオーディオソリューションにおけるWebRTCのネイティブアルゴリズムの欠陥をどのように最適化するか、また音楽コンテンツを含む特殊なシナリオにおける新しい考え方について語りました。

[[247165]]


NetEase CloudのシニアオーディオアルゴリズムエンジニアであるLi Bei氏が基調講演を行った。

市場の急成長により、オーディオとビデオのアプリケーションシナリオが増えています。
インターネット製品からのリアルタイムオーディオおよびビデオ技術に対する需要は、数千億ドルから数百億ドル規模の市場で爆発的に増加しており、徐々に重要なインフラストラクチャ技術になりつつあります。 Li Bei 氏は、将来的にプレイアビリティがさらに探求されるにつれて、オーディオとビデオのアプリケーションにはまだまだ成長の余地があると考えています。さらに、リアルタイムオーディオおよびビデオ技術は、インターネット製品の革新と進化を促進し、製品に豊かで効率的なシーン表現を与えるとともに、リアルタイムオーディオおよびビデオ技術自体の進化も促進しました。
リアルタイムのオーディオおよびビデオ技術は、業界やアプリケーション シナリオと密接に統合する必要があります。現在そして将来的には、安定性や効率性といった技術的なパフォーマンスに対する要件に加えて、パーソナライゼーションの面でも顧客のコアな要求が高まっています。 Li Bei氏は、NetEase Cloudが自社開発のフル機能の産業グレードのオーディオおよびビデオ技術フレームワークNRTCに基づいて、多くのシナリオベースおよびターゲットを絞った技術最適化を実行し、リアルタイムオーディオアプリケーションに関する観察と考察を形成してきたことを紹介しました。

NetEase Cloud NRTC最適化アルゴリズムはWebRTCネイティブアルゴリズムの限界を補う
李北氏は、一般産業向けの現在のソフトウェア層リアルタイムオーディオフレームワークはますます成熟しているものの、解決すべき明らかな問題点が2つあると強調した。1つは、複雑で変化するネットワーク状況における弱い信号やネットワークの混雑によって引き起こされる遅延やパケット損失であり、もう1つは、端末の種類とアプリケーションシナリオの増加に伴い、異なる種類の端末デバイスと使用環境間の大きな違いにより、全体的なソリューションの適応性に対する要件が高まっていることである。コミュニケーションの目的から、一般業界ではリアルタイム オーディオに対する要件が多数あり、まず重視されるのはフレームワークのスムーズさ、低遅延、そして明らかなエコー、ノイズ、中断のない十分な音量です。上記の要件を満たすことに加えて、ほとんどの人は音質、デュアルトーク体験、その他のパフォーマンスに注目します。
では、上記の問題点を解決し、安定した動作を保証するオーディオ フレームワークをどのように設計すればよいのでしょうか? WEBRTC のオーディオ フレームワーク図を例に挙げます。

(図: WebRTC のスレッド モデルとデータ駆動型アプローチ。異なる色は異なるスレッドを表し、青い矢印はデータ駆動型アプローチを表します)

しかし、リアルタイムオーディオの安定性を確保するためには、各モジュールで注意すべき多くの問題があります。たとえば、収集されたエコーの非線形性、音量、遅延におけるシステム固有の遅延の大きさと変化などです。これらは、プラットフォームでのオーディオ収集と再生でよく見られる問題です。
オーディオの前処理の課題と WebRTC ネイティブ アルゴリズムのいくつかの欠陥により、技術者はフレームワーク全体の技術的パフォーマンスを向上させ、エンド ユーザーの製品エクスペリエンスを確保するために、さらに最適化を行う必要があります。 NetEase Cloud のフル機能の産業グレードのオーディオおよびビデオ技術フレームワーク NRTC は、これらの欠点を解決するために一連の最適化を行いました。たとえば、収集されたエコーの非線形性は、現在オンライン収集が直面している一般的な問題であり、その安定性はエコーの除去と処理効果に直接影響します。この点における WebRTC の欠点により、一部のベンダーはエコーキャンセル サービスを提供するために音量を下げざるを得なくなりました。ネイティブ WebRTC 遅延推定の安定性の問題に対応して、NetEase Cloud Communication の NRTC は遠端と近端の遅延の調整を最適化し、エコー、ノイズ、ノイズ除去における全体的なフレームワークのパフォーマンスを向上させました。
たとえば、コミュニケーション中にユーザーが発する呼吸音の収集と処理も、オーディオ フレームワークが直面する一般的な課題の 1 つです。息遣いの音はエネルギーが低く、エコーが大きく、エネルギーが中周波数と高周波数の範囲に集中しているため、通常のアルゴリズムでは処理要件を満たすことができません。 iPhone6P の気息発音におけるネイティブ WebRTC AEC と NRTC のパフォーマンスを比較すると、NRTC フレームワークを使用したアルゴリズム最適化後の効果が大幅に優れています。


iPhone6p の息切れ発音でのネイティブ WebRTC AEC と NRTC のパフォーマンス

音楽シーンにおけるリアルタイムオーディオソリューションの選択方法に関するNetEase Cloudの新しい考え方
一般的な通信シナリオにおけるオーディオおよびビデオのアプリケーションに加えて、音楽コンテンツとそのアプリケーション シナリオには、テクノロジに対するより特殊な要件があります。 Li Bei氏は、通常のシーンと比較して、音楽コンテンツのシーンにおけるサウンドに対する要件はかなり異なると紹介しました。たとえば、人間の耳は音楽に対して敏感で、音質のわずかな低下も感知できるため、サウンド処理に対する要求が高くなります。コミュニケーションを目的とした一般的なシナリオと比較すると、リアルタイム オーディオ技術の要件に対する音楽コンテンツの優先順位も異なります。安定性と音質が最優先の要件となり、ノイズ低減と低遅延は二次的な要件に格下げされます。
音楽コンテンツ シナリオの上記のような特殊性により、一般的なリアルタイム オーディオ フレームワークでは、音楽コンテンツ シナリオに一定の制限が見られます。たとえば、一般的なシナリオに適したオーディオ フレームワークの低いサンプリング レート、非フルバンド処理、近端音とダブル トークの粗い処理、低いビット レート設定、シンプルなオーディオ QoS は、音楽コンテンツの特殊なシナリオをサポートするには不十分です。たとえば、より高いビット レートを採用するときに一般的な戦略を引き続き使用すると、より深刻な輻輳やパケット損失が発生します。では、こうした新たな要求、問題点、制限に直面して、限られたリソースでどのように選択を行えばよいのでしょうか。Li Bei 氏は、NetEase Cloud Communication の 4 つの新たな考えを共有しました。
• AGC(自動ゲインコントロール)は、音楽コンテンツに新たな需要をもたらします。音楽シーンには、感情が落ち着くときには音量を下げ、感情が激しいときには音量を上げるなど、感情の注入に対する特別な需要があるためです。したがって、AGC アルゴリズムでエネルギーが同様に処理されると、音楽コンテンツの送信に非常に悪影響を及ぼします。
• 音楽シナリオにおけるハウリング制御の弊害:音楽デモを処理する際に、特定の周波数帯域のエコーが過度に除去されると、人々の聴覚に大きな影響を与えます。
• 音楽コンテンツにおける NS (ノイズ抑制) の問題点 -音楽シーンによっては楽器が多く、NS 処理によって特定のサウンドに損傷が生じる可能性があります。元の音の最高の体験を追求するために、一部のエンジニアは音楽効果を失うよりもノイズに耐えることを好み、NS モジュールをオフにします。李北氏は、NetEase Cloudはこの技術的問題が製品とユーザーに引き起こしたトラブルを十分に認識しており、実際にNSアルゴリズムを継続的に最適化し、顧客により良い技術サービスを提供するよう努めていると紹介しました。
• 音楽シナリオにおける TSM (タイムスケール変更) の影響 -一般的なシナリオで使用される TSM アルゴリズムを音楽コンテンツのシナリオに直接コピーすると、音楽コンテンツのビートが送信中に変化するため、音楽シナリオに特化して適合した TSM アルゴリズムを作成する必要があります。

「今日、垂直分野がますます多様化するにつれて、さまざまなシナリオに合わせて戦略を調整することは、すべての基礎技術プロバイダーが考えるべきことです。それはまた、NetEase Cloudが目指してきた方向でもあります」とLi Bei氏は結論付けた。テクノロジーと顧客をマッチングさせ、サービスをよりきめ細かくすることは、業界エコシステム全体の追求の結果であるだけでなく、業界エコシステムの進歩の原動力でもあります。

<<:  IBM、AI導入を加速しAIの透明性を向上するオープンプラットフォームを発表

>>:  T1000が実現:我が国は液体金属駆動ロボットを開発中

ブログ    
ブログ    

推薦する

...

...

...

アンサンブル学習: 3人の頭脳は1人の頭脳よりも優れている

[51CTO.com からのオリジナル記事] 「靴屋が 3 人いれば、諸葛亮 1 人より優れている」...

道路が車両を制御することが自動運転の新たな方向性となるのでしょうか?

自動運転技術は、人工知能、ビジュアルコンピューティング、レーダー、監視デバイス、全地球測位システムを...

ワークフローをよりスマートにする 5 つの AI ツール

生成 AI の流行は、昨年の ChatGPT の登場から始まりました。わずか 1 年で、このテクノロ...

Keras 対 PyTorch: どちらが「ナンバーワン」のディープラーニング フレームワークでしょうか?

「最初のディープラーニングフレームワークをどのように選択するか」は、初心者にとって常に頭痛の種でし...

バーチャルシンガー、AIの背後にある見えざる手が音楽の未来を握っているのか?

19 世紀以前、人々が集まるときには、人生の物語を語り、感情や考えを伝えるために、常に最も原始的な...

新しいアルゴリズムと産業チェーン市場が立ち上げられ、ArcSoft Open Platformは「技術の開放+産業のエコロジー」の新たな段階を切り開きます。

現在、業界のビジュアル AI に対する焦点は最先端技術から産業エコロジーへと移行しており、これはビ...

...

人工知能は「馴染みのものを殺す」ツールになるのでしょうか?

長い間、私の携帯電話のパッケージには主に 400 分の通話時間 + 500M のネットワーク トラフ...

ChatGPTが見知らぬ人の自撮り写真を流出!モデルによって個人データが盗まれたのですか?ネットユーザーはパニックに

最近、ChatGPTの返信に見知らぬ男性の写真が現れるという事件が多くのネットユーザーに衝撃を与えま...

AIと機械学習に切り替えるには、次の5つのスキルを習得する必要があります

1. 機械学習をスキルとして扱うソフトウェア エンジニアとして、私たちは常に学習し、進化するフレーム...