Google がニューラルネットワークコーデック SoundStream を発表、オープンソースプロジェクト Lyra に統合される予定

Google は最近、エンドツーエンドのニューラルオーディオコーデックである SoundStream をリリースしました。最も重要なのは、Google によれば、これはニューラルネットワークによって駆動され、音声、音楽、環境音などのさまざまなサウンドタイプをサポートし、上記のさまざまなオーディオをスマートフォンのプロセッサ上でリアルタイムに処理できる世界初のオーディオコーデックだという。

[[418223]]

オーディオコーデックは、オーディオファイルを圧縮してサイズを小さくし、送信時間をできるだけ節約するための重要なツールです。したがって、ストリーミング、オンライン音声、ビデオ通話など、オーディオ伝送を必要とするサービスでは、オーディオコーデックが非常に重要です。

オーディオコーデックはオーディオの音量を圧縮し、オーディオの伝送プロセスを高速化できますが、圧縮されたオーディオではオーディオの品質と詳細も失われるため、ユーザーが気付くような違いが生じます。ここで、SoundStream がそのギャップを埋めることができます。

Google は今年 2 月に、低ビットレートの音声用のニューラルオーディオコーデック Lyra をリリースし、今年 4 月に正式にオープンソース化されました。 SoundStream は Lyra の拡張バージョンです。 SoundStream は、低ビットレートの「音声」における Lyra の機能を統合するだけでなく、クリアな音声、ノイズの多い音声、エコーのある音声、音楽、環境音など、より多くのサウンドタイプに対するエンコードサポートも備えています。

SoundStream は、エンコーダー、デコーダー、量子化器で構成されるニューラルネットワークシステムを中心に構築されています。エンコーダーはオーディオをコード化された信号に変換し、その後量子化器を使用して圧縮し、デコーダーを使用してオーディオに戻します。したがって、ニューラルネットワークモデルをトレーニングした後、エンコーダーとデコーダーは異なるクライアントで動作できるようになり、品質を損なうことなくさまざまな環境でオーディオを送信できるようになります。

Google は、さまざまなオーディオ圧縮サンプルとオリジナルのオーディオサンプルの比較を自社の Web サイトで公開しています。比較テストの結果、SoundStream で処理された 3 kbps のオーディオは、Opus オーディオコーデックで処理された 12 kbps のオーディオよりも優れており、その効果は ECS コーデックで処理された 9 kbps のオーディオに非常に近いものでした。

現在、Google 独自のオンライン会議プラットフォーム Google Meet とビデオプラットフォーム YouTube では、引き続き Opus オーディオコーデックが使用されています。 SoundStream の技術が進歩し続けるにつれ、Google が自社のサービスで同社の技術を使用するようになる日も近いかもしれません。

Googleは、SoundStreamは機械学習技術をオーディオコーデックに適用する上で重要なステップであり、現在最も先進的なコーデックであるOpusやEVSよりも優れていると述べた。 SoundStream は Lyra に統合され、Lyra の次のバージョンで利用できるようになります。開発者は既存の Lyra API とツールを活用して、より良い音質を提供できます。

この記事はOSCHINAから転載したものです

この記事のタイトル: Google がニューラルネットワークコーデック SoundStream を発表、オープンソースプロジェクト Lyra に統合される予定

記事URL: https://www.oschina.net/news/155954/google-soundstream-neural-audio-codec

<<: どのようなタイプのスマートビルが AI の導入をリードするのでしょうか?

>>: OpenAI CLIPモデルポケット版、24MBでテキスト画像マッチングを実現、iPhoneでも実行可能