Google がニューラル ネットワーク コーデック SoundStream を発表、オープンソース プロジェクト Lyra に統合される予定

Google がニューラル ネットワーク コーデック SoundStream を発表、オープンソース プロジェクト Lyra に統合される予定

Google は最近、エンドツーエンドのニューラル オーディオ コーデックである SoundStream をリリースしました。最も重要なのは、Google によれば、これはニューラル ネットワークによって駆動され、音声、音楽、環境音などのさまざまなサウンド タイプをサポートし、上記のさまざまなオーディオをスマートフォンのプロセッサ上でリアルタイムに処理できる世界初のオーディオ コーデックだという。

[[418223]]

オーディオ コーデックは、オーディオ ファイルを圧縮してサイズを小さくし、送信時間をできるだけ節約するための重要なツールです。したがって、ストリーミング、オンライン音声、ビデオ通話など、オーディオ伝送を必要とするサービスでは、オーディオ コーデックが非常に重要です。

オーディオ コーデックはオーディオの音量を圧縮し、オーディオの伝送プロセスを高速化できますが、圧縮されたオーディオではオーディオの品質と詳細も失われるため、ユーザーが気付くような違いが生じます。ここで、SoundStream がそのギャップを埋めることができます。

Google は今年 2 月に、低ビットレートの音声用のニューラル オーディオ コーデック Lyra をリリースし、今年 4 月に正式にオープンソース化されました。 SoundStream は Lyra の拡張バージョンです。 SoundStream は、低ビットレートの「音声」における Lyra の機能を統合するだけでなく、クリアな音声、ノイズの多い音声、エコーのある音声、音楽、環境音など、より多くのサウンド タイプに対するエンコード サポートも備えています。

SoundStream は、エンコーダー、デコーダー、量子化器で構成されるニューラル ネットワーク システムを中心に構築されています。エンコーダーはオーディオをコード化された信号に変換し、その後量子化器を使用して圧縮し、デコーダーを使用してオーディオに戻します。したがって、ニューラル ネットワーク モデルをトレーニングした後、エンコーダーとデコーダーは異なるクライアントで動作できるようになり、品質を損なうことなくさまざまな環境でオーディオを送信できるようになります。

Google は、さまざまなオーディオ圧縮サンプルとオリジナルのオーディオサンプルの比較を自社の Web サイトで公開しています。比較テストの結果、SoundStream で処理された 3 kbps のオーディオは、Opus オーディオ コーデックで処理された 12 kbps のオーディオよりも優れており、その効果は ECS コーデックで処理された 9 kbps のオーディオに非常に近いものでした。

現在、Google 独自のオンライン会議プラットフォーム Google Meet とビデオ プラットフォーム YouTube では、引き続き Opus オーディオ コーデックが使用されています。 SoundStream の技術が進歩し続けるにつれ、Google が自社のサービスで同社の技術を使用するようになる日も近いかもしれません。

Googleは、SoundStreamは機械学習技術をオーディオコーデックに適用する上で重要なステップであり、現在最も先進的なコーデックであるOpusやEVSよりも優れていると述べた。 SoundStream は Lyra に統合され、Lyra の次のバージョンで利用できるようになります。開発者は既存の Lyra API とツールを活用して、より良い音質を提供できます。

この記事はOSCHINAから転載したものです

この記事のタイトル: Google がニューラル ネットワーク コーデック SoundStream を発表、オープンソース プロジェクト Lyra に統合される予定

記事URL: https://www.oschina.net/news/155954/google-soundstream-neural-audio-codec

<<:  どのようなタイプのスマートビルが AI の導入をリードするのでしょうか?

>>:  OpenAI CLIPモデルポケット版、24MBでテキスト画像マッチングを実現、iPhoneでも実行可能

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

OpenAIはGPT-4を使用したコンテンツモデレーションへの新しいアプローチを提案

最近、OpenAI は、最新の生成人工知能モデル GPT-4 を使用してコンテンツレビューを行い、手...

人間と機械の論争:AIは感情について語っても負ける

青いステージの真ん中に黒いパネルが立っていた。パネルには青い楕円形のスクリーンが点滅し、その奥から冷...

マイクロソフトは言語モデルをより調和のとれたものにするために複数のツールとデータセットをオープンソース化

Microsoft は最近、AI 駆動型コンテンツ モデレーション システムを監査し、AI モデルの...

AIと機械学習の詐欺を見抜くための7つの原則

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

MITの研究チームがスマート着替え補助ロボットの衝突防止アルゴリズムを改良

普通の人にとって、毎日起きて服を着るのはかなり簡単な作業です。しかし、身体に障害のある人にとって、着...

覚えておいてください!私たちの未来に影響を与えるのはビッグデータや人工知能ではなくブロックチェーンです!

[[216863]]私たちの未来に影響を与えるそれは「ビッグデータ」でも「モノのインターネット」で...

人間と機械のコラボレーション: セキュリティ業務における人工知能

商業的な AI の成功のほとんどは、教師あり機械学習 (ML) に関連しています。たとえば、スマート...

超便利!追加のコードを書かずに依存性注入の5つの原則をマスターする

この概念に初めて遭遇した場合、一瞬理解できないかもしれません。インターネット上のさまざまな説明により...

わかりやすく解説: 機械学習と統計モデリングの違い

これらは互いに大きく異なっており、すべてのデータ サイエンティストはその理由と方法を理解する必要があ...

...

世界初の翻訳エンジンが進化して復活、「細部にこだわり」方言もマスター

最近、オンライン機械翻訳ソフトウェアが日本で非常に人気になっています。この翻訳ソフトはDeepLと呼...

...

...

Ray で効率的なディープラーニング データ パイプラインを作成する

ディープラーニング モデルのトレーニングに使用される GPU は強力ですが、高価です。 GPU を効...