Google は最近、エンドツーエンドのニューラル オーディオ コーデックである SoundStream をリリースしました。最も重要なのは、Google によれば、これはニューラル ネットワークによって駆動され、音声、音楽、環境音などのさまざまなサウンド タイプをサポートし、上記のさまざまなオーディオをスマートフォンのプロセッサ上でリアルタイムに処理できる世界初のオーディオ コーデックだという。
オーディオ コーデックは、オーディオ ファイルを圧縮してサイズを小さくし、送信時間をできるだけ節約するための重要なツールです。したがって、ストリーミング、オンライン音声、ビデオ通話など、オーディオ伝送を必要とするサービスでは、オーディオ コーデックが非常に重要です。 オーディオ コーデックはオーディオの音量を圧縮し、オーディオの伝送プロセスを高速化できますが、圧縮されたオーディオではオーディオの品質と詳細も失われるため、ユーザーが気付くような違いが生じます。ここで、SoundStream がそのギャップを埋めることができます。 Google は今年 2 月に、低ビットレートの音声用のニューラル オーディオ コーデック Lyra をリリースし、今年 4 月に正式にオープンソース化されました。 SoundStream は Lyra の拡張バージョンです。 SoundStream は、低ビットレートの「音声」における Lyra の機能を統合するだけでなく、クリアな音声、ノイズの多い音声、エコーのある音声、音楽、環境音など、より多くのサウンド タイプに対するエンコード サポートも備えています。 SoundStream は、エンコーダー、デコーダー、量子化器で構成されるニューラル ネットワーク システムを中心に構築されています。エンコーダーはオーディオをコード化された信号に変換し、その後量子化器を使用して圧縮し、デコーダーを使用してオーディオに戻します。したがって、ニューラル ネットワーク モデルをトレーニングした後、エンコーダーとデコーダーは異なるクライアントで動作できるようになり、品質を損なうことなくさまざまな環境でオーディオを送信できるようになります。 Google は、さまざまなオーディオ圧縮サンプルとオリジナルのオーディオサンプルの比較を自社の Web サイトで公開しています。比較テストの結果、SoundStream で処理された 3 kbps のオーディオは、Opus オーディオ コーデックで処理された 12 kbps のオーディオよりも優れており、その効果は ECS コーデックで処理された 9 kbps のオーディオに非常に近いものでした。 現在、Google 独自のオンライン会議プラットフォーム Google Meet とビデオ プラットフォーム YouTube では、引き続き Opus オーディオ コーデックが使用されています。 SoundStream の技術が進歩し続けるにつれ、Google が自社のサービスで同社の技術を使用するようになる日も近いかもしれません。 Googleは、SoundStreamは機械学習技術をオーディオコーデックに適用する上で重要なステップであり、現在最も先進的なコーデックであるOpusやEVSよりも優れていると述べた。 SoundStream は Lyra に統合され、Lyra の次のバージョンで利用できるようになります。開発者は既存の Lyra API とツールを活用して、より良い音質を提供できます。 この記事はOSCHINAから転載したものです この記事のタイトル: Google がニューラル ネットワーク コーデック SoundStream を発表、オープンソース プロジェクト Lyra に統合される予定 記事URL: https://www.oschina.net/news/155954/google-soundstream-neural-audio-codec |
<<: どのようなタイプのスマートビルが AI の導入をリードするのでしょうか?
>>: OpenAI CLIPモデルポケット版、24MBでテキスト画像マッチングを実現、iPhoneでも実行可能
最近、OpenAI は、最新の生成人工知能モデル GPT-4 を使用してコンテンツレビューを行い、手...
青いステージの真ん中に黒いパネルが立っていた。パネルには青い楕円形のスクリーンが点滅し、その奥から冷...
Microsoft は最近、AI 駆動型コンテンツ モデレーション システムを監査し、AI モデルの...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
普通の人にとって、毎日起きて服を着るのはかなり簡単な作業です。しかし、身体に障害のある人にとって、着...
[[216863]]私たちの未来に影響を与えるそれは「ビッグデータ」でも「モノのインターネット」で...
商業的な AI の成功のほとんどは、教師あり機械学習 (ML) に関連しています。たとえば、スマート...
この概念に初めて遭遇した場合、一瞬理解できないかもしれません。インターネット上のさまざまな説明により...
1. はじめにこの論文では、新しい MAGIC (iMAge-guided text Generat...
これらは互いに大きく異なっており、すべてのデータ サイエンティストはその理由と方法を理解する必要があ...
最近、オンライン機械翻訳ソフトウェアが日本で非常に人気になっています。この翻訳ソフトはDeepLと呼...
ディープラーニング モデルのトレーニングに使用される GPU は強力ですが、高価です。 GPU を効...