Google は最近、エンドツーエンドのニューラル オーディオ コーデックである SoundStream をリリースしました。最も重要なのは、Google によれば、これはニューラル ネットワークによって駆動され、音声、音楽、環境音などのさまざまなサウンド タイプをサポートし、上記のさまざまなオーディオをスマートフォンのプロセッサ上でリアルタイムに処理できる世界初のオーディオ コーデックだという。
オーディオ コーデックは、オーディオ ファイルを圧縮してサイズを小さくし、送信時間をできるだけ節約するための重要なツールです。したがって、ストリーミング、オンライン音声、ビデオ通話など、オーディオ伝送を必要とするサービスでは、オーディオ コーデックが非常に重要です。 オーディオ コーデックはオーディオの音量を圧縮し、オーディオの伝送プロセスを高速化できますが、圧縮されたオーディオではオーディオの品質と詳細も失われるため、ユーザーが気付くような違いが生じます。ここで、SoundStream がそのギャップを埋めることができます。 Google は今年 2 月に、低ビットレートの音声用のニューラル オーディオ コーデック Lyra をリリースし、今年 4 月に正式にオープンソース化されました。 SoundStream は Lyra の拡張バージョンです。 SoundStream は、低ビットレートの「音声」における Lyra の機能を統合するだけでなく、クリアな音声、ノイズの多い音声、エコーのある音声、音楽、環境音など、より多くのサウンド タイプに対するエンコード サポートも備えています。 SoundStream は、エンコーダー、デコーダー、量子化器で構成されるニューラル ネットワーク システムを中心に構築されています。エンコーダーはオーディオをコード化された信号に変換し、その後量子化器を使用して圧縮し、デコーダーを使用してオーディオに戻します。したがって、ニューラル ネットワーク モデルをトレーニングした後、エンコーダーとデコーダーは異なるクライアントで動作できるようになり、品質を損なうことなくさまざまな環境でオーディオを送信できるようになります。 Google は、さまざまなオーディオ圧縮サンプルとオリジナルのオーディオサンプルの比較を自社の Web サイトで公開しています。比較テストの結果、SoundStream で処理された 3 kbps のオーディオは、Opus オーディオ コーデックで処理された 12 kbps のオーディオよりも優れており、その効果は ECS コーデックで処理された 9 kbps のオーディオに非常に近いものでした。 現在、Google 独自のオンライン会議プラットフォーム Google Meet とビデオ プラットフォーム YouTube では、引き続き Opus オーディオ コーデックが使用されています。 SoundStream の技術が進歩し続けるにつれ、Google が自社のサービスで同社の技術を使用するようになる日も近いかもしれません。 Googleは、SoundStreamは機械学習技術をオーディオコーデックに適用する上で重要なステップであり、現在最も先進的なコーデックであるOpusやEVSよりも優れていると述べた。 SoundStream は Lyra に統合され、Lyra の次のバージョンで利用できるようになります。開発者は既存の Lyra API とツールを活用して、より良い音質を提供できます。 この記事はOSCHINAから転載したものです この記事のタイトル: Google がニューラル ネットワーク コーデック SoundStream を発表、オープンソース プロジェクト Lyra に統合される予定 記事URL: https://www.oschina.net/news/155954/google-soundstream-neural-audio-codec |
<<: どのようなタイプのスマートビルが AI の導入をリードするのでしょうか?
>>: OpenAI CLIPモデルポケット版、24MBでテキスト画像マッチングを実現、iPhoneでも実行可能
2018 年 5 月 25 日、一般データ保護規則 (GDPR) が欧州連合全域で発効し、組織による...
DeepMindの共同創設者であり、Inflection AIの創設者でもあるムスタファ・スレイマン...
さまざまなタスクに人工知能を導入する企業が増えるにつれ、AI モデルのトレーニングはコストがかかり、...
[[433522]] 1 テンソル刈り込み操作テンソル内の要素を範囲でフィルタリングする勾配クリッ...
翻訳者 |ブガッティレビュー | Chonglou実稼働環境で AI モデルの品質を確保することは複...
[[322859]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
現在、5G に関するブログやベンダーの論文が数多くあり、新しいメディア伝送からギガビット速度、モバイ...
「ニューラル ネットワークは数を数えるのと同じくらい簡単です」、「畳み込み層は単なるバット シグナル...
人間は、平面の写真を見ると、再構築された 3D シーンのレイアウトを想像し、2D 画像に含まれる限ら...
[[408381]]ロボット犬とボーイズバンドが一緒に「ダンス」すると、どんな火花が散るのでしょうか...
【TechWeb Report】6月26日、山大創新研究所検索テーマ研究所研究員の賈文傑氏と捜狗自然...
コンピュータは以前から数学の証明を検証するために使用されてきましたが、特別に設計された証明言語を使用...