AIを使ってコーデックの退化を打破するクアルコムの最新のトップカンファレンス論文には大きなアイデアが盛り込まれている

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI を使用してビデオコーデックを開発するのは、現時点では少々「無謀」です。

補間、オーバーフィッティング、意味認識、GAN...これらの「脳の穴」や AI アルゴリズムがコーデックでも使用できると考えたことはありますか?

たとえば、元のアルゴリズムで各フレームを 16.4 KB に圧縮した後、森は非常にぼやけ始めました。

しかし、 GANを使用した後は、画像がより鮮明になるだけでなく、各フレームも小さくなり、必要なサイズはわずか14.5 KBになりました。

たとえば、ニューラルコーデックと組み合わせた補間のアイデアにより、最新の圧縮アルゴリズムをより効果的に機能させることができます...

この一連のアルゴリズムの背後にある原理は何ですか? AI を使用してコーデックを開発する可能性はどれほど大きいですか?

Qualcomm のエンジニアリングテクノロジー担当副社長であり、Qualcomm の AI 研究責任者でもあるJilei Hou 博士にインタビューし、Qualcomm の AI コーデックのアルゴリズムの詳細と原理について学びました。

コーデック規格は徐々に内向きになりつつある

もちろん、AI アルゴリズムの原理を理解する前に、まずビデオがどのように圧縮されるかを理解する必要があります。

圧縮されていない場合、毎秒 30 フレーム、8 ビットのシングルチャネルカラー深度を持つ 480p ビデオでは、毎秒80 Mbps 以上のデータを送信する必要があります。インターネット上で高解像度のビデオをリアルタイムで視聴することはほぼ不可能です。

現在、主にクロマサブサンプリング、フレーム内予測（空間的冗長性）、フレーム間予測（時間的冗長性）といった複数の次元での圧縮方法が存在します。

クロマサブサンプリングは、人間の目は色よりも明るさに敏感であるという原理に基づいています。画像の色データを圧縮しながらも、元の画像に近い視覚効果を維持します。

フレーム内予測では、同じフレーム内の同じ色の大きなブロック (下の図の床など) を使用して、画像内の隣接するピクセルの値を予測します。その結果、元のデータよりも圧縮しやすくなります。

フレーム間予測とは、隣接するフレーム間（下図の背景）の大量の重複データを除去するために使用される手法です。動き補償と呼ばれる方法を使用して、動きベクトルと予測値を使用して 2 つのフレーム間のピクセル差を計算します。

これらのビデオ圧縮方式をビデオコーデックに具体的に適用すると、パーティション分割、量子化、エントロピーコーディングなど、多くの圧縮作業を実行できます。

しかし、Hou Jilei博士によると、H.265からH.266では圧縮性能が約30%向上しているものの、エンコードの複雑さは30倍、デコードの複雑さは2倍に増加したとのことです。

これは、コーデック規格が徐々に「退化」の状態に入っていることを意味します。圧縮効果の向上は、本質的にコーデックの複雑さと引き換えにされており、これは本当の革新とはみなされません。

そのため、Qualcomm は既存の圧縮方式の原理とコーデックの構造から出発し、いくつかの興味深い AI ビデオエンコードおよびデコード方式を開発しました。

3方向の圧縮性能を向上

具体的には、現在の AI 研究には、フレーム間予測方法、デコードの複雑さの軽減、圧縮品質の向上という 3 つの方向性があります。

「Bフレームの予測」

クアルコムはフレーム間予測の観点から、Bフレームのエンコードとデコードに関する新しいアイデアを提案し、その論文がICCV 2021に掲載されました。

I フレーム: イントラピクチャ、P フレーム: 予測フレーム、B フレーム: 双方向補間予測フレーム

現在のコーデックのほとんどは I フレーム (フレーム内予測) と P フレームに重点を置いていますが、B フレームは I フレームと P フレームの両方の双方向動き補償を使用して圧縮パフォーマンスを向上させます。これは H.265 で正式にサポートされています (H.264 ではサポートされていません)。

B フレームを使用するとビデオ圧縮のパフォーマンスは向上しますが、まだ 2 つの問題が残っています。

1 つは、ビデオを事前にロードする必要があることです (B フレームを取得するには、後続の P フレームを事前にエンコードする必要があります)。もう 1 つは、冗長性が残ることです。I フレームと P フレームの相関性が高い場合、双方向の動き補正を使用するのは無駄になります。

たとえば、I フレーム → B フレーム → P フレームの順に、一定の距離を直線で移動するボールが 1 つだけの場合、双方向の動き補正を使用するのは無駄になります。

この場合、タイムスタンプを通じて物体の移動状態を直接予測でき、エンコードの計算量も少なくなるため、補間を使用する方がよいと思われます。

しかし、これにより新たな問題が発生します。I フレームと P フレームの間に非常に大きな変化がある場合、たとえば、ボールが B フレームで突然跳ね返った場合、補間を使用した効果は非常に低くなります (B フレームの跳ね返りを直接無視するのと同じです)。

そのため、Qualcomm は、ニューラルネットワークベースの P フレーム圧縮と補間補正を組み合わせ、AI を使用して補間後に必要な動き補正を予測するという 2 つを組み合わせることを選択しました。

確かにその効果は非常に良好で、以前 CVPR 2020 で Google が保持していた SOTA 記録よりも優れており、H.265 標準に基づく現在のオープンソースコーデックの圧縮性能よりも優れています。

さらに、Qualcomm は他の AI アルゴリズムもいくつか試しました。

「オーバーフィッティング」を使用してデコードの複雑さを軽減する

コーデック規格の退化に対応して、Qualcomm は、ビデオビットストリームに基づいてモデルの重み増分を「オーバーフィッティング」のように更新する適応アルゴリズムとして AI を使用することも検討しました。関連論文は ICLR 2021 で公開されています。

このアプローチは、単一のモデルを「オーバーフィッティング」し、ビットストリーム内の重みの増分をエンコードして、それを元のビットストリームと比較することを意味します。効果がより高ければ、この送信方法を使用してください。

このアプローチにより、圧縮パフォーマンスを低下させることなく、デコードの複雑さを 72% 削減しながら、以前の B フレームモデルで達成された SOTA 結果を維持できることがわかりました。

もちろん、ビデオ圧縮のパフォーマンスに加えて、圧縮された単一フレーム画像の品質も考慮する必要があります。結局のところ、視覚効果もビデオ圧縮で追求される基準の 1 つです。

意味認識とGANによる圧縮品質の向上

意味認識と GAN を使用するというアイデアは比較的単純です。

セマンティック認識により、AI は人間の視覚に基づいて考慮し、ビデオを視聴するときに最も注目する部分を選択し、その部分のビット割り当てに焦点を当てることができます。

例えば、テニスの試合を観戦しているとき、試合の横にいる観客の様子や景色がどうなっているかよりも、選手の動きや打ち方などに注目することが多いです。

次に、次のように、対象の人物にさらに多くのビットを配置するように AI をトレーニングします。

構造も比較的単純で、一般的なセマンティックセグメンテーションマスクです。

この方法により、ビデオが圧縮されたときに画像全体が「モザイク」として表示されるのではなく、関心のあるローカル領域のフレーム品質が効果的に向上し、より優れた視聴体験が得られます。

Qualcomm によれば、この意味を考慮した画像圧縮は現在、ビデオ圧縮にも拡張されており、ローカル領域にも焦点を当てており、非常に良好な結果が得られています。

GAN ベースの方法は、より少ないビットを使用して同じ視覚品質の画像を生成することに重点を置いています。

Qualcomm によると、データセットは CVPR での画像圧縮のためのワークショップ CLIC から提供されたもので、約 1,600 枚の高解像度画像が提供されています。独自に開発したモデルを使用して、それをトレーニングすることで、良好な結果が得られます。

これが冒頭の写真の効果です。サイズが圧縮された後でも、GAN ベースの画像はより優れた視覚品質を実現できます。

これらの技術がすぐに携帯電話やその他のデバイスに適用され、遅延なく動画を視聴できるようになることを期待しています。

関連論文:
[1] https://arxiv.org/abs/2104.00531
[2] https://arxiv.org/abs/2101.08687

<<: 公共の場での顔認識は全面的に禁止される可能性があります。ちょうど今、欧州議会はAI規制を強化することを決定した

>>: Pytorch Lightning の 6 つのヒントを使用して、ディープラーニングパイプラインを 10 倍高速化します。

ブログ

人工知能の時代が到来し、教育は大きく変わるかもしれません。未来の教育は人工知能をベースにしたものになるのでしょうか？

ブログ

AIを使ってコーデックの退化を打破するクアルコムの最新のトップカンファレンス論文には大きなアイデアが盛り込まれている

コーデック規格は徐々に内向きになりつつある

3方向の圧縮性能を向上

「Bフレームの予測」

「オーバーフィッティング」を使用してデコードの複雑さを軽減する

意味認識とGANによる圧縮品質の向上

人工知能の時代が到来し、教育は大きく変わるかもしれません。未来の教育は人工知能をベースにしたものになるのでしょうか？

生画像の新しい「マルチモーダル」AIテキストレンダリングはMidjourney + DALL·E 3に勝る！Karpathyが5億元の資金調達に投資

Alipayの検索エクスペリエンスを向上させるために、Antと北京大学は階層的コントラスト学習を使用してテキストフレームワークを生成

タイタンの爆発で5人の裕福な人が亡くなりました！ AIが最後の恐ろしい瞬間を再現、設計上の欠陥の真実が明らかに

小売業界におけるAIインテリジェントビデオ分析の応用

推薦する

28 歳の中国人 Meta ソフトウェアエンジニアが、次のような理由で年収 37 万ドルの仕事を辞めました...

大国間の競争の焦点：人工知能とデジタル主権

人工知能：ニューノーマルにおける成長の原動力

大規模モデル向けの最速推論チップが一夜にして手に入りました。1秒あたり500トークンで、GPUを上回ります。 Google TPUチームがそれを構築し、ウルトラマンに叫ぶ: あなたは遅すぎる

わずか数ステップでデバイス上で Alpaca-LoRA を実行するにはどうすればよいでしょうか?

役に立たない、それとも翻訳ツール？日本が「会話」できるスマートマスクを発明

AIがCIOの役割をどう変えるのか

AIはキーボードの音を聞いてパスワードを盗むことができ、その精度は最大95%

人工知能は ICT 専門家にとって味方でしょうか、それとも敵でしょうか?

Kuaishou Agents システム、モデル、データはすべてオープンソースです。