AIを使ってコーデックの退化を打破するクアルコムの最新のトップカンファレンス論文には大きなアイデアが盛り込まれている

AIを使ってコーデックの退化を打破するクアルコムの最新のトップカンファレンス論文には大きなアイデアが盛り込まれている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

AI を使用してビデオ コーデックを開発するのは、現時点では少々「無謀」です。

補間、オーバーフィッティング、意味認識、GAN...これらの「脳の穴」や AI アルゴリズムがコーデックでも使用できると考えたことはありますか?

たとえば、元のアルゴリズムで各フレームを 16.4 KB に圧縮した後、森は非常にぼやけ始めました。

しかし、 GANを使用した後は、画像がより鮮明になるだけでなく、各フレームも小さくなり、必要なサイズはわずか14.5 KBになりました。

たとえば、ニューラル コーデックと組み合わせた補間のアイデアにより、最新の圧縮アルゴリズムをより効果的に機能させることができます...

この一連のアルゴリズムの背後にある原理は何ですか? AI を使用してコーデックを開発する可能性はどれほど大きいですか?

Qualcomm のエンジニアリング テクノロジー担当副社長であり、Qualcomm の AI 研究責任者でもあるJilei Hou 博士にインタビューし、Qualcomm の AI コーデックのアルゴリズムの詳細と原理について学びました。

コーデック規格は徐々に内向きになりつつある

もちろん、AI アルゴリズムの原理を理解する前に、まずビデオがどのように圧縮されるかを理解する必要があります。

圧縮されていない場合、毎秒 30 フレーム、8 ビットのシングル チャネル カラー深度を持つ 480p ビデオでは、毎秒80 Mbps 以上のデータを送信する必要があります。インターネット上で高解像度のビデオをリアルタイムで視聴することはほぼ不可能です。

現在、主にクロマサブサンプリング、フレーム内予測(空間的冗長性)、フレーム間予測(時間的冗長性)といった複数の次元での圧縮方法が存在します。

クロマサブサンプリングは、人間の目は色よりも明るさに敏感であるという原理に基づいています。画像の色データを圧縮しながらも、元の画像に近い視覚効果を維持します。

フレーム内予測では、同じフレーム内の同じ色の大きなブロック (下の図の床など) を使用して、画像内の隣接するピクセルの値を予測します。その結果、元のデータよりも圧縮しやすくなります。

[[427514]]

フレーム間予測とは、隣接するフレーム間(下図の背景)の大量の重複データを除去するために使用される手法です。動き補償と呼ばれる方法を使用して、動きベクトルと予測値を使用して 2 つのフレーム間のピクセル差を計算します。

これらのビデオ圧縮方式をビデオ コーデックに具体的に適用すると、パーティション分割、量子化、エントロピー コーディングなど、多くの圧縮作業を実行できます。

しかし、Hou Jilei博士によると、H.265からH.26​​6では圧縮性能が約30%向上しているものの、エンコードの複雑さは30倍、デコードの複雑さは2倍に増加したとのことです。

これは、コーデック規格が徐々に「退化」の状態に入っていることを意味します。圧縮効果の向上は、本質的にコーデックの複雑さと引き換えにされており、これは本当の革新とはみなされません。

そのため、Qualcomm は既存の圧縮方式の原理とコーデックの構造から出発し、いくつかの興味深い AI ビデオ エンコードおよびデコード方式を開発しました。

3方向の圧縮性能を向上

具体的には、現在の AI 研究には、フレーム間予測方法、デコードの複雑さの軽減、圧縮品質の向上という 3 つの方向性があります。

「Bフレームの予測」

クアルコムはフレーム間予測の観点から、Bフレームのエンコードとデコードに関する新しいアイデアを提案し、その論文がICCV 2021に掲載されました。

I フレーム: イントラピクチャ、P フレーム: 予測フレーム、B フレーム: 双方向補間予測フレーム

現在のコーデックのほとんどは I フレーム (フレーム内予測) と P フレームに重点を置いていますが、B フレームは I フレームと P フレームの両方の双方向動き補償を使用して圧縮パフォーマンスを向上させます。これは H.265 で正式にサポートされています (H.264 ではサポートされていません)。

B フレームを使用するとビデオ圧縮のパフォーマンスは向上しますが、まだ 2 つの問題が残っています。

1 つは、ビデオを事前にロードする必要があることです (B フレームを取得するには、後続の P フレームを事前にエンコードする必要があります)。もう 1 つは、冗長性が残ることです。I フレームと P フレームの相関性が高い場合、双方向の動き補正を使用するのは無駄になります。

たとえば、I フレーム → B フレーム → P フレームの順に、一定の距離を直線で移動するボールが 1 つだけの場合、双方向の動き補正を使用するのは無駄になります。

この場合、タイムスタンプを通じて物体の移動状態を直接予測でき、エンコードの計算量も少なくなるため、補間を使用する方がよいと思われます。

しかし、これにより新たな問題が発生します。I フレームと P フレームの間に非常に大きな変化がある場合、たとえば、ボールが B フレームで突然跳ね返った場合、補間を使用した効果は非常に低くなります (B フレームの跳ね返りを直接無視するのと同じです)。

そのため、Qualcomm は、ニューラル ネットワーク ベースの P フレーム圧縮と補間補正を組み合わせ、AI を使用して補間後に必要な動き補正を予測するという 2 つを組み合わせることを選択しました。

確かにその効果は非常に良好で、以前 CVPR 2020 で Google が保持していた SOTA 記録よりも優れており、H.265 標準に基づく現在のオープンソース コーデックの圧縮性能よりも優れています。

さらに、Qualcomm は他の AI アルゴリズムもいくつか試しました。

「オーバーフィッティング」を使用してデコードの複雑さを軽減する

コーデック規格の退化に対応して、Qualcomm は、ビデオ ビットストリームに基づいてモデルの重み増分を「オーバーフィッティング」のように更新する適応アルゴリズムとして AI を使用することも検討しました。関連論文は ICLR 2021 で公開されています。

このアプローチは、単一のモデルを「オーバーフィッティング」し、ビットストリーム内の重みの増分をエンコードして、それを元のビットストリームと比較することを意味します。効果がより高ければ、この送信方法を使用してください。

このアプローチにより、圧縮パフォーマンスを低下させることなく、デコードの複雑さを 72% 削減しながら、以前の B フレーム モデルで達成された SOTA 結果を維持できることがわかりました。

もちろん、ビデオ圧縮のパフォーマンスに加えて、圧縮された単一フレーム画像の品質も考慮する必要があります。結局のところ、視覚効果もビデオ圧縮で追求される基準の 1 つです。

意味認識とGANによる圧縮品質の向上

意味認識と GAN を使用するというアイデアは比較的単純です。

セマンティック認識により、AI は人間の視覚に基づいて考慮し、ビデオを視聴するときに最も注目する部分を選択し、その部分のビット割り当てに焦点を当てることができます。

例えば、テニスの試合を観戦しているとき、試合の横にいる観客の様子や景色がどうなっているかよりも、選手の動きや打ち方などに注目することが多いです。

次に、次のように、対象の人物にさらに多くのビットを配置するように AI をトレーニングします。

構造も比較的単純で、一般的なセマンティックセグメンテーションマスクです。

この方法により、ビデオが圧縮されたときに画像全体が「モザイク」として表示されるのではなく、関心のあるローカル領域のフレーム品質が効果的に向上し、より優れた視聴体験が得られます。

Qualcomm によれば、この意味を考慮した画像圧縮は現在、ビデオ圧縮にも拡張されており、ローカル領域にも焦点を当てており、非常に良好な結果が得られています。

GAN ベースの方法は、より少ないビットを使用して同じ視覚品質の画像を生成することに重点を置いています。

Qualcomm によると、データセットは CVPR での画像圧縮のためのワークショップ CLIC から提供されたもので、約 1,600 枚の高解像度画像が提供されています。独自に開発したモデルを使用して、それをトレーニングすることで、良好な結果が得られます。

これが冒頭の写真の効果です。サイズが圧縮された後でも、GAN ベースの画像はより優れた視覚品質を実現できます。

これらの技術がすぐに携帯電話やその他のデバイスに適用され、遅延なく動画を視聴できるようになることを期待しています。

関連論文:
[1] https://arxiv.org/abs/2104.00531
[2] https://arxiv.org/abs/2101.08687

<<:  公共の場での顔認識は全面的に禁止される可能性があります。ちょうど今、欧州議会はAI規制を強化することを決定した

>>:  Pytorch Lightning の 6 つのヒントを使用して、ディープラーニング パイプラインを 10 倍高速化します。

ブログ    
ブログ    
ブログ    

推薦する

サム・アルトマン:人間レベルのAIは到来するが、世界への影響は想像よりはるかに小さい

米国の人工知能スタートアップOpenAIのサム・アルトマンCEOは現地時間1月17日火曜日、人間のレ...

...

Cloudera Greater Chinaのテクニカルディレクター、Liu Lifang氏:より正確なAIにはより正確なデータが必要

アプリケーションの可観測性と AI の信頼、リスク、セキュリティ管理は、ガートナーが 2023 年に...

マスクは想像力が豊かだ!コンピュータと人間の脳を融合する

[51CTO.com からのオリジナル記事] ウォールストリートジャーナルの最近の報道によると、テク...

スタンフォード大学:大きなモデルは間違った方向に「転がっている」のか?コンテキスト ウィンドウが長くなるほど、モデルは愚かになります。

言語モデルでは、コンテキスト ウィンドウは、特定のコンテキストに関連するテキストを理解して生成するた...

人工知能とモノのインターネットの統合は、今後10年間で最大のイノベーションの機会となるかもしれない

先日終了した全国人民代表大会と中国人民政治協商会議では、「科学技術イノベーション」という言葉が頻繁に...

百度の女性デーのポスターはスマートライフの姿を描いている:人工知能は女性をより自由にする

社会の進歩と国民の意識の高まりに伴い、社会全体が女性の権利にますます注目するようになっています。 3...

成功するAIチームの特徴

今日の時代では、人々は目標を達成するために人工知能 (AI) にますます依存するようになっています。...

...

グーグルは複数の病院と協力し、AI医療の可能性を探る実験を行っているという

7月11日、ウォール・ストリート・ジャーナルによると、Googleは最近、いくつかの病院と協力し、M...

あなたの仕事はAIに置き換えられるでしょうか?李開復氏は、これらの4種類の仕事について心配する必要はないと述べている。

[[255576]]最近、李開復氏はタイム誌に「人工知能は強力だが、誤解されている。労働者を守るに...

人工知能のアプリケーションアーキテクチャを考える

[[408914]] 1. パドルライトとパドルスリム現在、ディープラーニングの分野には 2 つの派...

ガートナー:テクノロジープロバイダーの33%が2年以内にAIに100万ドル以上を投資する

ガートナーの新しい調査*によると、人工知能 (AI) 技術計画を持つテクノロジーおよびサービス プロ...

...

旅の途中を超えて?文脈学習に基づく画像拡散モデルのトレーニング [Frontiers]

1. 背景知識 - テキスト画像生成の現状まずは背景知識をご紹介します。テキスト画像生成モデルにつ...