この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 AI を使用してビデオ コーデックを開発するのは、現時点では少々「無謀」です。 補間、オーバーフィッティング、意味認識、GAN...これらの「脳の穴」や AI アルゴリズムがコーデックでも使用できると考えたことはありますか? たとえば、元のアルゴリズムで各フレームを 16.4 KB に圧縮した後、森は非常にぼやけ始めました。 しかし、 GANを使用した後は、画像がより鮮明になるだけでなく、各フレームも小さくなり、必要なサイズはわずか14.5 KBになりました。 たとえば、ニューラル コーデックと組み合わせた補間のアイデアにより、最新の圧縮アルゴリズムをより効果的に機能させることができます... この一連のアルゴリズムの背後にある原理は何ですか? AI を使用してコーデックを開発する可能性はどれほど大きいですか? Qualcomm のエンジニアリング テクノロジー担当副社長であり、Qualcomm の AI 研究責任者でもあるJilei Hou 博士にインタビューし、Qualcomm の AI コーデックのアルゴリズムの詳細と原理について学びました。 コーデック規格は徐々に内向きになりつつあるもちろん、AI アルゴリズムの原理を理解する前に、まずビデオがどのように圧縮されるかを理解する必要があります。 圧縮されていない場合、毎秒 30 フレーム、8 ビットのシングル チャネル カラー深度を持つ 480p ビデオでは、毎秒80 Mbps 以上のデータを送信する必要があります。インターネット上で高解像度のビデオをリアルタイムで視聴することはほぼ不可能です。 現在、主にクロマサブサンプリング、フレーム内予測(空間的冗長性)、フレーム間予測(時間的冗長性)といった複数の次元での圧縮方法が存在します。 クロマサブサンプリングは、人間の目は色よりも明るさに敏感であるという原理に基づいています。画像の色データを圧縮しながらも、元の画像に近い視覚効果を維持します。 フレーム内予測では、同じフレーム内の同じ色の大きなブロック (下の図の床など) を使用して、画像内の隣接するピクセルの値を予測します。その結果、元のデータよりも圧縮しやすくなります。 フレーム間予測とは、隣接するフレーム間(下図の背景)の大量の重複データを除去するために使用される手法です。動き補償と呼ばれる方法を使用して、動きベクトルと予測値を使用して 2 つのフレーム間のピクセル差を計算します。 これらのビデオ圧縮方式をビデオ コーデックに具体的に適用すると、パーティション分割、量子化、エントロピー コーディングなど、多くの圧縮作業を実行できます。 しかし、Hou Jilei博士によると、H.265からH.266では圧縮性能が約30%向上しているものの、エンコードの複雑さは30倍、デコードの複雑さは2倍に増加したとのことです。 これは、コーデック規格が徐々に「退化」の状態に入っていることを意味します。圧縮効果の向上は、本質的にコーデックの複雑さと引き換えにされており、これは本当の革新とはみなされません。 そのため、Qualcomm は既存の圧縮方式の原理とコーデックの構造から出発し、いくつかの興味深い AI ビデオ エンコードおよびデコード方式を開発しました。 3方向の圧縮性能を向上具体的には、現在の AI 研究には、フレーム間予測方法、デコードの複雑さの軽減、圧縮品質の向上という 3 つの方向性があります。 「Bフレームの予測」クアルコムはフレーム間予測の観点から、Bフレームのエンコードとデコードに関する新しいアイデアを提案し、その論文がICCV 2021に掲載されました。
現在のコーデックのほとんどは I フレーム (フレーム内予測) と P フレームに重点を置いていますが、B フレームは I フレームと P フレームの両方の双方向動き補償を使用して圧縮パフォーマンスを向上させます。これは H.265 で正式にサポートされています (H.264 ではサポートされていません)。 B フレームを使用するとビデオ圧縮のパフォーマンスは向上しますが、まだ 2 つの問題が残っています。 1 つは、ビデオを事前にロードする必要があることです (B フレームを取得するには、後続の P フレームを事前にエンコードする必要があります)。もう 1 つは、冗長性が残ることです。I フレームと P フレームの相関性が高い場合、双方向の動き補正を使用するのは無駄になります。 たとえば、I フレーム → B フレーム → P フレームの順に、一定の距離を直線で移動するボールが 1 つだけの場合、双方向の動き補正を使用するのは無駄になります。 この場合、タイムスタンプを通じて物体の移動状態を直接予測でき、エンコードの計算量も少なくなるため、補間を使用する方がよいと思われます。 しかし、これにより新たな問題が発生します。I フレームと P フレームの間に非常に大きな変化がある場合、たとえば、ボールが B フレームで突然跳ね返った場合、補間を使用した効果は非常に低くなります (B フレームの跳ね返りを直接無視するのと同じです)。 そのため、Qualcomm は、ニューラル ネットワーク ベースの P フレーム圧縮と補間補正を組み合わせ、AI を使用して補間後に必要な動き補正を予測するという 2 つを組み合わせることを選択しました。 確かにその効果は非常に良好で、以前 CVPR 2020 で Google が保持していた SOTA 記録よりも優れており、H.265 標準に基づく現在のオープンソース コーデックの圧縮性能よりも優れています。 さらに、Qualcomm は他の AI アルゴリズムもいくつか試しました。 「オーバーフィッティング」を使用してデコードの複雑さを軽減するコーデック規格の退化に対応して、Qualcomm は、ビデオ ビットストリームに基づいてモデルの重み増分を「オーバーフィッティング」のように更新する適応アルゴリズムとして AI を使用することも検討しました。関連論文は ICLR 2021 で公開されています。 このアプローチは、単一のモデルを「オーバーフィッティング」し、ビットストリーム内の重みの増分をエンコードして、それを元のビットストリームと比較することを意味します。効果がより高ければ、この送信方法を使用してください。 このアプローチにより、圧縮パフォーマンスを低下させることなく、デコードの複雑さを 72% 削減しながら、以前の B フレーム モデルで達成された SOTA 結果を維持できることがわかりました。 もちろん、ビデオ圧縮のパフォーマンスに加えて、圧縮された単一フレーム画像の品質も考慮する必要があります。結局のところ、視覚効果もビデオ圧縮で追求される基準の 1 つです。 意味認識とGANによる圧縮品質の向上意味認識と GAN を使用するというアイデアは比較的単純です。 セマンティック認識により、AI は人間の視覚に基づいて考慮し、ビデオを視聴するときに最も注目する部分を選択し、その部分のビット割り当てに焦点を当てることができます。 例えば、テニスの試合を観戦しているとき、試合の横にいる観客の様子や景色がどうなっているかよりも、選手の動きや打ち方などに注目することが多いです。 次に、次のように、対象の人物にさらに多くのビットを配置するように AI をトレーニングします。 構造も比較的単純で、一般的なセマンティックセグメンテーションマスクです。 この方法により、ビデオが圧縮されたときに画像全体が「モザイク」として表示されるのではなく、関心のあるローカル領域のフレーム品質が効果的に向上し、より優れた視聴体験が得られます。 Qualcomm によれば、この意味を考慮した画像圧縮は現在、ビデオ圧縮にも拡張されており、ローカル領域にも焦点を当てており、非常に良好な結果が得られています。 GAN ベースの方法は、より少ないビットを使用して同じ視覚品質の画像を生成することに重点を置いています。 Qualcomm によると、データセットは CVPR での画像圧縮のためのワークショップ CLIC から提供されたもので、約 1,600 枚の高解像度画像が提供されています。独自に開発したモデルを使用して、それをトレーニングすることで、良好な結果が得られます。 これが冒頭の写真の効果です。サイズが圧縮された後でも、GAN ベースの画像はより優れた視覚品質を実現できます。 これらの技術がすぐに携帯電話やその他のデバイスに適用され、遅延なく動画を視聴できるようになることを期待しています。 関連論文: |
<<: 公共の場での顔認識は全面的に禁止される可能性があります。ちょうど今、欧州議会はAI規制を強化することを決定した
>>: Pytorch Lightning の 6 つのヒントを使用して、ディープラーニング パイプラインを 10 倍高速化します。
[[264843]]人工知能の基本的な技術アプリケーションとして、コンピューター ビジョンは、その幅...
画像、音声認識、自然言語処理、強化学習などの多くの技術分野において、ディープラーニングは非常に効果的...
[[383103]]武漢晩報(王超然記者)自動運転タクシーに乗ってみての感想は?車の中に運転手はい...
[[191733]]諺にもあるように、「時間と空間は予測不可能である」。自然界では、時間と空間が急速...
[[286212]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
近年、拡散モデルに基づく画像生成モデルが次々と登場し、驚くべき生成効果を示しています。しかし、関連す...
ロシア衛星ネットワークによると、最近、ロシアの「3Dバイオプリンティングソリューションズ」社のマネー...
まず、一般的なビザンチン将軍問題からコンセンサスとは何かを理解しましょう。ビザンチン将軍問題ビザンチ...
米国特許商標庁(USPTO)が10月27日に発表した新しい報告書によると、2018年のすべての新しい...
今日、DALL·E 3 のチュートリアルがオンラインで話題となり、1 日も経たないうちに 100 万...
[[244225]]人工知能は現実的な科学技術の力であり、需要、デジタル経済、高品質の開発に焦点を当...