一般的に、ビデオ圧縮の目的は、時間的および空間的な冗長性を活用して視覚コンテンツを保持しながらビデオの保存に必要なビットレートを削減することであり、現在広く使用されているアプローチは、非ニューラル標準コーデック (H.264/AVC、H.265/HEVC など) です。いくつかの研究では、ニューラル ネットワークがビデオ圧縮の学習において優れた進歩を遂げており、最新の方法はピーク信号対雑音比 (PSNR) の点では HEVC に匹敵し、MS-SSIM の点では HEVC よりも優れていることが示されています。しかし、リマスターされたビデオを公開した研究者はほとんどいないため、これらの方法は主観的な視覚品質の観点から評価されていません。 Google の研究者は、生成的敵対ネットワーク (GAN) に基づくニューラル ビデオ圧縮方式を提案しました。この方式は、従来のニューラル ビデオ圧縮方式よりも優れており、ユーザー調査では HEVC に匹敵するパフォーマンスを示しました。スペクトル解析によって駆動されるランダムシフトと非シフトを使用して、再帰フレーム圧縮によって発生する時間的累積誤差を削減する方法を提案します。この論文では、ネットワーク設計の選択と重要性について詳しく説明し、ユーザー調査でビデオ圧縮方法を評価する際の課題について説明します。 論文アドレス: https://arxiv.org/pdf/2107.12038.pdf この論文の主な貢献は次のとおりです。
研究方法下の図は、本研究で使用したネットワークアーキテクチャを示しています。ここで、x = {x_1、x_2、...} はフレームシーケンスであり、x_1 は初期フレーム (I) です。この研究は低遅延モードで動作し、後続の (P) フレームを前のフレームから予測できるようにします。 復元動画です。 灰色のボックスは中間テンソルを視覚化したものです。灰色の線の左側が I フレーム ブランチ (青は CNN による学習を表します)、右側が P フレーム ブランチ (緑は CNN による学習を表します) です。破線はデコード中にはアクティブ化されず、識別器 D_I、D_P はトレーニング中にのみアクティブ化されます。 CNN のサイズは、その容量を大まかに示します。 SG は停止勾配操作、Blur はスケール空間ぼかし、Warp はバイキュービックワープ、UFlow は凍結オプティカルフローモデルです。 研究者たちは、忠実度の高い再構成ビデオを得るために以下の戦略を採用しました。
論文中の式はHiFiCに基づいています。条件付き GAN を使用すると、ジェネレータと識別器の両方が追加のラベルにアクセスできます。定式化では、データ ポイント x とラベル s が結合分布 p(x, s) に従うと想定されています。ジェネレータはサンプルy∼p(y)を分布p(x|y)にマッピングし、ディスクリミネータは与えられたペア(x, s)がジェネレータからではなくp(x|s)から来ているかどうかを予測するために使用されます。 セットアップでは、フレームシーケンスと再構築を処理する必要があります。 HiFiC の後、ジェネレータとディスクリミネータを潜在変数 y に基づいて条件付けします。I フレームの場合は y = yI、P フレームの場合は y = y_t,r です。問題を単純化するために、本研究の目的は各フレームの分布を一致させることです。つまり、長さ T のビデオ シーケンスの場合、モデル st を取得することが目的です。 ランダムシフトによる展開時のエラー蓄積の防止論文で述べられているように、「低レイテンシ」設定の反復的な性質は時間領域で一般化するのが難しく、エラーの伝播につながる可能性があります。理想的には、評価されるコンテンツが少なくとも T = 60 フレームである限り、トレーニングにシーケンスを使用しますが、実際には、メモリの制約により、現在のハードウェアではこれは実現できません。アクセラレータには最大 T = 12 を収めることができますが、これによりモデルのトレーニングが非常に遅くなります。 新しいモデルのプロトタイピングとトレーニングを加速し、アンローリング問題を防ぐために、本研究では以下のトレーニングスキームを採用しています。 1) ランダムに選択されたフレームのみで E_I、G_I、D_I を 1 000000 ステップトレーニングします。 2) E_I、G_I、D_Iをフリーズし、E_I、G_IからE_res、G_resの重みを初期化します。段階的アンローリングを使用して、E_flow、G_flow、E_res、G_res、D_P を 450000 ステップでトレーニングします。つまり、80k ステップまでは T = 2、300 ステップまでは T = 3、350 ステップまでは T = 4、400k までは T = 6、450k までは T = 9 を使用します。 この研究では、トレーニング済みの E_I、G_I は P フレーム ブランチの多くのバリエーションに再利用でき、実行間で E_I、G_I を共有することで比較しやすくなるため、ステップ 1) と 2) に分割しています。 比率コントローラを使用してトレーニング中のレートを制御します。ハイパーパラメータ λ_R は、ビットレートとその他の損失項 (GAN 損失など) 間のトレードオフを制御するために使用されます。 実験結果データセット: トレーニング データは、YouTube の公開ビデオから取得された、長さ T が 12 フレーム、フレーム サイズが 256×256 の約 992,000 個の時空間的に切り取られたビデオ セットで構成されています。これらのビデオの解像度は 1080p 以上、アスペクト比は 16:9 以上、フレーム レートは 30 fps 以上である必要があります。 モデルとベースライン: ベースラインは「MSE のみ」と呼ばれ、研究で使用されたものと同じアーキテクチャとトレーニング手順を使用しますが、GAN 損失はありません。実験は、PSNR の点で HEVC に匹敵する最近のニューラル圧縮方式である Scale-Space Flow (SSF) とも比較されます。最後に、この研究では学習なしの HEVC と比較します。 研究者は、評価者の好みを図 1 にまとめ、パフォーマンス メトリックを図 7 に示しています。この研究では、3 つのビット レートで HEVC を比較し、その結果、研究で使用された方法は、0.064 bpp (14vs12) では HEVC と同等、0.13bpp (18vs9) ではより優れており、0.22bpp (16vs9) でも良好なパフォーマンスを発揮することが示されました。 GAN 損失が視覚品質に与える影響を評価するために、研究者らは GAN 損失を MSE のみおよび低レート (≈ 0.064 bpp) の SSF と比較しました。図 1 に示すように、MSE のみの場合、30 の結果のうち 4 つだけが優れており、4 つは同点です。これは、GAN 損失の重要性を示しており、SSF は最初の選択肢ではなく、同点はありません。研究者らは、MSE のみは PSNR の点では HEVC に匹敵するが (図 7)、視覚品質の点では大幅に劣ることを強調しています。 調査の結果、パフォーマンスの向上には次の要素が重要であることがわかりました。「自由潜在」を使用しないと、再構成効果がぼやけますが、これは図 3 の上部に示すように、MSE のみのベースラインによって生成される効果に似ています。研究では、条件付き識別器なしで「自由潜在値」を使用すると、再構成結果がぼやける可能性があることも判明しました。情報が UFlow に渡されない場合、実験結果は矛盾します。情報が UFlow に渡されても、フロー損失正規化 (つまり、式 6) が使用されない場合、実験結果も理想的ではありません。したがって、いずれかのコンポーネントを削除すると、時間的な一貫性が損なわれます (図 3 の下部を参照)。 全体として、図 1 の結果を予測する単一の指標はありませんが、PIM と LPIPS はいくつかの比較を正しくランク付けします。この結果はニューラル画像圧縮の分野で観察されたもので、主観的な品質に基づいてこれらの方法を正確にランク付けできる基準が現在存在しないため、最良の方法は人間によってランク付けされます。 |
<<: 私の国のAI技術は世界をリードしており、人工知能時代のリーダーになるでしょう。アメリカは今回も準優勝になるのでしょうか?
>>: OpenAIのライブ放送で音声コマンドAI自動プログラミングが披露されるが、Lao Luo TNTよりわずかに優れているだけ
長年にわたる技術の進歩により、交通はより便利になりました。 IoT アプリケーションなどの自動車技術...
近年、AI による絵画のレベルは飛躍的に向上しています。 Midjourney と Adobe ...
機械学習は現在注目されている技術の 1 つであり、多くのビジネスおよびテクノロジー分野の幹部は、自社...
問題の説明この問題は、製品属性を選択するシナリオから発生します。たとえば、服や靴を購入するときは、通...
テクノロジーは私たちの世界を変えました。それは何十億もの人々に考え、アイデア、洞察を共有する機会を与...
[[283929]] 図: T11 2019 データインテリジェンステクノロジーサミット現在、データ...
「どんな魔法が私たちを賢くするのでしょうか?魔法は魔法がないことです。知性の力は、単一の完璧な原理か...
2016年、AppleはiPhoneを11秒で分解できるリサイクルロボット「Liam」を開発したと発...
現在、多くの自動運転車開発者は米国カリフォルニア州(以下、「カリフォルニア」という)で路上試験を行う...
[[431684]]オリジナルの Transformer アーキテクチャでは、LayerNorm ...