パラメータ数は元の1%に過ぎません。Beiyouらは、超解像アルゴリズムを使用した高性能なビデオ伝送方法を提案しました。

[[421986]]

過去数年間でインターネットビデオは爆発的な成長を遂げており、ビデオ伝送インフラストラクチャに大きな負担がかかっています。ネットワークビデオ伝送システムの品質は、ネットワーク帯域幅に大きく依存します。クライアント/サーバーの計算能力の向上とディープラーニングの最近の進歩に触発されて、ビデオ伝送システムにディープニューラルネットワーク (DNN) を適用してビデオ伝送の品質を向上させることが提案されています。これらの DNN 方式は、ビデオ全体を複数のビデオセグメントに均等に分割し、低解像度のビデオセグメントとそれに対応するコンテキスト認識モデルをクライアントに送信します。クライアントは、これらのトレーニング済みモデルを使用して、対応する低解像度のビデオセグメントを推測します。このようにして、限られたインターネット帯域幅でも、より優れたユーザーエクスペリエンス (QoE) を実現できます。その中で、長い動画を送信する場合には、複数の超解像モデルを同時に送信する必要があります。

最近、北京郵電大学とインテル中国研究所の研究者らは、まず異なるビデオセグメントに対応する異なるモデル間の関係を調査し、次にコンテンツ認識特徴変調（CaFM）モジュールを導入してビデオ伝送の伝送に必要なモデルサイズを圧縮する共同トレーニングフレームワークを設計しました。この研究で使用した方法では、各ビデオセグメントに対して元のモデルパラメータの 1% のみを送信するだけで済み、より優れた超解像効果も実現します。この研究では、さまざまな超解像度バックボーン、ビデオの長さ、超解像度のスケーリング係数でこの方法の利点と汎用性を実証するために、多数の実験を実施しました。さらに、この方法は、新しいビデオエンコードおよびデコード方法とも言えます。同じ帯域幅の圧縮では、この方法のパフォーマンス (PSNR) は商用の H.264 および H.265 よりも優れており、業界アプリケーションでの可能性を示しています。

論文リンク: http://arxiv.org/abs/2108.08202
GitHub アドレス: https://github.com/Neural-video-delivery/CaFM-Pytorch-ICCV2021

現在の単一画像超解像 (SISR) およびビデオ超解像 (VSR) 方式と比較して、コンテンツ認識型 DNN は、ニューラルネットワークとトレーニング戦略の過剰適合特性を活用して、より高いパフォーマンスを実現します。具体的には、まずビデオを複数のセグメントに分割し、各セグメントごとに個別の DNN をトレーニングします。低解像度のビデオセグメントと対応するモデルは、ネットワークを介してクライアントに送信されます。各ビデオセグメントのモデルとして、異なるバックボーンを使用できます。 WebRTC などの商用ビデオ伝送技術と比較して、この DNN ベースのビデオ伝送システムはより優れたパフォーマンスを実現します。

DNN をビデオ伝送に適用することは有望ですが、既存の方法にはまだいくつかの制限があります。主な制限は、ビデオセグメントごとに DNN をトレーニングする必要があり、長いビデオに対して多数の個別のモデルが必要になることです。これにより、実際のビデオ伝送システムに追加のストレージと帯域幅のコストが発生します。この論文では、研究者らはまず、異なるビデオセグメントのモデル間の関係を注意深く研究しました。これらのモデルはさまざまなビデオセグメントに過剰適合しますが、その特徴マップ間には線形関係があり、コンテンツ認識特徴変調 (CaFM) モジュールによってモデル化できることがわかります。これが研究者らが、モデルがほとんどのパラメータを共有し、各ビデオセグメントのプライベート CaFM レイヤーのみを保持できる方法を設計する動機となりました。ただし、プライベートパラメータを直接微調整しても、個別にトレーニングされたモデルと比較して競争力のあるパフォーマンスを実現することはできません。そこで研究者らは、すべてのビデオセグメントの共有パラメータとプライベートパラメータを同時にトレーニングする独創的な共同トレーニングフレームワークをさらに設計しました。この方法では、個別にトレーニングされた複数のモデルと比較して、比較的優れたパフォーマンスを実現できます。

この研究の主な貢献は次のとおりです。

ネットワーク間ビデオ伝送用のコンテンツ認識型特徴変調 (CaFM) モジュールの新しい共同トレーニングフレームワークを提案します。
さまざまな超解像度バックボーン、ビデオの長さ、スケーリング係数について広範な実験が行われ、提案されたアプローチの強さと汎用性が実証されています。
同じ帯域幅圧縮では、商用の H.264 および H.265 標準と比較すると、この方法はオーバーフィッティング特性により、より有望な結果を示します。

図1

方法

ニューラルネットワークビデオ伝送は、インターネットビデオを伝送するときに帯域幅を節約するために DNN を使用することです。従来のビデオ伝送システムとは異なり、高解像度のビデオを低解像度のビデオとコンテンツ認識モデルに置き換えます。上の図に示すように、全体のプロセスは 3 つの段階から構成されます。(i) サーバー上で各ビデオセグメントのモデルをトレーニングする。(ii) 低解像度のビデオセグメントをコンテンツ認識モデルとともにサーバーからクライアントに送信する。(iii) クライアント上で低解像度のビデオを超解像する。ただし、このプロセスでは、ビデオセグメントごとにモデルを送信する必要があり、追加の帯域幅コストが発生します。そこで本研究では、CaFMモジュールと共同トレーニングを組み合わせてモデルパラメータを元の1%に圧縮する圧縮法を提案した。

動機と結果

図2

この研究では、ビデオを n 個のセグメントに分割し、これらのビデオセグメントに応じて n 個の SR モデル S1、S2、... Sn をトレーニングします。次に、ランダムに選択された入力画像 (DIV2K) を使用して、S1、S2、... Sn モデル間の関係を分析します。この研究では、図 2 に 3 つの SR モデルの特徴マップを視覚化します。各画像はチャネルの特徴マップを表しています。簡潔にするために、この研究では SR モデルの 1 つのレイヤーのみを視覚化しました。具体的には、この研究では特徴マップを次のように表現しています。

ここで、i は i 番目のモデル、j は j 番目のチャネル、k は SR モデルの k 番目の畳み込み層を表します。ランダムに選択された画像については、次のように計算できる。

そして

それらの間のコサイン距離は、2 つの特徴マップセット間の類似性を測定するために使用されます。図2の特徴マップについて、この研究では

、

そして

間のコサイン距離行列。図3に示すように、研究者らは、S1、S2...Snが異なるビデオセグメントでトレーニングされたにもかかわらず、図3の行列の対角値によると、「対応するチャネル間のコサイン距離は非常に小さい」ことがわかることを観察しました。この研究では、S1、S2、S3 間のすべての層のコサイン距離の平均を計算し、結果はそれぞれ約 0.16 と 0.04 でした。これは、異なるSRモデルが異なるビデオセグメントでトレーニングされているにもかかわらず、

そして

間の関係は、線形関数によって近似的にモデル化できます。これは、本研究で CaFM モジュールを提案する動機でもあります。

図3

コンテンツ認識機能変調モジュール (CaFM)

この研究では、コンテンツ認識特徴変調 (CaFM) モジュールをベースラインモデル (EDSR) に導入して、各ビデオセグメントの SR モデルをプライベート化します。全体的なフレームワークを図 4 に示します。上記の動機で述べたように、CaFM の目的は、特徴マップを操作し、モデルをさまざまなビデオセグメントに適応させることです。したがって、異なるセグメントのモデルでもほとんどのパラメータを共有できます。この研究では、CaFM をチャネルごとの線形関数として表現します。

ここで、x_j は j 番目の入力特徴マップ、C は特徴チャネルの数、a_j と b_j はそれぞれチャネルごとのスケーリングとバイアスパラメータです。この研究では、ベースラインモデルの各畳み込み層の出力特徴を調整するために CaFM を追加します。 EDSR を例にとると、CaFM のパラメータは EDSR の約 0.6% を占めます。したがって、n セグメントのビデオの場合、モデルサイズを n 個の EDSR から 1 個の共有 EDSR と n 個のプライベート CaFM モジュールに削減できます。したがって、私たちの方法は、ベースライン方法と比較して、帯域幅とストレージのコストを大幅に削減できます。

図4

合同訓練

上で紹介したように、この研究ではCaFMを使用して各ビデオセグメントのSRモデルを置き換えることができます。しかし、1 つの SR モデル上で n 個の CaFM モジュールを微調整することによって n 個の SR モデルを直接トレーニングした場合の PSNR まで精度を向上させることは困難です。そのため、本研究では、n 個のビデオセグメントを同時にトレーニングできる共同トレーニングフレームワークを提案しました。式は次のように表すことができます。

SR写真用

i は i 番目のビデオセグメントを表し、s はビデオセグメント内の s 番目のサンプルを表します。式では、W_s は共有パラメータを表し、W_i は各ビデオセグメントのプライベートパラメータを表します。各ビデオセグメントの損失関数は次のように計算できます。

トレーニングプロセス中、この研究ではビデオセグメントから画像を均一にサンプリングしてトレーニングデータを構築しました。すべての画像は共有パラメータ W_s を更新するために使用され、i 番目のビデオセグメントの画像は対応する CaFM パラメータ W_i を更新するために使用されます。

VSD4Kデータセット

Vimeo-90K や REDS などの公開ビデオ超解像度データセットには、隣接するフレームシーケンス (多くの場合短すぎる) のみが含まれており、ビデオ伝送タスクには適していません。そのため、本研究では、実際のビデオ伝送シナリオをシミュレートするために複数の 4K ビデオを収集しました。この研究では、標準的なバイキュービック補間を使用して低解像度のビデオを生成しました。研究者は、VSD4K を構築するために、ゲーム、vlog、インタビュー、スポーツ、ダンス、都市風景など、6 つの人気のあるビデオカテゴリを選択しました。各カテゴリは、15 秒、30 秒、45 秒、1 分、2 分、5 分など、さまざまなビデオの長さで構成されています。 VSD4K データセットの詳細情報は、論文の付録に記載されています。VSD4K データセットは、github プロジェクトで公開されています。

定性分析と定量分析

主な実験の比較

上記の表から、さまざまなビデオと超解像度スケールにおいて、この方法 (当社) は n 個のモデル (S1-n) をトレーニングする精度に追いつくだけでなく、ピーク信号対雑音比の点でもそれを上回ることがはっきりとわかります。注: M0 は、長いビデオがセグメント化されておらず、ビデオ全体に対して 1 つのモデルのみがトレーニングされることを意味します。

VS コーデック

実験のこの部分では、提案された方法と従来のコーデック方法（圧縮のためにビットレートを下げる）を定量的に比較します。上記の表（赤は 1 位、青は 2 位）から、同じ転送サイズ（ストレージ）の場合、この方法（当社）はほとんどの場合 H264 および H265 を上回ることが明確にわかります。同時に、ビデオが長くなるほど、SR モデルが占める伝送サイズの割合が小さくなり、この方法の利点がより明らかになります。

定性的な比較

全体として、この論文では、ネットワークビデオ伝送の帯域幅の負荷を軽減することを目的として、超解像度アルゴリズムを革新的に使用してネットワークビデオ伝送タスクを定義しています。コンテンツ認識特徴変調 (CaFM) モジュールは、共同トレーニングと組み合わせて使用され、各ビデオセグメントに対応するモデルパラメーターを圧縮します (1%)。それは後続の研究者に新たな研究の方向性を提供します。

<<: 保険業界は人工知能をどのように活用しているのか

>>: 世界を変えるために活動する5つのAIスタートアップ