過去数年間でインターネットビデオは爆発的な成長を遂げており、ビデオ伝送インフラストラクチャに大きな負担がかかっています。ネットワークビデオ伝送システムの品質は、ネットワーク帯域幅に大きく依存します。クライアント/サーバーの計算能力の向上とディープラーニングの最近の進歩に触発されて、ビデオ伝送システムにディープニューラルネットワーク (DNN) を適用してビデオ伝送の品質を向上させることが提案されています。これらの DNN 方式は、ビデオ全体を複数のビデオ セグメントに均等に分割し、低解像度のビデオ セグメントとそれに対応するコンテキスト認識モデルをクライアントに送信します。クライアントは、これらのトレーニング済みモデルを使用して、対応する低解像度のビデオ セグメントを推測します。このようにして、限られたインターネット帯域幅でも、より優れたユーザーエクスペリエンス (QoE) を実現できます。その中で、長い動画を送信する場合には、複数の超解像モデルを同時に送信する必要があります。 最近、北京郵電大学とインテル中国研究所の研究者らは、まず異なるビデオセグメントに対応する異なるモデル間の関係を調査し、次にコンテンツ認識特徴変調(CaFM)モジュールを導入してビデオ伝送の伝送に必要なモデルサイズを圧縮する共同トレーニングフレームワークを設計しました。この研究で使用した方法では、各ビデオセグメントに対して元のモデルパラメータの 1% のみを送信するだけで済み、より優れた超解像効果も実現します。この研究では、さまざまな超解像度バックボーン、ビデオの長さ、超解像度のスケーリング係数でこの方法の利点と汎用性を実証するために、多数の実験を実施しました。さらに、この方法は、新しいビデオエンコードおよびデコード方法とも言えます。同じ帯域幅の圧縮では、この方法のパフォーマンス (PSNR) は商用の H.264 および H.265 よりも優れており、業界アプリケーションでの可能性を示しています。
現在の単一画像超解像 (SISR) およびビデオ超解像 (VSR) 方式と比較して、コンテンツ認識型 DNN は、ニューラル ネットワークとトレーニング戦略の過剰適合特性を活用して、より高いパフォーマンスを実現します。具体的には、まずビデオを複数のセグメントに分割し、各セグメントごとに個別の DNN をトレーニングします。低解像度のビデオ セグメントと対応するモデルは、ネットワークを介してクライアントに送信されます。各ビデオ セグメントのモデルとして、異なるバックボーンを使用できます。 WebRTC などの商用ビデオ伝送技術と比較して、この DNN ベースのビデオ伝送システムはより優れたパフォーマンスを実現します。 DNN をビデオ伝送に適用することは有望ですが、既存の方法にはまだいくつかの制限があります。主な制限は、ビデオセグメントごとに DNN をトレーニングする必要があり、長いビデオに対して多数の個別のモデルが必要になることです。これにより、実際のビデオ伝送システムに追加のストレージと帯域幅のコストが発生します。この論文では、研究者らはまず、異なるビデオセグメントのモデル間の関係を注意深く研究しました。これらのモデルはさまざまなビデオ セグメントに過剰適合しますが、その特徴マップ間には線形関係があり、コンテンツ認識特徴変調 (CaFM) モジュールによってモデル化できることがわかります。これが研究者らが、モデルがほとんどのパラメータを共有し、各ビデオセグメントのプライベート CaFM レイヤーのみを保持できる方法を設計する動機となりました。ただし、プライベート パラメータを直接微調整しても、個別にトレーニングされたモデルと比較して競争力のあるパフォーマンスを実現することはできません。そこで研究者らは、すべてのビデオセグメントの共有パラメータとプライベートパラメータを同時にトレーニングする独創的な共同トレーニングフレームワークをさらに設計しました。この方法では、個別にトレーニングされた複数のモデルと比較して、比較的優れたパフォーマンスを実現できます。 この研究の主な貢献は次のとおりです。
図1 方法 ニューラル ネットワーク ビデオ伝送は、インターネット ビデオを伝送するときに帯域幅を節約するために DNN を使用することです。従来のビデオ伝送システムとは異なり、高解像度のビデオを低解像度のビデオとコンテンツ認識モデルに置き換えます。上の図に示すように、全体のプロセスは 3 つの段階から構成されます。(i) サーバー上で各ビデオ セグメントのモデルをトレーニングする。(ii) 低解像度のビデオ セグメントをコンテンツ認識モデルとともにサーバーからクライアントに送信する。(iii) クライアント上で低解像度のビデオを超解像する。ただし、このプロセスでは、ビデオ セグメントごとにモデルを送信する必要があり、追加の帯域幅コストが発生します。そこで本研究では、CaFMモジュールと共同トレーニングを組み合わせてモデルパラメータを元の1%に圧縮する圧縮法を提案した。 動機と結果 図2 この研究では、ビデオを n 個のセグメントに分割し、これらのビデオ セグメントに応じて n 個の SR モデル S1、S2、... Sn をトレーニングします。次に、ランダムに選択された入力画像 (DIV2K) を使用して、S1、S2、... Sn モデル間の関係を分析します。この研究では、図 2 に 3 つの SR モデルの特徴マップを視覚化します。各画像はチャネルの特徴マップを表しています。簡潔にするために、この研究では SR モデルの 1 つのレイヤーのみを視覚化しました。具体的には、この研究では特徴マップを次のように表現しています。 ここで、i は i 番目のモデル、j は j 番目のチャネル、k は SR モデルの k 番目の畳み込み層を表します。ランダムに選択された画像については、次のように計算できる。 そして それらの間のコサイン距離は、2 つの特徴マップ セット間の類似性を測定するために使用されます。図2の特徴マップについて、この研究では 、 そして 間のコサイン距離行列。図3に示すように、研究者らは、S1、S2...Snが異なるビデオセグメントでトレーニングされたにもかかわらず、図3の行列の対角値によると、「対応するチャネル間のコサイン距離は非常に小さい」ことがわかることを観察しました。この研究では、S1、S2、S3 間のすべての層のコサイン距離の平均を計算し、結果はそれぞれ約 0.16 と 0.04 でした。これは、異なるSRモデルが異なるビデオセグメントでトレーニングされているにもかかわらず、 そして 間の関係は、線形関数によって近似的にモデル化できます。これは、本研究で CaFM モジュールを提案する動機でもあります。 図3 コンテンツ認識機能変調モジュール (CaFM) この研究では、コンテンツ認識特徴変調 (CaFM) モジュールをベースライン モデル (EDSR) に導入して、各ビデオ セグメントの SR モデルをプライベート化します。全体的なフレームワークを図 4 に示します。上記の動機で述べたように、CaFM の目的は、特徴マップを操作し、モデルをさまざまなビデオ セグメントに適応させることです。したがって、異なるセグメントのモデルでもほとんどのパラメータを共有できます。この研究では、CaFM をチャネルごとの線形関数として表現します。 ここで、x_j は j 番目の入力特徴マップ、C は特徴チャネルの数、a_j と b_j はそれぞれチャネルごとのスケーリングとバイアス パラメータです。この研究では、ベースライン モデルの各畳み込み層の出力特徴を調整するために CaFM を追加します。 EDSR を例にとると、CaFM のパラメータは EDSR の約 0.6% を占めます。したがって、n セグメントのビデオの場合、モデル サイズを n 個の EDSR から 1 個の共有 EDSR と n 個のプライベート CaFM モジュールに削減できます。したがって、私たちの方法は、ベースライン方法と比較して、帯域幅とストレージのコストを大幅に削減できます。 図4 合同訓練 上で紹介したように、この研究ではCaFMを使用して各ビデオセグメントのSRモデルを置き換えることができます。しかし、1 つの SR モデル上で n 個の CaFM モジュールを微調整することによって n 個の SR モデルを直接トレーニングした場合の PSNR まで精度を向上させることは困難です。そのため、本研究では、n 個のビデオセグメントを同時にトレーニングできる共同トレーニング フレームワークを提案しました。式は次のように表すことができます。 SR写真用 i は i 番目のビデオ セグメントを表し、s はビデオ セグメント内の s 番目のサンプルを表します。式では、W_s は共有パラメータを表し、W_i は各ビデオ セグメントのプライベート パラメータを表します。各ビデオセグメントの損失関数は次のように計算できます。 トレーニングプロセス中、この研究ではビデオセグメントから画像を均一にサンプリングしてトレーニングデータを構築しました。すべての画像は共有パラメータ W_s を更新するために使用され、i 番目のビデオ セグメントの画像は対応する CaFM パラメータ W_i を更新するために使用されます。 VSD4Kデータセット Vimeo-90K や REDS などの公開ビデオ超解像度データセットには、隣接するフレーム シーケンス (多くの場合短すぎる) のみが含まれており、ビデオ伝送タスクには適していません。そのため、本研究では、実際のビデオ伝送シナリオをシミュレートするために複数の 4K ビデオを収集しました。この研究では、標準的なバイキュービック補間を使用して低解像度のビデオを生成しました。研究者は、VSD4K を構築するために、ゲーム、vlog、インタビュー、スポーツ、ダンス、都市風景など、6 つの人気のあるビデオ カテゴリを選択しました。各カテゴリは、15 秒、30 秒、45 秒、1 分、2 分、5 分など、さまざまなビデオの長さで構成されています。 VSD4K データセットの詳細情報は、論文の付録に記載されています。VSD4K データセットは、github プロジェクトで公開されています。 定性分析と定量分析 主な実験の比較 上記の表から、さまざまなビデオと超解像度スケールにおいて、この方法 (当社) は n 個のモデル (S1-n) をトレーニングする精度に追いつくだけでなく、ピーク信号対雑音比の点でもそれを上回ることがはっきりとわかります。注: M0 は、長いビデオがセグメント化されておらず、ビデオ全体に対して 1 つのモデルのみがトレーニングされることを意味します。 VS コーデック 実験のこの部分では、提案された方法と従来のコーデック方法(圧縮のためにビット レートを下げる)を定量的に比較します。上記の表(赤は 1 位、青は 2 位)から、同じ転送サイズ(ストレージ)の場合、この方法(当社)はほとんどの場合 H264 および H265 を上回ることが明確にわかります。同時に、ビデオが長くなるほど、SR モデルが占める伝送サイズの割合が小さくなり、この方法の利点がより明らかになります。 定性的な比較 全体として、この論文では、ネットワーク ビデオ伝送の帯域幅の負荷を軽減することを目的として、超解像度アルゴリズムを革新的に使用してネットワーク ビデオ伝送タスクを定義しています。コンテンツ認識特徴変調 (CaFM) モジュールは、共同トレーニングと組み合わせて使用され、各ビデオ セグメントに対応するモデル パラメーターを圧縮します (1%)。それは後続の研究者に新たな研究の方向性を提供します。 |
名前にちなんでFacebookとしても知られるMateは、顔認識システムを無効化し、10億人以上の個...
人間が日常のコミュニケーションで話す自然言語の指示を使用して、ロボットアームにタスクを実行するよう指...
Salesforce が実施した調査では、生成 AI の使用に関する明確なポリシーが存在しない状況で...
AI とメタバースのつながりは、新たなデジタルのフロンティアを開拓しています… Metaverse ...
調査会社IDCが最近発表した「世界の人工知能支出ガイド」によると、世界の人工知能予算は今後4年間で倍...
テクノロジーが進歩を左右するこの急速に変化する時代において、製造業界は大きな変化を遂げています。この...
写真を撮り、テキストコマンドを入力すると、携帯電話が自動的に写真の編集を開始しますか?この魔法のよう...
最近、国内で人気の「チキン早食い」ゲームに「顔認識システム」が導入され、大きな論争を巻き起こした。多...
[51CTO.com からのオリジナル記事] ロボット製造は現在、知能ロボットの時代である 2.0 ...
2021年AIインデックスレポートは、スタンフォード大学の人間中心AI研究所と、ハーバード大学、経済...
1. 自動運転システムレベルテストの基本理論1.1 自動運転テストシナリオの構成1.1.1 フレーム...
ハルビンで開催された2019年中国科学技術協会年次大会において、情報技術分野のハイエンドシンクタンク...