動画超解像コンテストの優勝アルゴリズムがCVPR 2022に選出された。センスタイムと南洋理工大学が開発したアルゴリズムで、16の類似モデルを一気に打ち負かした。

動画超解像コンテストの優勝アルゴリズムがCVPR 2022に選出された。センスタイムと南洋理工大学が開発したアルゴリズムで、16の類似モデルを一気に打ち負かした。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

ぼやけた古い映画を高解像度にするにはどうすればいいですか?

AI の答えは超解像度アルゴリズムです。

現在、ビデオ超解像の分野では、強力なアルゴリズムが超解像コンテストNTIRE 2021で3回の優勝と1回の準優勝を獲得し、CVPR 2022にリストされました。

その名前はBasicVSR++で、ビデオ超解像 SOTA モデル BasicVSR をさらに改良したものです。

BasicVSRはNTIREチャンピオンシップでも優勝し、CVPR 2021に選出されました。

現在、この BasicVSR+++ は、基本的に同じ数のパラメータで前世代の製品を大幅に上回り、PSNR (ピーク信号対雑音比、画質評価指標) が 0.82dB 向上しているだけでなく、より多くのビデオ復元タスク ​​(圧縮ビデオの強化など) にも適用できます。

BasicVSRの強化版

BasicVSR は双方向伝播 + 特徴アライメントを使用して、入力ビデオ全体から超解像のための有効な情報を抽出します。

しかし、その基本設計では、特に複雑に遮蔽された領域を扱う場合に細かい詳細を復元するのが難しいなど、情報集約の有効性も制限されます。

そのため、BasicVSR++ の拡張バージョンでは、 2 次グリッド伝播を使用して、伝播と配置の点で再設計されました。  光学フロー誘導変形アライメント フローガイドによる変形可能なアライメントの設計は、ネットワーク内の情報集約能力を向上させ、閉塞領域の堅牢性と有効性を高めるために使用されます。

その中で、2 次グリッドは、異なる時間および空間位置から情報を前方および後方に伝播することを可能にし、特徴の伝播をより効率的にします。

オプティカルフローガイドによる変形可能なアライメントにより、フレームのより堅牢な特徴アライメントが可能になります。

このアライメント方法は、変形可能な畳み込みでは単純な変形アライメントのトレーニング効果が不安定であるため主に使用されます。   (DCN)  ネットワーク内の多様なオフセットにより、変形アライメントのパフォーマンスはオプティカルフローアライメントよりも向上します。

BasicVSR++ の具体的なアーキテクチャは次のとおりです。

入力ビデオが与えられると、まず残差モジュールを使用して各フレームから特徴を抽出します。次に、これらの特徴は 2 次ネットワークに伝播され、アライメント部分ではオプティカル フロー ガイドによる変形アライメントが使用されます。情報伝播が完了した後、特徴が集約されて出力画像が生成されます。

16の類似アルゴリズムの中でパフォーマンスが最高

著者らは、16 種類の異なるビデオ超解像度アルゴリズムのパフォーマンス、パラメータ数、および時間消費を比較しました。その結果、BasicVSR++ は、すべてのデータ セットで両方の劣化方法で最高のパフォーマンスを達成しました (赤は最高スコア、青は 2 番目に良いスコアを表します)。

特に、BasicVSR++ は、大容量スライディング ウィンドウ アルゴリズム EDSR と比較して、65% 少ないパラメータで 1.3dB のパフォーマンス向上を実現します。

従来の最先端の IconVSR と比較すると、BasicVSR++ はパラメータが少なく、パフォーマンスが 1dB 向上します。

BasicVSR++ (S) の軽量バージョンでは、前バージョンの BasicVSR と比べて 0.82dB の改善が見られ、これは大きなメリットです。

具体的な結果に関しては、REDS4、Vimeo-90K-T、Vid4 データセットのいずれであっても、BasicVSR++ は極めて詳細な画像を最良の効果で復元できます。

現在、BasicVSR++ のコードはオープンソース化されており、興味のある学生は試すことができます。

著者について

第一著者: 陳卓傑  (ケルビン・CK・チャン)  私は南洋理工大学コンピュータサイエンス工学部の博士課程3年生です。香港中文大学で学士号と修士号を取得しました。

彼の現在の研究分野は画像/ビデオの復元であり、合計 5 つのトップカンファレンス論文を発表しています。

責任著者は、指導教員のChen Change Loy氏であり、南洋理工大学コンピューターサイエンス学部の准教授であり、SenseTimeと南洋理工大学の共同研究室であるS-Labの副所長である。

彼らは BasicVSR のオリジナルの作成者でもあります。

BasicVSR++ の残りの 2 人の著者は、同校の博士課程 2 年生である Zhou Shangchen 氏と、同校の研究員である Xu Xiangyu 氏です。

論文アドレス: https://arxiv.org/abs/2104.13371

コード:

https://github.com/ckkelvinchan/RealBasicVSR

<<:  量産型マスターコントロールチップのネットワークセキュリティ設計

>>:  2つのセッションが始まります!自動運転とスマートカーに関する最新の提案13選

ブログ    

推薦する

2018 年の人工知能に関する 10 冊の良書のまとめ

いろいろ検索してみたところ、インターネット上にはまだ人工知能に関する本のリストがないので、自分で作っ...

PyTorch 1.12 がリリース、Apple M1 チップ GPU アクセラレーションを正式にサポート、多くのバグを修正

​PyTorch 1.12 が正式にリリースされました。まだアップデートしていない方は今すぐアップ...

産業用ロボットのプログラミングにはどの言語が使用されますか?

多くの友人から、産業用ロボットのプログラミングにはどの言語が使用されるのかと尋ねられました。今回は、...

4つの主要な応用分野が開拓され、外骨格ロボットのブルーオーシャンが出現している

現在、ロボット産業の急速な発展に伴い、ロボット製品システムはより完成度が高まり、その用途も多様化して...

99行のコードでアナと雪の女王の特殊効果の太極拳の進化を実現

コンピュータシミュレーション技術の継続的な発展のおかげで、ますますリアルな現実世界をコンピュータで再...

機械学習においてデータ品質はどの程度重要ですか?

今日、機械学習は組織の複数の事業部門にわたって重要な機能になりつつあります。機械学習プログラムはデー...

...

外国メディアエクスプレス: 初心者が習得すべき機械学習のコアアルゴリズムトップ10

[51CTO.com オリジナル記事] Foreign Media Express は、ヌカ・コー...

GPT-5 も 4.5 もなく、2 か月後の OpenAI の最初の開発者会議では何がリリースされるのでしょうか?

朗報です。開発者が待ち望んでいた GPT-5 がついに登場しました。本日、OpenAIは初の開発者会...

AI葬儀:ロボットに自分の葬儀を執り行ってもらう勇気はありますか?

スマートな葬儀は常に議論の的となっている話題です。現状では、スマート葬儀サービスの応用製品にはまだま...

ニューラル放射線フィールドは「神経」を取り除き、3D効果の品質を低下させることなくトレーニング速度を100倍以上向上させます。

2020年、カリフォルニア大学バークレー校、Google、カリフォルニア大学サンディエゴ校の研究者...

Web アプリケーション向けビジネス チャットボット 12 選

[[315528]] [51CTO.com クイック翻訳] ビジネスの発展を推進するために、AI(人...

...

AI医用画像の春が再び到来?

概要: AI医用画像診断市場は急速な成長期を迎えつつあり、医師の負担を軽減しながら医療の質の向上も期...