AI: いつも HD ビデオが欲しいなら、ここにあります

AI: いつも HD ビデオが欲しいなら、ここにあります

Magnific の画像超解像度および強化ツールはまだテスト中ですが、その強力な画像アップスケーリングおよび再作成機能は満場一致で賞賛されています。今、ビデオの世界には独自の Magnific が存在します。

路上のビデオはぼやけていて、まるでその人物が極度の近視で眼鏡をかけていないかのようだった。

それに比べて、次のビデオははるかに鮮明です。

ビデオの両側には大きなコントラストがあります。左のビデオはぼやけていて人物の顔がはっきりと見えませんが、右のビデオでは建物の質感がはっきりと見えます。

走行中の車は、ぼやけた世界から高解像度の世界へと移動しているように見えます。

さまざまな方法を比較すると、右下隅のビデオの方が細かい詳細をより鮮明に復元していることは明らかです。


上記のデモンストレーションから、ビデオ超解像度 (VSR) は、ぼやけた古い映画に新しい高解像度の外観を与えるものであることがわかります。たとえば、上に示した道路監視ビデオでは、画質が非常に低いため、細部が塗りつぶされているように見えます。ここで VSR テクノロジーが役立ち、低解像度のビデオをより鮮明にすることができます。


しかし、そのプロセスは簡単ではありません。多くの場合、カメラの揺れや撮影対象物の動きにより、ビデオは風に吹かれた湖面のように波紋やぼやけを伴って表示されます。現時点では、ビデオの鮮明さを向上させる必要があるだけでなく、これらのぼやけた干渉に「対処」する必要もあります。これには、ビデオの超解像度とぼかし除去のジョイント復元 (VSRDB) が必要であり、最終的なビデオが鮮明かつ滑らかになるように、ぼかしを処理しながらビデオの鮮明さを維持する必要があります。


上記の効果を実現するために、韓国科学技術院(KAIST)と中央大学の研究者が FMA-Net フレームワークを提案しました。このフレームワークは、フローガイド付き動的フィルタリング (FGDF) とマルチアテンションによる反復的特徴改良 (FRMA) に基づいており、優れた共同回復パフォーマンスを備えた小規模から大規模のモーション表現学習を実現することを目指しています (図 1 を参照)。 FGDF の鍵となるのは、固定位置に固執するのではなく、動きの軌跡に注意してフィルタリングを実行することです。これにより、より大きな動きを小さなカーネルで効率的に処理できます。


  • 論文アドレス: https://arxiv.org/abs/2401.03707
  • プロジェクトのホームページ: http://kaist-viclab.github.io/fmanet-site/
  • 論文タイトル: FMA-Net: フローガイドによる動的フィルタリングと、マルチアテンションによる反復的な特徴改良によるビデオ超解像とぼかし除去の統合

方法の紹介

この研究の目的は、ビデオの超解像とぼかし除去 (VSRDB) を同時に実現することです。ぼやけたLR(低解像度)入力シーケンスの場合、T = 2N + 1、cはそれぞれ入力フレームの数と中心フレームのインデックスを表します。 VSRDB の目標は、明確な HR (高解像度) 中心フレームを予測することです。次の図は、VSRDB フレームワーク FMA-Net を示しています。

FMA-Net は、劣化学習ネットワーク Net^D と修復ネットワーク Net^R の 2 つの部分で構成されています。劣化学習ネットワークは、知覚された動きの時間的および空間的変化の劣化カーネルを推定するために使用されます。インペインティング ネットワークは、これらの予測された劣化カーネルを使用して、ぼやけた低解像度のビデオを復元します。

このうち、劣化学習ネットワーク Net^D は動きを考慮した時空間劣化を予測するために使用され、Net^R は Net^D によって予測された劣化を使用して、グローバル適応型の方法で中心フレーム X_c を復元します。

Net^D と Net^R は、FRMA (マルチアテンションによる特徴改良) ブロックと FGDF (フローガイドによる動的フィルタリング) ブロックで構成される類似の構造を持っています。

下の図4(a)は(i+1)番目の更新ステップ中のFRMAブロックの構造を示しており、図4(b)はマルチアテンション構造を示しています。

下の図 2 は FGDF の概念を示しています。 FGDF は Deformable Convolution (DCN) に似ていますが、違いは、FGDF が位置に依存する n×n 動的フィルター係数を学習するのに対し、DCN は位置に依存しない n×n フィルター係数を学習することです。

さらに、中心指向の注意や劣化を考慮した注意など、新たに提案されたマルチアテンションメカニズムにより、FMA-Net はターゲットフレームに焦点を合わせ、劣化カーネルを使用してグローバルに適応した方法でビデオの超解像とぼかし除去を行うことができます。

トレーニング戦略

この研究では、FMA-Net をトレーニングするために 2 段階のトレーニング戦略を採用しました。まず、Net^D は事前トレーニングされており、損失 L_D は次のようになります。

次に、パフォーマンスを向上させるために、この論文では、式の右側の最後の項である TA 損失も提案しています。

トレーニングによる総損失は次のとおりです。

実験結果

表1はテストセットREDS4における定量的な比較結果を示しています。表 1 から次のことがわかります。

  • SR とぼかし除去をカスケードする順次アプローチでは、前のモデルのエラー伝播が発生し、パフォーマンスが大幅に低下します。また、2 つのモデルを使用すると、メモリと実行時のコストも増加します。
  • シーケンスカスケード方式と比較して、VSRDB 方式は一貫して全体的なパフォーマンスが優れていることが示されており、2 つのタスクが高度に関連していることを示しています。
  • FMA-Net は、PSNR、SSIM、tOF の点ですべての SOTA 方式を大幅に上回っています。具体的には、FMA-Net は SOTA アルゴリズム RVRT* および BasicVSR++* をそれぞれ 1.03 dB および 1.77 dB 上回っています。

表2に定量的な比較結果を示します。 2 つのテスト セットを平均すると、FMA-Net は RVRT* および GShiftNet* をそれぞれ 2.08 dB および 1.93 dB 上回ります。

下の図は、×4 VSRDB でのさまざまな方法の視覚的な比較結果を示しています。FMA-Net によって生成された画像は、他の方法で生成された画像よりも視覚的に鮮明であることがわかります。

REDS4、GoPro、YouTube テスト セットでのさまざまな方法の視覚化結果。拡大するとよく表示されます。

より技術的な詳細については、元の記事をお読みください。

<<: 

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

ガートナー: 生成型 AI がデジタル ビジネスを強化する 3 つの方法

生成型人工知能 (GenAI) は、コンテンツ生成や会話型ユーザー インターフェイスに破壊的な影響を...

WOT2019 検索推奨アルゴリズムフォーラム: さまざまな分野における AI ベースの検索推奨の実用化

6月21日、WOT2019グローバルテクノロジーサミットとグローバル人工知能テクノロジーサミットが北...

自動運転ユニコーンは詐欺的すぎて、ルカン氏でさえ確信している

これは普通の自動運転ビデオだと思いますか?写真いいえ、いいえ、いいえ...これは実際には AI によ...

人工知能技術の発展の概要

[[352219]]人工知能は、コンピュータサイエンス業界のトップテクノロジーの一つとして、1956...

...

TSMCは降伏を​​余儀なくされた!すべての機密データは11月8日までに提出されます

TSMCはついにアメリカの圧力に耐えられず降伏した。実際のところ、棒はまだ本当に下ろされておらず、数...

ポストエピデミック時代:医療業界で成功するには?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

人工知能は実体経済の強化を加速させる

[[258853]]人工知能は今年の全国人民代表大会で注目の話題の一つとなった。多くの代表者や議員は...

ロボティック・プロセス・オートメーションは小売業界の運営と成長にどのように役立ちますか?

利益率が圧迫されている中、ロボティック・プロセス・オートメーション (RPA) を導入することでコス...

パナソニック、カナダ事業所への標的型サイバー攻撃を確認

「当社はサイバーセキュリティの専門家とサービスプロバイダーの協力を得て、問題解決に向けて直ちに行動を...

過度な「遊び」が子どもたちのプライバシーを侵害し、自尊心を傷つける恐れがあるとして、人工知能がキャンパスに導入される

最近、香港で株式公開を準備しているAI大手のMegvii Technologyが論争を巻き起こしてい...

「自然言語処理」とは何ですか? 具体的に何を「処理」するのですか?

[51CTO.com からのオリジナル記事] 「自然言語処理」(NLP) は、近年テクノロジー コ...

単一の GPU のみを使用して 7B モデルを微調整します。ユニバーサルマルチモーダルツール LLaMA-Adapter は閾値を取り除き、その効果は驚くべきものです

LLaMA アダプタが完全にロック解除されました。一般的なマルチモーダル ベース モデルとして、画像...

5G、AI、IoTが「インテリジェントな接続」を実現する方法

5G、人工知能(AI)、モノのインターネット(IoT)技術の発展により、あらゆるものがインテリジェン...