画像編集の分野がここ数年で飛躍的に成長したことは周知の事実です。しかし、ビデオ分野ではまだいくつかの欠点があります。最近、ビデオ編集の分野での研究結果が発表されました。まずは効果を見てみましょう。 江文がゴリラに変身… 美しい女性たちが漫画のキャラクターに変身... すごく素敵だと思いませんか?これはすべて次の研究から得られたものです。 リンク: https://arxiv.org/abs/2308.07926 画像処理における目覚ましい進歩は、大規模なデータセットでトレーニングできる生成モデルによるところが大きく、これにより画像タスクの品質と精度が大幅に向上します。しかし、ビデオコンテンツの処理に関連するタスクでは同様の進歩は見られません。ビデオタスクの課題の 1 つは、時間的な一貫性を維持する必要性が高いことですが、これはニューラル ネットワークの固有の確率性によって複雑になります。もう 1 つの課題は、ビデオ データセットの性質から生じます。ビデオ データセットは通常、画像データセットよりも品質が低く、より多くの計算リソースを必要とします。 その結果、ビデオベースのアルゴリズムの品質は、画像に重点を置いたアルゴリズムに比べて大幅に遅れをとっています。このギャップから、次のような疑問が生じます。ビデオを画像の形式で表現し、確立された画像アルゴリズムを高い時間的一貫性を備えたビデオ コンテンツにシームレスに適用することは可能でしょうか? この目標を達成するために、ディープラーニング時代の前には、研究者は動的ビデオからビデオモザイクを生成することを提案し、暗黙的なニューラル表現の出現後には、研究者はニューラル階層画像アトラスを活用することを提案しました。しかし、これらのアプローチには 2 つの大きな欠点があります。まず、これらの方法の表現能力は限られており、特にビデオの複雑な詳細を忠実に再現する場合には限界があります。多くの場合、再構成されたビデオでは、瞬きやわずかな笑顔などの微妙な動きの詳細が失われます。 2 番目の制限は、推定されたアトラスの典型的な歪んだ性質に関連しており、それによって意味情報が損なわれます。要約すると、既存の画像処理アルゴリズムは、予測結果に十分な自然さがないため、最適なパフォーマンスを発揮できません。 本論文では、2D ハッシュに基づく画像フィールドと 3D ハッシュに基づく時間変形フィールドを活用した新しいビデオ表現方法を提案します。時間的変化を表現するマルチ解像度ハッシュコーディングと組み合わせることで、一般的なビデオを再構築する能力が大幅に向上します。このアプローチは、水や煙などの複雑なエンティティの変形を追跡するのに役立ちます。しかし、変形場機能の強化は、自然な標準画像を推定する上で課題をもたらします。不自然な標準画像も完全に再構築して、対応する変形フィールドを推定できます。 この課題に対処するために、本論文ではトレーニング中にアニーリング ハッシュ アルゴリズムを使用することを提案します。まず、滑らかに変形するメッシュを使用してすべての剛体運動の粗い解を特定し、次に高周波の詳細を徐々に追加します。この粗から細へのトレーニングを通じて、表現結果は仕様の自然さと再構築の再現性の間のバランスを実現します。著者らは、以前の方法と比較して、再構成の品質が大幅に向上したことを確認した。改善後はPSNRが4.4ほど向上し、標準画像の自然さも目に見えて向上します。このアプローチの最適化プロセスでは、変形フィールドを使用して標準画像を推定するのに約 300 秒しかかかりませんが、以前の暗黙的な階層表現では 10 時間以上必要でした。 この論文では、変形フィールド アルゴリズムを基に、キュー誘導画像変換、超解像、セグメンテーションなどの画像処理タスクの進歩を、より動的なビデオ コンテンツの分野にまで広げています。標準画像を処理する場合、この記事ではプロンプトガイドによるビデオからビデオへの再構成方法を使用します。具体的には、使用されるネットワークは ControlNet であり、再構成されたコンテンツは学習された変形フィールドを介して送信されます。再構築プロセスは、すべてのフレームにまたがることなく、また時間のかかる推論モデル (拡散モデルなど) を使用せずに、単一の標準画像に対して実行されます。生成モデルに基づく sota ゼロショット ビデオ再構成と比較すると、再構成された出力は時間的一貫性とテクスチャ品質において大幅な改善を示しています。ニューラル階層ラベリングに依存する Text2Live と比較して、提案されたモデルはより複雑な動きの処理に優れており、より自然な標準画像を生成できるため、優れた再構築結果を実現できます。さらに、本論文では、超解像、セマンティックセグメンテーション、キーポイント検出などの画像アルゴリズムの適用を標準画像に拡張し、ビデオコンテキストでの実用的なアプリケーションを提供します。これには、ビデオの超解像度、ビデオ オブジェクトのセグメンテーション、ビデオ キーポイントの追跡などが含まれます。この記事の著者らが提案した表現アルゴリズムは、最初から最後まで優れた時間的一貫性を維持し、忠実度の高い合成フレームを生成することができ、ビデオ処理ツールとしての画期的な可能性を示しています。 方法の概要対応するビデオタスクに対して、フレーム {I1、I2、…、IN} で構成されるビデオ V が与えられた場合、画像処理アルゴリズム X を各フレームに個別に適用するだけで済みますが、フレーム間でコンテンツに矛盾が生じる可能性があり、これは望ましくありません。さらに、別の戦略として、アルゴリズム X を時間モジュールで強化することもできますが、これにはビデオ データの追加トレーニングが必要です。ただし、時間モジュールを単純に導入するだけでは理論的な一貫性を保証することはほとんどできず、トレーニング データが不十分なためにパフォーマンスが低下する可能性があります。 これに触発されて、本論文の著者らは、滑らかな標準画像 Ic と変形フィールド D を使用してビデオ V を表すことを提案します。 Icに画像アルゴリズムXを適用することで、学習した変形フィールドを使用して、ビデオ全体に効果を効果的に適用できます。この新しいビデオ表現は、画像アルゴリズムとビデオタスクの間の重要な架け橋となり、最先端の画像手法をビデオアプリケーションに直接改善することができます。 この論文で提案されている特性評価アルゴリズムには、次のような基本的な特性があります。
下の図 2 は、この論文で提案されたビデオ表現アルゴリズム CoDeF の図解です。このアルゴリズムは、任意のビデオを 2D コンテンツ指定フィールドと 3D 時間変形フィールドに分解します。各フィールドは、マルチ解像度の 2D または 3D ハッシュ テーブルを備えた効率的な MLP を使用して実装されます。この新しいタイプの表現アルゴリズムは、確立されたアルゴリズムを標準画像(つまり、標準コンテンツ フィールドからレンダリングされたもの)に直接適用し、その結果を時間軸に沿って時間的変形フィールドを通じて伝播させることにより、ビデオ処理タスク用の画像アルゴリズムを自然にサポートします。 実験再建の質 図に示すように、Neural Image Atlas との比較分析では、提案モデルは非剛体運動に対して優れた堅牢性を示し、微妙な運動 (瞬き、顔の質感など) をより高い精度で効果的に再構築できます。 ストリーミングビデオ処理 (a) ビデオからビデオへの再構成。定性的な比較には、(1) ControlNet などの画像変換モデルを使用したフレームごとの推論、(2) Text-to-live などの階層型ビデオ編集、(3) Tune-A-Video や FateZero などの拡散モデルに基づくビデオ変換という 3 つのカテゴリに分類されるいくつかのベースライン メソッドが含まれます。 図 4 に示すように、フレームごとの画像変換モデルでは、ちらつきが目立つ高忠実度のコンテンツを生成できます。他のベースラインの生成品質または時間的一貫性は比較的低いです。 この論文で提案されているパイプライン方式は、画像からビデオへのアップコンバートを効果的に実行し、時間的な一貫性を確保しながら、画像からビデオへの変換アルゴリズムに関連する高品質を維持します。 (b) ビデオキーポイントトラッキング。個々のフレームごとに変形フィールドを推定することで、図 5 に示すように、標準空間内の 1 つのフレーム内の特定のキーポイントの位置を照会し、すべてのフレームに存在する対応するポイントを識別することが可能になります。この記事では、プロジェクト ページのビデオで、非剛体オブジェクト (流体など) 内のポイントを追跡するデモを示します。 (c) ビデオオブジェクト追跡。標準画像にセグメンテーション アルゴリズムを使用すると、コンテンツ変形フィールドを活用して、すべてのビデオ シーケンスにわたるマスクの伝播を容易にすることができます。図 6 に示すように、提案されたパイプライン アルゴリズムは、すべてのフレームにわたって一貫性を保つマスクを巧みに生成します。 (d) ビデオ超解像アルゴリズム。画像超解像アルゴリズムを標準画像に直接適用することで、図 7 に示すように、ビデオを超解像して高品質のビデオを生成できます。変形が連続フィールドによって表現されると仮定すると、超解像を適用してもちらつきは発生しません。 (e)ユーザーによるインタラクティブなビデオ編集。この論文で提案された表現アルゴリズムにより、ユーザーは画像の他の部分に影響を与えることなく、独自のスタイルでオブジェクトを編集できるようになります。図 8 に示すように、ユーザーは標準画像のコンテンツを手動で調整して、自動編集アルゴリズムでは最適な結果が得られない領域を正確に編集できます。 アブレーション実験 本論文で提案したモジュールの効果を検証するために、著者らはアブレーション実験を行った。 3D ハッシュ コーディングの代わりに位置コーディングを使用すると、ビデオの再構成 PSNR は 3.1dB 大幅に低下します。アニーリング ハッシュを使用しない場合、図 9 に示すように、標準画像は自然な外観を失います。さらに、流れ情報の損失を考慮しないと、滑らかな領域は明らかにちらつきの影響を受けます。より詳細な比較については、プロジェクト ページのビデオをご覧ください。 |
<<: 単一の画像ガイド、主題を保持し、スタイルを変更する、VCTはそれを簡単に実現するのに役立ちます
>>: すべてを圧縮するだけです! OpenAIの主任科学者イリヤ・スツケバーが教師なし学習に注目
テクノロジーは建設業界にかつてないほど大きな影響を与えています。クラウドベースのコラボレーションやデ...
(レポート制作者/執筆者:国金証券、翟偉)レポートの概要産業チェーンと市場空間:中国の自動運転は現...
今年 1 月の Consumer Electronics Show は、今後数年間に自動車市場に参入...
人工知能はさまざまな課題に直面しており、IEEE の専門家は対応する解決策を提案しています。合成現実...
サイバーセキュリティは長期にわたる戦いです。 日々新たな脅威が出現し、最高情報セキュリティ責任者 (...
[[385322]]春節が過ぎ、広州のアパレル工場は「労働者の採用難」という問題に直面した。広州服装...
ロジスティック回帰は、前世紀以来人気の手法です。カテゴリ変数と 1 つ以上の独立変数間の関係を確立し...
[51CTO.comからのオリジナル記事] 現在、私たちの周りではデジタル変革が起こっています。デジ...
特に交通分野において、2021年は人工知能の発展が最も速く、需要が最も高まる年です。都市交通における...