あらゆるシーンのあらゆるもの: フォトリアリスティックなビデオオブジェクト挿入 論文リンク: https://arxiv.org/pdf/2401.17509.pdf コードリンク: https://github.com/AnythingInAnyScene/anything_in_anyscene 著者:小鵬モーターズ 論文のアイデアリアルなビデオ シミュレーションは、仮想現実から映画制作に至るまで、さまざまなアプリケーションで大きな可能性を示しています。特に、現実世界でビデオをキャプチャすることが非現実的またはコストがかかる状況ではそうです。ビデオ シミュレーションの既存の方法では、照明環境を正確にモデル化したり、オブジェクトの形状を表現したり、高いレベルのフォトリアリズムを実現したりすることができないことがよくあります。本稿では、物理的なリアリズムを重視しながら、既存の動的ビデオに任意のオブジェクトをシームレスに挿入できる、新しい汎用的なリアルなビデオ シミュレーション フレームワークである Anything in Any Sceneを提案します。この論文で提案されている全体的なフレームワークには、3 つの主要なプロセスが含まれています。1) 実際のオブジェクトを特定のシーンのビデオに統合し、適切な位置に配置し、幾何学的なリアリズムを確保する。2) 空と周囲の照明の分布を推定し、リアルな影をシミュレートして光のリアリズムを高める。3) スタイル転送ネットワークを採用して最終的なビデオ出力を改良し、フォトリアリズムを最大化する。この論文では、Anything in Any Scene フレームワークが、優れた幾何学的リアリズム、照明のリアリズム、および写真のリアリズムを備えたシミュレートされたビデオを生成できることを実験的に実証します。ビデオ データ生成に関連する課題を大幅に軽減することで、当社のフレームワークは、高品質のビデオを取得するための効率的でコスト効率の高いソリューションを提供します。さらに、そのアプリケーションはビデオデータ拡張の範囲をはるかに超えており、仮想現実、ビデオ編集、およびその他のさまざまなビデオ中心のアプリケーションで有望な可能性を示しています。 主な貢献この論文では、あらゆるオブジェクトをあらゆる動的シーン ビデオに統合できる、新しいスケーラブルな Anything in Any Scene ビデオ シミュレーション フレームワークを紹介します。 当社のフレームワークは、ビデオ シミュレーションにおける幾何学的リアリズム、照明のリアリズム、写真のリアリズムの維持に特に重点を置いており、高品質でリアルな出力を保証します。 私たちは、この分野でのアプリケーションの範囲と可能性を大幅に拡大する、リアルなビデオ シミュレーションを作成するフレームワークの能力を実証する広範な検証研究を紹介します。 紙のデザイン画像およびビデオのシミュレーションは、仮想現実から映画制作に至るまで、さまざまなアプリケーションで成功を収めています。リアルな画像やビデオのシミュレーションを通じて多様で高品質なビジュアル コンテンツを生成する能力は、これらの分野を発展させ、新たな可能性とアプリケーションをもたらす可能性があります。現実世界で撮影された画像や動画の信憑性は非常に貴重ですが、ロングテール分布によって制限されることがよくあります。これにより、一般的なシナリオが過剰に表現され、まれではあるが重大なケースが過少に表現されることになり、分布外問題と呼ばれる課題が生じます。ビデオの取得と編集を通じてこれらの制限に対処する従来のアプローチは、考えられるすべてのシナリオをカバーすることが困難であるため、非現実的またはコストがかかりすぎることが判明しています。これらの課題を克服するには、特に既存のビデオと新しく挿入されたオブジェクトを統合するビデオ シミュレーションの重要性が極めて重要になります。ビデオ シミュレーションは、大規模で多様かつリアルなビジュアル コンテンツを生成することで、仮想現実、ビデオ編集、ビデオ データ拡張のアプリケーションを強化するのに役立ちます。 しかし、物理的なリアリズムを考慮したリアルなシミュレーション ビデオを生成することは、依然として困難な未解決の問題です。既存の方法は、特定の設定、特に屋内環境に焦点を当てているため、限界があることが多い[9、26、45、46、57]。これらの方法では、変化する照明条件や高速で移動する物体など、屋外シーンの複雑さに十分に対応できない可能性があります。 3Dモデルの登録に依存する方法は、限られたクラスのオブジェクトを統合することに限定されています[12、32、40、42]。多くの手法では、照明環境のモデリング、オブジェクトの正しい配置、リアリズムの実現などの重要な要素が無視されています[12、36]。失敗したケースを図 1 に示します。したがって、これらの制限により、自動運転やロボット工学など、高度にスケーラブルで、幾何学的に一貫性があり、リアルなシーンのビデオ シミュレーションを必要とする分野でのアプリケーションが大幅に制限されます。 本稿では、これらの課題に対処するために、リアルなビデオ オブジェクト挿入を実現する包括的なフレームワーク「Anything in Any Scene」を提案します。このフレームワークは、屋内と屋外の両方のシーンに普遍的かつ適用できるように設計されており、幾何学的リアリズム、照明のリアリズム、写真のリアリズムの点で物理的な正確性を保証します。この論文の目的は、機械学習における視覚データ拡張に役立つだけでなく、仮想現実やビデオ編集などのさまざまなビデオアプリケーションにも適したビデオシミュレーションを作成することです。 Anything in Any Scene フレームワークの概要を図 2 に示します。この論文の第 3 章では、シーン ビデオとオブジェクト メッシュの多様なアセット ライブラリを構築するための、新しくスケーラブルなパイプラインについて詳しく説明します。この論文では、説明的なキーワードを使用して視覚的なクエリから関連するビデオ クリップを効率的に検索することを目的とした視覚データ クエリ エンジンを紹介します。次に、本論文では、既存の 3D アセットとマルチビュー画像再構成を使用して 3D メッシュを生成する 2 つの方法を提案します。これにより、非常に不規則であったり意味的に弱い場合でも、任意のオブジェクトを制限なく挿入できるようになります。セクション 4 では、物理的なリアリティを維持することに重点を置きながら、動的なシーンのビデオにオブジェクトを統合するアプローチについて詳しく説明します。挿入されたオブジェクトが連続するビデオ フレームに安定して固定されるように、セクション 4.1 で説明したオブジェクトの配置と安定化の方法を設計します。リアルな照明と影の効果を作成するという課題に対処するために、セクション 4.2 で説明されているように、レンダリング プロセス中に空と周囲の照明を推定し、リアルな影を生成します。生成されたシミュレートされたビデオ フレームには、ノイズ レベル、色の忠実度、鮮明度などの画像品質の違いなど、実際にキャプチャされたビデオとは異なる非現実的なアーティファクトが必然的に含まれます。セクション 4.3 では、スタイル転送ネットワークを使用して写真のリアリズムを高めます。 提案されたフレームワークから生成されたシミュレートされたビデオは、高度な照明のリアリティ、幾何学的なリアリティ、および写真のリアリティを実現し、セクション 5.3 に示すように、質的にも量的にも他のビデオを上回っています。本論文ではさらに、セクション 5.4 で、シミュレーション ビデオを認識アルゴリズムのトレーニングに適用して、その実用的な価値を検証します。 Anything in Any Scene フレームワークを使用すると、時間効率とリアルな視覚品質を備えたデータ拡張用の大規模で低コストのビデオ データセットを作成できるため、ビデオ データ生成の負担が軽減され、ロングテールや配布外の課題が改善される可能性があります。 Anything in Any Scene フレームワークは、一般的なフレームワーク設計により、改良されたモデルや、改良された 3D メッシュ再構築方法などの新しいモジュールを簡単に統合して、ビデオ シミュレーションのパフォーマンスをさらに向上させることができます。 図 1. 照明環境の推定が不正確、オブジェクトの配置が不正確、テクスチャ スタイルが非現実的で、画像の物理的なリアリティが欠けているシミュレートされたビデオ フレームの例。図 2. リアルなビデオ オブジェクト挿入のための Anything in Any Scene フレームワークの概要。図 3. オブジェクト配置のための運転シーン ビデオの例。各画像の赤い点は、オブジェクトが挿入された場所です。 実験結果図4. 元の空の画像、再構成されたHDR画像、およびそれに関連する太陽光照射分布図の例 図5. 環境のオリジナルおよび再構成されたHDRパノラマ画像の例 図6. 挿入されたオブジェクトの影を生成する例 図 7. 異なるスタイル転送ネットワークを使用した PandaSet データセットからのシミュレートされたビデオ フレームの定性的比較。 図 8. さまざまなレンダリング条件下での PandaSet データセットからのシミュレートされたビデオ フレームの定性的比較。 要約:本稿では、リアルなビデオシミュレーション用に設計された革新的で拡張可能なフレームワーク「Anything in Any Scene」を提案します。本論文で提案されたフレームワークは、さまざまなオブジェクトをさまざまな動的ビデオにシームレスに統合し、幾何学的リアリズム、照明リアリズム、および写真リアリズムの維持を保証します。この論文では、広範なデモンストレーションを通じて、ビデオ データの収集と生成に関連する課題を軽減する有効性を示し、さまざまなシナリオに適用できるコスト効率が高く、時間を節約できるソリューションを提供します。私たちのフレームワークを適用すると、下流の認識タスク、特に物体検出におけるロングテール分布問題の解決において、大幅な改善が見られます。当社のフレームワークの柔軟性により、各モジュールの改善されたモデルを簡単に統合することができ、リアルなビデオ シミュレーションの分野における将来の探求と革新のための強固な基盤が築かれます。 引用:Bai C、Shao Z、Zhang G、他「あらゆるシーンのあらゆるもの:フォトリアリスティックなビデオオブジェクトの挿入[J]」arXivプレプリントarXiv:2401.17509、2024。 |
最新の MLPerf トレーニング ベンチマークでは、H100 GPU が 8 つのテストすべてで新...
自動化システムでは、ディープラーニングとコンピュータービジョンが広く普及し、あらゆる場所で利用されて...
Microsoft が Office Copilot を正式に発表した際にネット全体に衝撃を与えたシ...
[[280183]] [51CTO.com クイック翻訳] 人工知能(AI)は日々驚異的なスピードで...
1956 年、若い数学助教授ジョン・マッカーシーが率いる科学者グループがニューハンプシャー州のダー...
今日では、コンピュータ技術は人々の生活のあらゆる側面に浸透しており、仕事や勉強に大いに役立つものとい...
ビッグデータダイジェスト制作編集者: JIN、Hope、Jiang Baoshangタイトル画像のパ...
検索エンジン大手のGoogleは7月4日、プライバシーポリシーを更新し、インターネット上の公開情報を...
世界のエネルギーシステムは、再生可能エネルギーの発電、電気自動車、エネルギー IoT (EIoT) ...
ソフトロボット分野の研究者は、人間にとってより安全に操作できる新世代の機械を生み出すことを望んでおり...
[[346995]]さまざまな資料を読んでいくうちに、ニューラルネットワークの歴史に深く魅了されるよ...