3D編集をPhotoshopと同じくらい簡単に。新しいアルゴリズムGaussianEditorは、3Dシーンの追加、削除、変更を数分で完了できます。

3D編集はゲームやバーチャルリアリティなどの分野で重要な役割を果たします。しかし、これまでの3D編集は、処理に時間がかかる、制御性が悪いなどの問題があり、実際のシナリオに適用することが困難でした。最近、南洋理工大学、清華大学、SenseTimeが共同で新しい3D編集アルゴリズム「GaussianEditor」を提案し、初めて2～7分で3Dシーンの制御可能かつ多様な編集を実現し、これまでのすべての3D編集作業を上回りました。

過去 3 年間、3D 編集の分野での研究は、主に NeRF (Neural Radiance Field) に重点が置かれてきました。これは、NeRF が 3D シーンモデリングを高い忠実度で完成できるだけでなく、その暗黙的な特性によってスケーラビリティも大幅に向上し、ポイントクラウドやメッシュなどの従来の方法に比べて大きな利点があるためです。ただし、NeRF はシーンデータをエンコードするために高次元の多層知覚ネットワーク (MLP) に依存しているため、一定の制限もあります。これにより、シーンの特定の部分を直接変更することが困難になり、画像の修復やシーンの構成などのタスクが複雑になります。この複雑さはトレーニングプロセスに影響を与えるだけでなく、実際のアプリケーションでの適用も制限します。

上記の問題を解決するために、GaussianEditor は異なるアプローチを採用し、3D 表現としてガウススプラッティングを選択しました。ガウススプラッティングは半年前に提案された新しいタイプの3D表現です。この表現は、3Dおよび4D再構成などの多くの3DタスクでNeRFを上回り、リリースされるやいなや3D分野で広く注目を集め、今年の3D分野における最大のブレークスルーの1つです。ガウススプラッティング表現には大きな期待と可能性があり、GaussianEditor は、この 3D 表現の完全な編集を実装した最初のエディタです。このプロジェクトはオープンソース化されており、簡単に学習して使用できる WebUI インターフェースを提供します。

論文アドレス: https://arxiv.org/abs/2311.14521
ホームページアドレス: https://buaacyw.github.io/gaussian-editor/

ガウススプラッティングには効率的なレンダリングアルゴリズムがありますが、表示表現としての編集にはかなりの課題があります。大きな問題は、正確で制御可能な編集に不可欠な、編集対象を正確に識別する効果的な方法がないことです。さらに、非常に確率的な生成ガイダンス（安定拡散などの生成拡散モデルなど）を使用してガウススプラッティング（GS）を最適化すると、大きな課題に直面することが示されています。これは、GS が損失の確率性に直接影響され、ニューラルネットワークによってバッファリングされた暗黙的な表現とは異なるためと考えられます。この直接的な露出により、不安定な更新が発生し、トレーニング中にガウス点の特性が直接変化します。さらに、GS の各トレーニングステップでは、ニューラルネットワークスタイルのバッファリングメカニズムを使用せずに、多数のガウスポイントを更新する場合があります。これらの問題により、GS の流動性が過度に高まり、トレーニング中の暗黙的な表現のような洗練された結果への収束が妨げられます。

上記の問題を解決するために、チームはまずガウスセマンティックトラッキングを導入し、ガウススプラッティング（GS）の正確な制御を実現しました。ガウスセマンティックトラッキングは、トレーニング中に編集が必要なガウスポイントを一貫して識別できます。これは、通常は静的な 2D または 3D マスクに依存する従来の 3D 編集方法とは異なります。トレーニング中に 3D モデルの形状と外観が変化すると、これらのマスクは徐々に効果がなくなります。ガウスセマンティックトラッキングは、2D セグメンテーションマスクを 3D ガウスポイントに投影し、各ガウスポイントにセマンティックラベルを割り当てることで、トレーニングプロセス全体にわたってトラッキングを実現します。トレーニング中にガウス点が変化すると、これらのセマンティックラベルによって特定のターゲットガウス点を追跡できるようになります。ガウスセマンティックトラッキングアルゴリズムにより、対象領域のみが変更され、正確で制御された編集が可能になります。

下の図の赤い領域が追跡対象領域です。セマンティック追跡領域は、その有効性を確保するためにトレーニングプロセス中に動的に更新されます。

さらに、ガウススプラッティング (GS) では、高度にランダムな生成ガイダンスの下では洗練された結果を達成するのが難しいという重大な課題に対処するために、GaussinEditor は新しい GS 表現である階層的ガウススプラッティング (HGS) を採用しています。 HGS では、ガウス点はトレーニング中に密度が高められる順序に従って、異なる世代に編成されます。以前の緻密化プロセス中に形成されたガウス点は古い世代と見なされ、元の状態を維持するという目的でより厳密に制約され、移動性が低下します。対照的に、後の段階で形成されたガウス点は若い世代と見なされ、適応度を向上させるための制約がほとんどないか、まったくありません。 HGS の設計では、新しい世代の柔軟性を維持しながら、古い世代に制限を課すことで、GS の移動性を効果的に規制します。このアプローチにより、暗黙的な表現でニューラルネットワークによって実装されたバッファリング機能をエミュレートし、より良い結果に向けて継続的に最適化できるようになります。

これに基づいて、GaussianEditor はガウススパッタリング表現の追加および削除アルゴリズムを提案します。オブジェクトの削除に関しては、チームはオブジェクトとシーンのインターフェースにあるアーティファクトを効果的に除去する特殊なローカル修復アルゴリズムを開発しました。ターゲットの追加に関しては、GaussianEditor は、ユーザーが提供するテキストプロンプトと 2D マスクに基づいて、指定されたターゲットを指定された領域に追加できます。 GaussianEditor はまず、2D 画像インペインティングアルゴリズムを使用して、追加するオブジェクトの単一ビュー画像を生成します。次に、画像は Image to 3D アルゴリズムを通じて 3D GS に変換されます。最後に、ターゲットがガウスシーンに組み込まれます。

比較実験では、GaussianEditor は、視覚的な品質、定量的な指標、制御性、生成速度の点で以前の研究を大幅に上回っています。

研究チームはまた、アブレーション実験を通じて、提案したガウス意味追跡と階層的ガウス表現の有効性を検証しました。

高度な 3D 編集アルゴリズムである GaussianEditor は、3D シーンの柔軟かつ高速な編集に重点を置いており、初めてガウススパッタリングの編集を実現します。

アルゴリズムの主な特徴は次のとおりです。

ガウスセマンティックトラッキング: トレーニング中に編集する必要があるガウスポイントを継続的に識別し、ターゲット領域のみが編集されるようにします。
階層的ガウススプラッティング (HGS) : これは、異なるトレーニング段階で形成されたガウス点間に階層構造を確立することで GS シナリオの流動性を効果的に管理し、暗黙的表現でニューラルネットワークのバッファリング機能をシミュレートする新しい GS 表現です。
3D シーンの追加および削除アルゴリズム: GaussianEditor は、GS 専用の 3D シーンの追加および削除アルゴリズムを開発しました。これにより、シーンから特定のオブジェクトを効率的に削除または追加できます。

<<: たった一枚の写真でTikTokガール全員が踊れる

>>: