3D編集をPhotoshopと同じくらい簡単に。新しいアルゴリズムGaussianEditorは、3Dシーンの追加、削除、変更を数分で完了できます。

3D編集をPhotoshopと同じくらい簡単に。新しいアルゴリズムGaussianEditorは、3Dシーンの追加、削除、変更を数分で完了できます。

3D編集はゲームやバーチャルリアリティなどの分野で重要な役割を果たします。しかし、これまでの3D編集は、処理に時間がかかる、制御性が悪いなどの問題があり、実際のシナリオに適用することが困難でした。最近、南洋理工大学、清華大学、SenseTimeが共同で新しい3D編集アルゴリズム「GaussianEditor」を提案し、初めて2~7分で3Dシーンの制御可能かつ多様な編集を実現し、これまでのすべての3D編集作業を上回りました。

過去 3 年間、3D 編集の分野での研究は、主に NeRF (Neural Radiance Field) に重点が置かれてきました。これは、NeRF が 3D シーン モデリングを高い忠実度で完成できるだけでなく、その暗黙的な特性によってスケーラビリティも大幅に向上し、ポイント クラウドやメッシュなどの従来の方法に比べて大きな利点があるためです。ただし、NeRF はシーン データをエンコードするために高次元の多層知覚ネットワーク (MLP) に依存しているため、一定の制限もあります。これにより、シーンの特定の部分を直接変更することが困難になり、画像の修復やシーンの構成などのタスクが複雑になります。この複雑さはトレーニング プロセスに影響を与えるだけでなく、実際のアプリケーションでの適用も制限します。

上記の問題を解決するために、GaussianEditor は異なるアプローチを採用し、3D 表現としてガウス スプラッティングを選択しました。ガウススプラッティングは半年前に提案された新しいタイプの3D表現です。この表現は、3Dおよび4D再構成などの多くの3DタスクでNeRFを上回り、リリースされるやいなや3D分野で広く注目を集め、今年の3D分野における最大のブレークスルーの1つです。ガウス スプラッティング表現には大きな期待と可能性があり、GaussianEditor は、この 3D 表現の完全な編集を実装した最初のエディタです。このプロジェクトはオープンソース化されており、簡単に学習して使用できる WebUI インターフェースを提供します。

  • 論文アドレス: https://arxiv.org/abs/2311.14521
  • ホームページアドレス: https://buaacyw.github.io/gaussian-editor/

ガウススプラッティングには効率的なレンダリング アルゴリズムがありますが、表示表現としての編集にはかなりの課題があります。大きな問題は、正確で制御可能な編集に不可欠な、編集対象を正確に識別する効果的な方法がないことです。さらに、非常に確率的な生成ガイダンス(安定拡散などの生成拡散モデルなど)を使用してガウススプラッティング(GS)を最適化すると、大きな課題に直面することが示されています。これは、GS が損失の確率性に直接影響され、ニューラル ネットワークによってバッファリングされた暗黙的な表現とは異なるためと考えられます。この直接的な露出により、不安定な更新が発生し、トレーニング中にガウス点の特性が直接変化します。さらに、GS の各トレーニング ステップでは、ニューラル ネットワーク スタイルのバッファリング メカニズムを使用せずに、多数のガウス ポイントを更新する場合があります。これらの問題により、GS の流動性が過度に高まり、トレーニング中の暗黙的な表現のような洗練された結果への収束が妨げられます。

上記の問題を解決するために、チームはまずガウスセマンティックトラッキングを導入し、ガウススプラッティング(GS)の正確な制御を実現しました。ガウス セマンティック トラッキングは、トレーニング中に編集が必要なガウス ポイントを一貫して識別できます。これは、通常は静的な 2D または 3D マスクに依存する従来の 3D 編集方法とは異なります。トレーニング中に 3D モデルの形状と外観が変化すると、これらのマスクは徐々に効果がなくなります。ガウス セマンティック トラッキングは、2D セグメンテーション マスクを 3D ガウス ポイントに投影し、各ガウス ポイントにセマンティック ラベルを割り当てることで、トレーニング プロセス全体にわたってトラッキングを実現します。トレーニング中にガウス点が変化すると、これらのセマンティック ラベルによって特定のターゲット ガウス点を追跡できるようになります。ガウス セマンティック トラッキング アルゴリズムにより、対象領域のみが変更され、正確で制御された編集が可能になります。

下の図の赤い領域が追跡対象領域です。セマンティック追跡領域は、その有効性を確保するためにトレーニング プロセス中に動的に更新されます。

さらに、ガウススプラッティング (GS) では、高度にランダムな生成ガイダンスの下では洗練された結果を達成するのが難しいという重大な課題に対処するために、GaussinEditor は新しい GS 表現である階層的ガウススプラッティング (HGS) を採用しています。 HGS では、ガウス点はトレーニング中に密度が高められる順序に従って、異なる世代に編成されます。以前の緻密化プロセス中に形成されたガウス点は古い世代と見なされ、元の状態を維持するという目的でより厳密に制約され、移動性が低下します。対照的に、後の段階で形成されたガウス点は若い世代と見なされ、適応度を向上させるための制約がほとんどないか、まったくありません。 HGS の設計では、新しい世代の柔軟性を維持しながら、古い世代に制限を課すことで、GS の移動性を効果的に規制します。このアプローチにより、暗黙的な表現でニューラル ネットワークによって実装されたバッファリング機能をエミュレートし、より良い結果に向けて継続的に最適化できるようになります。

これに基づいて、GaussianEditor はガウススパッタリング表現の追加および削除アルゴリズムを提案します。オブジェクトの削除に関しては、チームはオブジェクトとシーンのインターフェースにあるアーティファクトを効果的に除去する特殊なローカル修復アルゴリズムを開発しました。ターゲットの追加に関しては、GaussianEditor は、ユーザーが提供するテキスト プロンプトと 2D マスクに基づいて、指定されたターゲットを指定された領域に追加できます。 GaussianEditor はまず、2D 画像インペインティング アルゴリズムを使用して、追加するオブジェクトの単一ビュー画像を生成します。次に、画像は Image to 3D アルゴリズムを通じて 3D GS に変換されます。最後に、ターゲットがガウスシーンに組み込まれます。

比較実験では、GaussianEditor は、視覚的な品質、定量的な指標、制御性、生成速度の点で以前の研究を大幅に上回っています。


研究チームはまた、アブレーション実験を通じて、提案したガウス意味追跡と階層的ガウス表現の有効性を検証しました。

高度な 3D 編集アルゴリズムである GaussianEditor は、3D シーンの柔軟かつ高速な編集に重点を置いており、初めてガウス スパッタリングの編集を実現します。

アルゴリズムの主な特徴は次のとおりです。

  1. ガウス セマンティック トラッキング: トレーニング中に編集する必要があるガウス ポイントを継続的に識別し、ターゲット領域のみが編集されるようにします。
  2. 階層的ガウススプラッティング (HGS) : これは、異なるトレーニング段階で形成されたガウス点間に階層構造を確立することで GS シナリオの流動性を効果的に管理し、暗黙的表現でニューラル ネットワークのバッファリング機能をシミュレートする新しい GS 表現です。
  3. 3D シーンの追加および削除アルゴリズム: GaussianEditor は、GS 専用の 3D シーンの追加および削除アルゴリズムを開発しました。これにより、シーンから特定のオブジェクトを効率的に削除または追加できます。

<<:  たった一枚の写真でTikTokガール全員が踊れる

>>: 

ブログ    

推薦する

サイバーセキュリティにおけるAIの新たな機会を見つける方法

[[383159]]新しいテクノロジーの適用には、多くの場合、プラスの影響とマイナスの影響の両方が伴...

自律走行の新しい方法がネイチャーの表紙に登場:夜を昼のように明るくする、浙江大学の博士

AI の支援により、機械の夜間視界は昼間と同じくらい鮮明になります。今日、既存の熱画像技術に革命をも...

顔認識技術の開発と実用的なソリューションの設計

顔認識技術は、Google、Facebook、Alibaba、Tencent、Baiduなどの国内外...

カリフォルニア州の自動運転路上試験規則が変更され、軽輸送車両も許可範囲に含まれる可能性がある

現在、多くの自動運転車開発者は米国カリフォルニア州(以下、「カリフォルニア」という)で路上試験を行う...

...

ChatGPT 以外にも驚くような 6 つの AI ツール

今日の急速に変化する世界では、私たちが日常生活で処理しなければならないデータとタスクの量は膨大です。...

生産効率の向上以外に、AI テクノロジーは製造業に何をもたらすのでしょうか?

現代科学技術の発展は製造業の変革と向上に新たな活力をもたらしており、人工知能技術もその一つです。 [...

ニューラルネットワークをシンボリックAIに活用し、MITとIBMが共同でディープラーニングの問題点を解決

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

孫正義氏:今後 30 年の人工知能と IoT(詳細記事)

[[264296]]これは非常に興味深いスピーチです。これはMWCでソフトバンクの孫正義氏が行った...

ChatGPT 使用時に遭遇する落とし穴

最近、ChatGPT を使用しているときに小さな問題に遭遇しました。特殊な状況のため、syslog ...

メタバースにおける責任ある AI: なぜ優先されるべきなのか?

AI研究者は人類と未来を守るために、仮想世界で責任あるAIを開発しなければなりません。人工知能のア...

AIは黄金時代を迎えているのか、それとも冬を迎えようとしているのか?

人工知能開発の世界的なブームは今も急速に進んでおり、止まる気配はありません。現在、数十カ国が経済成長...

生成型人工知能に関する簡単な議論

生成AIには長い歴史があります。いくつかの情報源によれば、1950 年代にはすでに登場していたようで...

単一のGPUではGPT-3をトレーニングすることはできませんが、これを使用するとハイパーパラメータを調整できます。

偉大な科学的成果は試行錯誤だけでは達成できません。たとえば、宇宙計画におけるすべての打ち上げは、空気...

スペイン・ラ・リーガ:AIと機械学習でファン体験の変革に取り組む

IT は、世界で最も人気のあるスポーツであるサッカーをスペインで発展させ、体験する上で重要な役割を果...