この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 序文と著者の個人的な理解3D ガウス スプラッティング (3D-GS) は、Neural Radiance Fields (NeRF) などのニューラル ネットワークに依存せずに明示的なシーン表現と新しいビュー合成を提供することで、コンピューター グラフィックスの大きな進歩をもたらしました。この技術は、ロボット工学、都市マッピング、自律航行、仮想現実/拡張現実などの分野でさまざまな用途に使用されています。 3D ガウススプラッティングの人気の高まりと研究の拡大を考慮して、この論文では過去 1 年間の関連論文を包括的にレビューします。我々は、その特性と用途に基づいて分類法を調査し、3D ガウス スプラッティングの理論的基礎を紹介します。この調査を通じて私たちが目指すのは、新しい研究者に 3D ガウス スプラッティングを理解させ、この分野における重要な研究への貴重な参考資料を提供し、将来の研究の方向性を刺激することです。 要約すると、この論文の主な貢献は次のとおりです。
関連背景データセット: さまざまなタスクにおける 3D-GS のパフォーマンスを評価するために、公開されているさまざまなデータセットが利用されます。表 1 は、最適化、再構築、操作、生成、知覚、および人間における 3D-GS のいくつかのデータセットをまとめたものです。 ガウス分布の固有特性の最適化3D ガウス スプラッティングのパワーと効率は実証されていますが、次の有望な方向でさらに改善する余地がまだあります (図 3 を参照)。(a) 3D-GS のメモリ効率を高めることは、リアルタイム レンダリングに不可欠です。(b) レンダリングされた画像の品質をさらに向上できます。(c) 新しいビューを合成するための画像のコストを削減できます。(d) 3D ガウスがリアルなダイナミクスで動的なシーンを表現できるようにします。 効率シーンを表す数百万のガウス分布内のパラメータは膨大なストレージスペースを必要とするため、品質を維持しながらメモリ使用量を削減することは、リアルタイム レンダリングにとって重要かつ有益です。 グリッドガイド NeRF に触発されて、Lu は、同等のレンダリング品質と速度を維持しながらメモリ効率の高い Scaffold GS を提案しました。 Scaffold GS は、基礎となるシーン構造を活用して、過度に拡張されたガウス球を削減します。 SfM の初期化ポイントを利用して、アンカー ポイントのスパース グリッドを構築します。各アンカー ポイントには、学習可能なガウス分布のセットが接続されています。これらのガウス分布の特性は、特定のアンカー ポイントの特徴に基づいてリアルタイムで予測されます。さらに、重要なアンカーと些細なアンカーがプルーニング操作によって除去される場合、ニューラル ガウスの集約された勾配によって導かれる戦略がアンカーを成長させるために使用されます。重複を最小限に抑えた小さなガウス係数を奨励するために、追加のボリューム正規化損失項が追加されます。 課題: 複雑な詳細を持つシーンを表現するには、多数の 3D ガウス分布が必要です。 Gaussians に必要な膨大なストレージ スペースは、エッジ デバイスへの適用を妨げるだけでなく、レンダリング速度も制限します。 機会: 既存のベクトル量子化と重要でないガウス分布の削減法は、静的シーンの 3D ガウス分布の圧縮に有効であることが実証されています。しかし、それらを動的なシーンに拡張し、動的表現のコンパクトさを改善することについては、まだ十分に研究されていません。 本物であることエイリアシングの問題とアーティファクトはスプラッティング プロセス中に発生しますが、これらを解決すると、レンダリングされたイメージの品質とリアリティが向上します。さらに、シーン内の反射のリアリティをさらに向上させることができます。 Yan は、3DGS におけるエイリアシング効果を軽減するためのマルチスケール手法を導入しました。彼らは、このような問題は主に、複雑な 3D 詳細を持つ領域に大量のガウス散乱が埋め込まれることによって引き起こされるという仮説を立てました。そのため、彼らはシーンをさまざまな詳細レベルで表現することを提案しました。各レベルでは、各ボクセル内の特定のサイズしきい値を下回る小さくて細かいガウス分布が、より大きなガウス分布に集約され、その後、後続のより粗いレベルに補間されます。これらのマルチスケール ガウス分布は、高周波信号と低周波信号の両方を効果的にエンコードし、元の画像とダウンサンプリングされた画像を使用してトレーニングされます。レンダリング中に適切な比率のガウス分布が適宜選択されるため、品質が向上し、レンダリング速度が速くなります。 課題: 2D 画像への 3D ガウス投影によりレンダリング プロセスが大幅に高速化されますが、オクルージョンの計算が複雑になり、照明の推定が不十分になります。同時に、正規化が不十分な 3D-GS では正確なジオメトリをキャプチャできず、正確な法線をネイティブに生成できません。さらに、エイリアシングの問題やアーティファクトにより、特に見えないカメラビューを合成する場合に、レンダリングされた画像の品質が低下する可能性があります。 機会: ビューに依存するバリエーションは、鏡面反射オブジェクトと複雑な反射があるシーンにとって重要です。したがって、3D-GS に顕著な外観属性をキャプチャする機能を与えることは、レンダリングのリアリティを高めるのに役立ちます。エイリアシング効果をより効果的に低減するには、表現力に影響を与えずに冗長なガウス分布をより効果的に除去する方法を調査する価値があります。さらに、厳密な法線推定と幾何学的正則化の欠如は画像品質の向上を妨げますが、これはさらに補償することができます。 経費高品質の斬新なビューを合成するには、必要な画像の量が膨大になります。 3D-GS の可能性をさらに探求するには、この制限を緩和することが望ましいです。 3D-GS における少数ショット問題に対処するためのいくつかの研究が提案されています。 Chung 氏は、少数ショットの画像合成における過剰適合を回避するために、深層正規化法を導入しました。幾何学的制約は、COLMAP と単眼深度推定モデルからそれぞれ取得された疎深度マップと密深度マップを活用して導入されます。過剰適合を防ぐために、私たちの方法は幾何学的滑らかさに対する教師なし制約を採用し、深度の変化が著しいエッジ領域での正規化を回避するために Canny エッジ検出器を利用します。 課題: 3D-GS のパフォーマンスは、初期化スパース ポイントの数と精度に大きく依存します。このデフォルトの初期化方法は、当然ながら、イメージコストを削減するという目標と矛盾しており、達成が困難になります。さらに、不適切な初期化により過剰適合が発生し、過度に平滑化された結果が生成される場合があります。 機会: 追加の単眼深度推定モデルを使用すると、シーンを効果的にカバーするために 3D ガウス分布を調整するための有用な幾何学的事前分布を提供できます。ただし、推定精度へのこの強い依存により、複雑な表面を持つシーンの再構築が不十分になり、モデルが正確な予測を出力できなくなる可能性があります。 3D ガウス分布を効率的に暗号化および調整し、幾何学的情報を最大限に活用してレンダリング品質を向上させる方法をさらに探求することが期待されます。 物理的な3D ガウス分布の機能を静的シーンから現実世界の物理法則と一致するダイナミクスを組み込むことができる 4D シーンに拡張することで、3D ガウス分布の機能を強化することは有益です。 動的シーンでは、各タイムステップでシーンをモデル化するよりも、変形を学習する方が便利です。 Wu 氏は、新しいリアルタイム 3D 動的シーン レンダリング フレームワークを提案しました。各タイムスタンプに対して 3D ガウス分布を直接構築する代わりに、このフレームワークでは、まず、マルチ解像度 K 平面と MLP を活用して効率的な特徴抽出を行う時空間エンコーダーを使用します。次に、マルチヘッド MLP はデコーダーとして機能し、入力特徴に基づいて 3D ガウス分布の位置、回転、スケールの変形をそれぞれ予測します。このアプローチはガウス変形フィールドを学習し、効率的なメモリ使用と高速収束を実現します。 課題: 入力ポイント クラウドの本質的なスパース性は、現実的なダイナミクスを持つシーンを再構築する上で重要な課題となります。たとえば影の変化を忠実にレンダリングするなど、品質を維持しながら物理的に妥当なダイナミクスをキャプチャすることは、より困難です。 機会: 動きの大きいオブジェクトは、連続するフレーム間で不自然な歪みを引き起こす可能性があります。ニューラル ネットワークと学習したシーン固有のダイナミクスを組み合わせると、変形の忠実度を向上させることができます。動的シーンを再構築する現在の方法は、主に屋内のオブジェクトレベルの変形に焦点を当てており、複数のカメラビューから撮影された画像と正確なカメラポーズが依然として必要です。 3D-GS をより大規模な動的シーンに拡張し、この制限を緩和することは、現実世界のアプリケーションにとって非常に有益です。 再建前述したように、3D-GS が新しい視点から 3D シーンをキャプチャしてレンダリングする際に広く採用されているのは、その優れたレンダリング速度とリアルな結果を生み出す能力によるものです。 NeRF と同様に、3D-GS での表面メッシュの抽出 (図 4a を参照) は基本的ですが、重要な側面です。自動運転などの実際のアプリケーションではよくある単眼または少数ショットのケース (図 4b を参照) などの困難なシナリオに対処するには、さらなる調査が必要です。さらに、3D-GS のトレーニング時間は約数分で、リアルタイム レンダリングが実現され、動的シーンの再構築が容易になります (図 4c を参照)。 表面メッシュ抽出サーフェス メッシュの抽出は、コンピューター ビジョンにおける古典的な課題です。ただし、3D ガウス分布によるシーンの明示的な表現は、タスクにかなりの複雑さをもたらします。そのため、この複雑さに効率的に対処し、表面メッシュの抽出を容易にするためのいくつかの新しい方法が提案されています。 Guédon は、3D メッシュの再構築と高品質のメッシュ レンダリングのための SuGaR を導入しました。 SuGaR には、ガウス分布とシーン サーフェス間の位置合わせを促進するための正規化項が含まれています。次に、ポアソン再構成法を使用してこの配置を活用し、ガウス方程式からメッシュを導出します。ガウス マップをメッシュ サーフェスにバインドするために、SuGaR は、ガウス スプラッティング レンダリングを使用してガウス マップとメッシュを最適化するオプションの改良戦略を提供します。ただし、ガウス マップに対する必須の制約により、レンダリング品質が低下します。ただし、これらの制限によりメッシュ抽出のパフォーマンスが向上します。一方、Chen 氏は、NeuS と 3D-GS を共同で最適化し、高度に洗練された表面修復を実現する NeuSG を紹介しました。 SuGaR の正規化項と同様に、NeuSG には、非常に薄い 3D ガウスによって生成されたポイント クラウドが基になるサーフェスにしっかりと接続されるようにするための正規化子が組み込まれています。このアプローチは、ジョイント最適化の利点を活用して、複雑な詳細を持つ包括的なサーフェスを生成します。 単眼および少数ショット再構成3D-GS の導入は、単眼および少数ショットの再構成タスクにとって有望な進歩を表しています。しかし、これらのタスクにおける大きな課題は、幾何学的な情報が不足していることです。そのため、この課題に対処し、遠近法の幾何学情報の不足を克服するための革新的な方法を提案する研究が数多く行われてきました。 当初、少数ショットの 3D 再構築技術により、限られた量の入力データで 3D シーンを再構築することができました。 Charatan 氏は、画像ペアからの 3D 再構築のための PixelSplat を実演しました。 PixelSplat の主な焦点は、マルチビュー カーネル トランスフォーマーを提案することで、スケール ファクター推論の課題に対処することです。 PixelSplat は、スケールを考慮した特徴マップを使用してガウス基底セットのパラメータを予測する新しい方法を提案します。シーンはピクセル整列ガウス分布によってパラメータ化され、ガウス分布の基底点はトレーニング中に暗黙的に生成または削除されます。この戦略は、スムーズな勾配フローを確保しながら局所最小値を回避するのに役立ちます。 単眼 3D 再構成では、単一のカメラを使用して 2D 画像から 3D シーンの形状と構造を推測できます。単眼 3D 再構築の鍵は、画像内の遠近関係、テクスチャ、および動きパターンの詳細な分析にあります。単眼技術を採用することで、物体間の距離を正確に推定し、シーンの全体的な形状を識別することができます。 Szymanowicz 氏は、単眼 3D オブジェクト再構築のための超高速手法である Splatter Image を紹介しました。このアプローチでは、2D CNN アーキテクチャを利用して画像を効率的に処理し、各ピクセルが色付きの 3D ガウス分布で表される疑似画像を予測します。 Splatter Image は、標準的なカメラポーズを必要とせずに、合成ベンチマークと実際のベンチマークで高速なトレーニングと評価を実証します。さらに、クロスビューアテンションを組み込むことで、少数ショットの 3D 再構成も実行できます。 ダイナミックシーン再構築3D-GS の高いレンダリング速度と解像度は、人体の追跡や大規模な都市シーンの再構築など、動的なシーンの再構築をサポートします。 Lin 氏は、高速な動的 3D シーンの再構築とリアルタイム レンダリングを実現する 3D-GS ベースのガウス フローを紹介しました。これにより、静的および動的 3D シーンのセグメンテーション、編集、合成が容易になります。この方法では、時間領域での多項式フィッティングと周波数領域でのフーリエ級数フィッティングを通じて各属性の時間依存残差を捕捉するためのデュアルドメイン変形モデル (DDDM) を導入します。ガウスフローは、フレームごとに個別のガウス演算子をトレーニングしたり、3D ダイナミクスをモデル化するために追加の暗黙的なニューラル フィールドを導入したりする必要性を排除できます。 課題: 3D-GS は再構築のための明示的な表現モデルであるため、各ガウス カーネルが必ずしも特定のオブジェクトの表面上にあるとは限らず、表面メッシュの抽出に課題が生じます。ガウスカーネルはターゲットの表面に適合するように制約する必要がありますが、これによりレンダリングの精度が低下する可能性があります。 機会: (i) 少数ショットの再構成では、拡散モデルと統合するか、カメラのポーズの要件を削除することで、大規模なトレーニングを容易にすることができます。 (ii)さらに、表面メッシュ抽出では、照明分解法を導入し、よりリアルな表面テクスチャを抽出します。 (iii) 動的シーンの再構築では、速度の優先順位と画像の詳細の保存との間のトレードオフがかなり大きくなる可能性があります。 操作3D-GS の明示的な性質により、各 3D ガウス分布が個別に存在するため、編集タスクに大きな利点があります (図 5)。必要な制約を適用した 3D ガウス分布を直接操作することで、3D シーンを簡単に編集できます。 テキストガイドによる操作近年、テキストガイドによる操作の数が急増しています。そのため、テキストガイドによる操作は人間の音声に近いことから、ますます注目を集めています。さらに、大規模言語モデルへのアクセスが普及するにつれて、LLM ガイド操作の使用が将来の方向性になると予想されます。 Direction GaussianEditor は、3D ガウス分布とテキスト コマンドを使用して 3D シーンを正確に編集する方法を導入します。最初のステップでは、提供されたテキスト指示に対応する関心領域 (RoI) を抽出し、それを 3D ガウス分布に合わせます。このガウス RoI は編集プロセスを制御するために使用され、きめ細かい調整が可能になります。 非剛体操作非剛性ターゲットは形状を変更および変形できるため、柔らかいターゲット、生物組織、および流体のよりリアルなシミュレーションが可能になります。これらのターゲットには、現実感の向上、ターゲットの変形や動作の記述の改善など、いくつかの利点があります。さらに、これらのモデルは変形することで外部の力や制約に反応できるため、さまざまな効果を実現できます。ただし、非剛性オブジェクトにも特定の課題があります。これらは複雑であることが特徴で、編集やシミュレーション中にターゲットの変形、連続性、衝突などの要素を慎重に考慮する必要があります。さらに、特に大規模で複雑な非剛体オブジェクトを扱う場合、非剛体オブジェクトのリアルタイムのインタラクティブなパフォーマンスはアプリケーションで制限される可能性があります。 時間効率の良い編集3DGS は確かに高速なレンダリング技術ですが、3D ガウス グラフを編集する際にはリアルタイム操作が不可欠です。したがって、3DGS の時間効率の高い編集方法を開発することが急務となっています。 Huang 氏は、露出領域の修復を通じてシーン オブジェクトのインタラクティブな操作を可能にする Point'nMove を提案しました。直感的なターゲット選択とリアルタイム編集により、インタラクティブ性が向上します。これを達成するために、彼らはガウススプラッティング放射場の明確に定義された特性と速度を利用しました。明示的な表現の定式化により、2D キュー ポイントを使用して 3D マスクを作成する 2 段階のセルフ キューイング セグメンテーション アルゴリズムの開発が可能になります。このアルゴリズムは、マットの改良とマージを容易にし、変更を最小限に抑え、シーンの修復のための適切な初期化を提供し、編集ごとにトレーニングする必要なくリアルタイム編集を可能にします。一方、Chen 氏は、ガウス スプラッティングを使用して編集プロセス全体の制御と効率性を高める 3D 編集用の GaussianEditor を紹介しました。 GaussianEditor は、ガウス セマンティック トラッキングを採用して、特定の編集領域を正確に識別して特定します。次に、階層的ガウススプラッティング (HGS) を活用して流動性と安定性のバランスを取り、確率論的原理に基づいた詳細な結果を生成します。さらに、GaussianEditor にはガウススプラッティング専用の 3D インペインティング アルゴリズムが含まれており、オブジェクトの削除と統合が簡素化され、編集時間が大幅に短縮されます。 4D操作動的ニューラル 3D 表現の導入により、4D シーン再構築の分野では目覚ましい進歩が遂げられました。これらの進歩により、ダイナミックなシーンをキャプチャして描写する能力が大幅に向上しました。しかし、こうした進歩にもかかわらず、4D シーンのインタラクティブな編集には依然として大きな障害が残っています。主な課題は、インタラクティブで高度な編集機能を提供しながら、4D 編集中に空間的および時間的な一貫性を確保し、高品質を維持することです。 Shao は、テキスト コマンドを使用して動的な 4D アセットを編集するための Control4D を導入しました。 Control4D は、4D 編集における一般的な課題、具体的には既存の 4D 表現の制限と拡散ベースのエディターによって発生する一貫性のない編集結果を克服するように設計されています。 GaussianPlanes はもともと、3D 空間と時間における平面ベースの分解を通じてガウス スプラッティングの構造を強化する新しい 4D 表現として提案されました。このアプローチにより、4D 編集の効率と堅牢性が向上します。さらに、4D ジェネレーターを利用して、拡散ベースのエディターによって生成された編集済み画像からより連続的な生成空間を学習し、4D 編集の一貫性と品質を効果的に向上させます。 課題: まず、テキストガイド操作では、関心領域 (ROI) の選択はセグメンテーション モデルのパフォーマンスに依存しますが、これはノイズの影響を受けます。第二に、3D ガウス プロットを編集するときに、いくつかの重要な物理的側面が見落とされがちです。最後に、4D 編集でフレームの一貫性を実現するには、まだ改善の余地があります。 機会: i) 3D-GS の操作では、既存の 2D 拡散モデルでは複雑な手がかりに対して十分なガイダンスを提供することが困難であり、その結果、3D での編集に制限が生じます。したがって、効率的で正確な 2D 拡散モデルは、3D ガウス分布を編集するためのより優れたガイドとして機能します。 ii) 既存の方法は主に、最小限の動きの変化と正確なカメラポーズでテストされてきました。激しいスポーツを伴うシナリオへの適用範囲を拡大することは、依然として調査が必要な分野です。 生成する拡散モデルと 3D 表現の大きな進歩により、テキスト/画像の手がかりから 3D アセットを生成することは、現在 AIGC コミュニティにおける有望なタスクとなっています。さらに、3D-GS をオブジェクト (図 6a) とシーン (図 6b) の明示的な表現として採用することで、高速かつリアルタイムのレンダリングが可能になります。さらに、いくつかの研究では、分留サンプリング(SDS)パイプラインに固有の時間のかかる最適化プロセスの改善に焦点を当てました(図6c)。 3D 生成はいくつかの印象的な結果を示していますが、4D 生成 (図 6d) は依然として困難で十分に研究されていないトピックです。 オブジェクトレベルの3D生成3D 拡散モデルは 3D 生成において優れた 3D 一貫性を持ち、2D 拡散モデルは強力な一般化能力を持ちます。 Yi 氏は両方の利点を組み合わせ、高速生成とリアルタイム レンダリングを実現する GaussianDreamer を提案しました。 GaussianDreamer は、まず 3D 拡散モデルを使用して 3D ガウス分布を初期化し、幾何学的事前分布を取得します。次に、ノイズ ポイントの拡大と色の摂動という 2 つの操作を導入して、初期化されたガウス分布を補足し、コンテンツをさらに充実させます。その後、2D 拡散モデルと SDS からのテキストヒントを利用して 3D ガウス分布が最適化されました。しかし、この方法では依然として複数の顔の問題があり、大規模なシーンを生成することはできません。 シーンレベルの3D生成Vilesov 氏は、テキスト入力のみから物理的にリアルなシーンを形成するために、スケーラブルな 3D アセットを合成的に生成する CG3D を提案しました。 CG3D は、シーン内の各オブジェクトをガウス分布のセットとして表現し、回転、移動、スケールなどの相互作用パラメータを使用してオブジェクトを合成座標に変換します。 3D生成の加速NeRF 表現を使用した 2D リフティング法は、最適化プロセスに時間がかかることで有名です。そこで、Tang は、NeRF 表現を 3D ガウス スプラッティングに置き換えることで 3D 生成効率を向上させる DreamGaussian を提案しました。具体的には、DreamGaussian は、ガウス分布をランダムな位置で初期化し、生成の進行に合わせて定期的に暗号化するガウス分布の漸進的暗号化を通じて最適化環境を簡素化します。生成品質を向上させるために、ブロック単位のローカル密度クエリを備えた効率的なメッシュ抽出アルゴリズムと、画像空間監視を実行する UV 空間テクスチャ改良ステージがさらに導入されています。その結果、DreamGaussian は 2 分以内に単眼画像から高品質のテクスチャ メッシュを生成できるようになります。 3D-GS を活用したテキストから 3D への変換方法は、NeRF ベースの方法に比べて時間効率の点で優れていますが、生成時間が長いという問題が依然として残ります。これは主に、SDS または変分分留 (VSD) 中の勾配ベースの最適化に伴う複雑な計算と大規模な反復に起因します。 Zhou 氏は、並列コンピューティングを利用して ODE をより速く解くことで蒸留プロセスを高速化する組み込みアルゴリズムである Dreamprompt を紹介しました。 Dreampromert によって一般化された Picard 反復アルゴリズムにより、変数次元の変更を伴う連続勾配更新ステップの並列化が可能になります。この機能により、DreamProperty は、分割および剪定操作により最適化プロセスで異なる数のガウス分布が使用される可能性があるため、3D-GS を使用する 3D メソッドに最適です。実験結果によると、発電品質への影響は最小限に抑えられ、速度は 4.7 倍に向上しました。 テキストから4Dへの生成Ling は、時間次元を追加して 3D 合成を 4D 生成に拡張する Align Your Gaussians (AYG) を導入しました。 4D 表現は、3D ガウス フィールドと変形フィールドを組み合わせてシーンのダイナミクスをモデル化し、それらのコレクションを変換してオブジェクトの動きを表現します。 AYG は、3D 対応のマルチビュー拡散モデルと通常のテキストから画像へのモデルを使用して、初期の静的 3D 形状を生成することから始まります。次に、テキストからビデオへのモデルとテキストから画像へのモデルを使用して変形フィールドを最適化し、時間的なダイナミクスをキャプチャして、すべてのフレームで高い視覚品質を維持します。さらに、モーション増幅メカニズムと新しい自己回帰合成スキームを採用して、複数の 4D シーケンスを生成および組み合わせ、より長い生成を実現します。特に、3D ガウス分布の明確に定義された性質により、それぞれ独自のガウス分布と変形フィールドのセットを持つさまざまな動的シーンを組み合わせることができ、複数の 4D オブジェクトを大規模な動的シーンに組み合わせることができます。 課題: i) ほとんどの方法では合成生成がサポートされていないため、合成生成は未解決の問題のままです。 CG3D は合成フレームワークを提案していますが、オブジェクト間の剛体の相互作用のみをサポートしています。さらに、AYG を構成する 4D シーケンスでは、動的オブジェクトのトポロジの変化を記述できません。 ii) オリジナルの 3D-GS の適応密度制御操作を生成フレームワークに適応させることは簡単ではないため、ターゲットを表すために使用されるガウス分布の数を固定するのが簡単な方法です。ただし、このような設計では、複雑なジオメトリを作成するモデルの能力が大幅に制限されます。 機会: i) ヤヌス問題としても知られる多面的な問題は、ほとんどの 2D リフティング方法に存在します。前述のように、GaussianDreamer は 3D 事前分布を導入することでこの欠点を軽減します。これを考慮すると、3D 対応拡散モデルまたはマルチビュー 2D 拡散モデルを活用することが、さらなる改善の方向性となる可能性があります。 ii) さまざまな種類のカスタマイズされたデータを入力として受け取り、ユーザーが生成プロセスをより細かく制御できるようにするパーソナライズされた生成は、今後の研究にとって魅力的な道となるはずです。 iii) テキストの手がかりがあいまいな情報と複雑なロジックで構成されている場合、テキストから 3D への方法では満足のいく結果が得られないことがよくあります。この点では、テキスト エンコーダーの言語理解機能を強化することで、生成品質も向上します。 感知3D-GS を使用すると、3D 認識により、オープン ボキャブラリのセマンティック オブジェクト検出と位置特定 (図 7a)、3D セグメンテーション (図 7b)、移動オブジェクトの追跡 (図 7c)、および SLAM システムの開発 (図 7d) を強化できる可能性があります。 検出3D シーンにおけるセマンティック オブジェクト検出または位置特定プロセスにより、環境の理解と認識が大幅に向上し、自動運転システムやスマート製造などのアプリケーションにメリットをもたらします。 ChatGPT の成功に触発され、Shi 氏はオープン ボキャブラリ クエリ タスク用に特別に設計された Scene Representation Language Embedded 3D Gaussian を導入しました。これは、量子化されたコンパクトなセマンティック機能を幅広い 3D Gaussian にうまく組み込み、メモリとストレージの要件を最小限に抑えます。異なる視野角から生じる意味的不一致を軽減するために、3D ガウスの空間位置と意味的不確実性を利用して埋め込まれた意味的特徴の空間周波数を動的に削減する特徴スムージング手順が提案されています。一方、Zuo 氏は、3D-GS を統合して形状と外観を表現し、マルチ解像度ハッシュエンコーディング (MHE) を統合して効率的な言語埋め込みを実現するモデルベース埋め込みガウススプラッティング (FMGS) を提案しました。 FMGS は、部屋規模のシーンにおけるメモリ制限の問題に対処することを目的としています。さらに、ピクセルの不整合の問題に対処するために、FMGS はピクセル整合損失を組み込んで、同じセマンティック エンティティのレンダリングされた特徴距離をピクセル レベルのセマンティック境界に揃えます。 FMGS の結果は、オープン語彙コンテキストで意味オブジェクトをローカライズする際の注目すべきマルチビュー意味一貫性と印象的なパフォーマンスを示しています。 セグメンテーション3D シーンセグメンテーションの重要性は、シーンセグメンテーションの精度を向上させるだけでなく、現実世界の 3D 認識タスクを強力にサポートすることにもあります。リアルタイムのシーン編集やオブジェクトの削除からオブジェクトの修復やシーンの再構築まで、3D シーン分割手法の応用により、仮想現実や自動運転などの分野におけるコンピューター ビジョンの可能性は間違いなく広がりました。 2D セグメンテーション モデルを組み込むことは、3D-GS セグメンテーション プロセスをガイドするための貴重な資産となります。この直感的なコンセプトは、セグメンテーション プロセスの精度と効率を向上させる可能性があります。 Lan[13]は、2Dセグメンテーションを監督として利用し、各3Dガウス分布に分類確率分布を表すターゲットコードを割り当てる3Dガウス分布セグメンテーション手法を導入した。特定のポーズでの 2D セグメンテーション マップとレンダリングされたセグメンテーション マップの差を最小限に抑えることで、各 3D ガウス分布の正確な分類を保証するためのガイダンスが提供されます。さらに、KNN クラスタリングは 3D ガウス マップの意味的曖昧性の問題を解決するために使用され、統計フィルタリングは誤ってセグメント化された 3D ガウス マップを除去するために使用されます。このアプローチは、3D シーンの意味的知識をうまくキャプチャし、特定の視点から複数のオブジェクトを短時間で効果的にセグメント化し、説得力のある結果を出力します。 追跡3D-GS を使用すると、動的なシーンの再構築が容易になります。したがって、これらのシナリオで動的オブジェクトを追跡することは、新しい研究分野となり、自動運転などのアプリケーションに大きく貢献します。 周氏は、動的な大規模な運転シーンを再構築するために DrivingGaussian 法を導入しました。 DrivingGaussian は、移動するオブジェクトを含むシーンで増分静的 3D ガウス分布を使用して、静的背景を段階的にモデル化します。 DrivingGaussian は、複合動的ガウス マップを活用して、個々のオブジェクトを正確に再構築し、その位置を復元し、複数の移動オブジェクトがある場合の遮蔽関係を効果的に処理します。さらに、3D-GS の前に LiDAR を使用すると、より細かい詳細をキャプチャし、全景の一貫性を確保することで、シーンの再構築が向上します。 DrivingGaussian は、高忠実度で複数のカメラで一貫したリアルなサラウンド ビュー合成を実現し、コーナー ケースのシミュレーションを含む幅広いタスクに適用できます。 スラム3D 認識の分野では、3D-GS を SLAM システムに統合することが大きな注目を集めています。このセクションでは、3D ガウス表現を統合することで実現される SLAM のさまざまなアプリケーションと進歩について説明します。さらに、このセクションでは、実際のシナリオを解決する際の現在のアプローチの有効性を強調し、SLAMの分野内での可能性の継続的な成長を強調しています。 効率の重要性のため、ヤンは3Dガウス表現をスラムシステムに統合するためにGS-SLAMを提案しました。 GS-SLAMは、マップの最適化とRGB-Dの再レンダリング速度を大幅に改善するために、リアルタイムの微分微分スプラットレンダリングパイプラインを利用しています。 GS-Slamは、新たに観察されたシーンのジオメトリを効率的に再構築することを目的とした、3Dガウス系を拡張するための適応戦略を導入しています。さらに、信頼できる3Dガウスの粗からファインテクニックを採用して、カメラポーズの推定の精度を向上させます。 GS-SLAMは、効率と精度の間のトレードオフを効果的に改善し、神経暗黙の表現を使用して最近のスラム法を上回ります。 カメラの推定カメラのポーズ推定は、3D再構成と知覚の分野の基本的な側面です。 3D-GSの組み込みは、この重要なトピックに洞察に富んだアプローチを提供する可能性があります。 SLAMでは、6Dポーズを推定するタスクはかなりの課題をもたらします。この課題に対処するために、SunはICOMMAを導入しました。これは、従来のジオメトリマッチング方法とレンダリング比較テクノロジーを組み合わせています。 ICOMMAは3D-GSを反転させてポーズグラデーション情報をキャプチャして正確なポーズ計算を行い、最終段階で最終段階で精度を向上させるためにレンダリングと比較戦略を採用します。さらに、2Dキーポイント間の距離を最小限に抑えることにより、モデルの堅牢性を有害な初期化に対する堅牢性を高めるために、一致するモジュールが導入されています。 ICOMMAは、予測結果の高精度を維持しながら、角度偏差があるものを含む、さまざまな複雑で挑戦的なシナリオを効果的に処理するように設計されています。 課題:(i)動的シーンの既存の3D-GSベースのオブジェクト追跡方法は、自律運転などのシステムに困難をもたらす歩行者などの変形可能なターゲットを追跡する際に課題に遭遇する可能性があります。 (ii)さらに、これらのオブジェクトの3D-gsのモデリング機能が限られているため、テレビや鏡などの高度に反射的または半透明のオブジェクトを検出することは、困難なタスクのままです。 (iii)SLAMシステムは、モーションブラー、大量の深度ノイズ、重度の回転など、さまざまな要因に感度を示す場合があります。 (vi)さらに、3D-GS表現では、ガウス分布を複数のオブジェクトにリンクできます。これにより、フィーチャマッチングを使用して単一のオブジェクトを正確にセグメント化する複雑さが増加します。 機会:(i)3D-GSに基づくリアルタイム追跡は、放射線療法を含むさまざまな医療シナリオに適用される可能性があります。 (ii)さらに、既知のカメラの内因性と密な深さを入力することは、スラムを実行するために重要であり、これらの依存関係を削除することは、将来の探索の興味深い方向を提供します。 仮想人体NERFやSDFなどの暗黙の神経表現を持つ仮想人間のアバターを学ぶには、長い最適化とレンダリング時間が必要であり、満足のいく品質の新しい身体ポーズを生成するのが困難です。対照的に、3Dガウス表現を利用することでトレーニングとレンダリング速度を改善し、身体の変形を明示的に制御できることを実験的に実証します。さらに、3Dガウス法の前方スキニングは、神経暗黙の表現で使用される逆スキンに存在する対応のあいまいさを回避します。 通常、3Dガウスベースのメソッドは、最初にSMPLテンプレートを使用してガウスを初期化し、次に線形ブレンドスキニング(LB)を使用して表現を観測空間に変形させます。ガウス人は、マルチビュー(図8a)または単眼ビデオ(図8b)を介してレンダリングおよび監督されます。さらに、一部の方法は、人間の頭の再構築に特化しています(図8C)、一部の方法は被験者ごとの最適化ではなく一般化可能なパイプラインに焦点を当てています。 マルチビュービデオ統合Moreau [21]は、3Dガウスのセットを持つ人体を表すアニメーション可能な人体を使用して、マルチビュービデオの写真と現実的な人間のアバターをレンダリングするための抱擁を提案しました。抱擁の3Dガウスは、元のセットアップに、ガウスの動きに及ぼす各ボディ関節の影響を調整するスキニングウェイトベクトルと、非剛性運動をコードする潜在コードを追加します。 HugsはLBSを適用して、SMPLモデルによって初期化された標準的なプリミティブを変形させ、スキニングウェイトのみを学習します。 LBSは体調の硬い変形のみをコードするため、抱擁はその後、局所的な非剛性洗練段階を導入し、エンコードと周囲の閉塞を考慮しながら、衣服の非剛性変形をモデル化します。新しいポーズ統合で競争力のあるパフォーマンスを達成しますが、抱擁は各ガウスを独立して最適化および変形させ、地元の近所のガウス間の本質的な関係を無視します。 単眼のビデオ統合一方、Kocabas [21]は、モノクーラービデオだけの3Dガウス人を使用して、アニメーション可能な人間と静的シーンを表す変形モデルを設計しました。実際には、人体とシーンは解読されており、モーションポイント雲からの構造はSMPLボディモデルとは別に構築されています。人間のガウスは、カウスの特性を予測し、モローと同様のパイプラインでさらに最適化された、標準空間の中心位置、特徴的なトリプル、および3つのMLPによってパラメーター化されています。 人間のヘッドアニメーションGaussianAvatarsは、3Dガウスをパラメーター化された変形性顔モデルに適合させることにより、ヘッドアバターの再構築に焦点を当てています。特に、3Dガウスは、火炎メッシュの各三角形の中心で初期化され、そのパラメーターは三角形の特性によって定義されます。さらに、三角形とスプラットの間の接続を破ることなくメソッドの適応密度制御操作に対応するために、結合継承戦略は、親三角形のインデックスを使用してガウスをパラメーター化するように設計されているため、新しいガウスポイントが火炎メッシュに残ります。ただし、このアプローチには、髪や他のアクセサリーなど、炎によってモデル化されていない領域を制御できません。 一般化可能な方法被験者ごとの最適化に依存するほとんどの方法とは対照的に、Zhengは、微調整や最適化なしに、目に見えない人間のパフォーマーの新しい見解をリアルタイムで統合するために一般化可能な3D-GSを提案しました。提案されたGPSガウスは、さまざまな特性を持つ大規模な3Dヒトスキャンデータから、ガウスパラメーターを豊かな人間のプライアーを学習するために、即時の人間の外観レンダリングを達成するために、フィードフォワードの方法で直接回帰します。さらに、GPS Gaussionは効率的な2D CNNを採用して、ソースビューイメージをエンコードし、2Dガウスパラメーターマップを予測します。具体的には、深度推定モジュールを介して学習した深度マップとRGB画像は、それぞれ3D位置マップとカラーマップとして使用され、ガウス表現を形成しますが、3Dガウスの他のパラメーターはピクセルごとに予測されます。その後、これらのパラメーターマップは3Dスペースに未処理で、新しいビューレンダリングのために集約されます。 課題:i)衣服の変形は、SMPLモデルとLBSによって初期化された3Dガウスの人体ではあまり学んでいません。 ii)ほとんどの方法では、環境照明がパラメーター化されていないため、アバターが実行不可能になります。 iii)単眼のビデオから人間のアバターを再構築する際に大きな進歩がありましたが、まばらなビューから限られた情報のみが提供されるため、細かい詳細を復元することは依然として厄介な問題です。 iv)現在、ほとんどの方法の3Dガウス人は、地域のガウス間の固有の構造と接続の関係を無視して、独立して最適化および変形しています。 機会:i)人間の頭のモデリングについては、3DMMを使用した動きを制御する方法は、微妙な表情を表現することはできません。非剛性変形だけを制御するより効率的な方法を探ることは、将来の仕事の焦点です。 ii)学んだ3Dガウスからグリッドを抽出する方法は、将来研究されるべき作品です。 iii)3DMMベースのメソッドとSMPLベースの方法の再構成パフォーマンスは、両方ともモデルパラメーター初期化の対象となります。固定パラメーターの不正確さは、モデルと監督の一貫性に深刻な影響を与える可能性があり、その結果、テクスチャがぼやけます。 3DMMとSMPLは、人体のゆるい構造をモデル化できなかったことが注目されました。この点で、最適化プロセスにおけるテンプレートモデルの表現能力を高めることは、将来の作業における有望なブレークスルーです。 議論と将来の仕事3Dガウスのスプラットティングは、コンピューターグラフィックスとコンピュータービジョンの分野で大きな可能性を示しています。ただし、複雑な構造と3Dガウスの標準に関連するさまざまなタスクのために、さまざまな課題が残っています。このセクションは、これらの課題に対処し、将来の研究のための潜在的な手段を提案することを目的としています。 3D-gsのフローティング要素を処理します。 3Dガウスのスプラッティングの重大な問題は、主に画像の背景から派生したレンダリング空間における浮遊要素の普遍性です。これらのフロートの発生を減らすために不透明なしきい値を使用して、PSNRおよびSSIMメトリックによって測定された画像のレンダリング品質を高めることが提案されています。ただし、これらの浮遊要素は、レンダリングされた画像の視覚品質に大きく影響する可能性があります。潜在的な研究分野は、これらの浮動オブジェクトを表面に近づける戦略に焦点を当てることができ、それにより、位置の相関と画質への貢献度を高めることができます。 レンダリングと再建の間のトレードオフ。前述のように、フローティング要素の存在は、画像の視覚品質に大きく影響します。ただし、それらの効果はレンダリングを超えており、メッシュ再構成プロセスに影響します。砂糖法は、不透明度ベースのアプローチを利用してメッシュ表面の周りに3Dガウスを生成します。これは、再構築を助長する一方で、レンダリング品質に影響を与える可能性があります。これは、優れたレンダリングと正確な再構築のバランスをとるための微妙なアプローチの必要性を強調しています。 3D-GSが他の高度なマルチビュー再構成技術を強化または補完する方法を探ることは、もう1つの有望な研究手段です。 信頼性のレンダリング。現在の照明分解方法は、ぼやけた境界を持つシナリオでの有効性が限られていることを示しており、多くの場合、最適化中にオブジェクトマスクを含める必要があります。この制限は、主に最適化プロセスに対する背景の悪影響に由来します。これは、3Dガウス散乱によって生成されたポイントクラウドのユニークな品質の結果です。従来の表面点とは異なり、これらのポイント雲は、従来の表面点とは異なり、色や部分的な透明性を含む粒子のような特性を示しています。これらの課題を念頭に置いて、マルチビューの立体視(MVS)を最適化プロセスに統合することが有望な方向になりました。この統合は、幾何学的精度を大幅に改善し、将来の研究のための有望な道を提供することができます。 リアルタイムレンダリング。リアルタイムのレンダリングを容易にするために、Scaffold GSは、地元の3Dガウスの分布に役立つ、まばらなボクセルメッシュからアンカーポイントを導入し、それによりレンダリング速度が向上します。ただし、この方法が均一なグリッドサイズに依存すると、適応性が制限されます。 Octree表現の使用は、より複雑な領域をより複雑なメッシュに分けて詳細な処理を可能にする有望な代替手段です。これらのアプローチは、小さなシナリオでリアルタイムのレンダリングを達成する可能性を示していますが、大規模な環境(都市景観など)に拡張するには、さらなる革新と追加の努力が必要です。 少数のショットの3D-GS 。最近のいくつかのショット研究では、いくつかのショット設定でのガウススプラッシュの深度ブート最適化の使用を調査しました。これらのアプローチは有望ですが、大きな課題にも直面しています。少数のショット法の成功は、主に単眼深度推定モデルの精度に依存します。さらに、パフォーマンスはデータドメインによって異なる場合があり、3D-GSの最適化プロセスに影響します。さらに、ColMap自体のパフォーマンスへの依存性は、ColMap自体のパフォーマンスへの依存性に導入されます。したがって、これらの制限は、ColMapに対処するのが難しいかもしれない、テクスチャーのない領域または複雑な表面の処理における課題を提示します。将来の研究では、相互依存の深さ推定を使用して3Dシーンの最適化を研究し、それによりCOLMAPポイントへの依存を減らすことが有益です。将来的に作業する別の方法は、特に深さの推定(空など)の領域で、さまざまなデータセットでジオメトリを正規化する方法を研究することです。 物理学の融合。材料の物理的行動と視覚的外観が本質的に相互に関連している自然界とは異なり、従来の物理的にベースの視覚コンテンツ生成パイプラインは、面倒で多段階のプロセスです。このプロセスには、ジオメトリの構築、シミュレーションの準備(通常、四面体化などの手法を使用)、物理学のシミュレーション、最終的にシーンのレンダリングが含まれます。シーケンスは有効ですが、中間相を導入し、シミュレーションと最終的な視覚化の違いにつながる可能性があります。この違いは、レンダリングされたジオメトリがシミュレートされたジオメトリに埋め込まれているnerfパラダイムでも明らかです。この問題を解決するには、これら2つの側面を組み合わせて、シミュレーションとレンダリングの目的に使用できる物質の統一された表現を促進することをお勧めします。さらに、有望な方向性は、材料を3D-GSに自動的に分配することです。 正確な再構築。元の3D-GSは、鏡面領域と非特異な領域を区別することはできません。したがって、3D-GSは、鏡面反射部分に不合理な3次元ガウス人を生成します。不合理な3次元ガウスの存在は、再構成プロセスに大きく影響し、欠陥のあるグリッドが作成されます。さらに、鏡面コンポーネントを含めると、信頼性の低いグリッドの生成にもつながる可能性があることが観察されています。したがって、正確な再構築を実現するために、3Dガウスは、メッシュが正確に再構築される前に照明によって分解する必要があります。 実際の世代。 DreamGaussiandReamerによって開拓された3D-GSは、3D世代の旅を開始します。ただし、生成された3Dアセットのジオメトリとテクスチャには、改善が必要です。ジオメトリに関しては、より正確なSDFとUDFを3D-GSに統合すると、より現実的で正確なメッシュが生成されます。さらに、メディアフィールドなどのさまざまな従来のグラフィックステクノロジーを効果的に利用できます。テクスチャに関しては、最近提案された2つのMVDとTexFusionが、テクスチャ生成における印象的な能力を示しています。これらの進歩は、3D-GSテクスチャメッシュ生成に適用される可能性があります。さらに、Leartable3D GaussianshaderとGaussianshadowrは、3D-GSのシェーディングの側面を調査しました。ただし、生成されたメッシュでのBRDF分解の問題は未回答のままです。 大きなベースモデルで3D-GSを拡張します。 Shi et alによる最近の研究は、3D-GSに埋め込まれていることを示しています。 2023年に大規模な基本モデルが出現したことで、それらの並外れた能力は、幅広い視覚的なタスクで実証されています。 SAMモデルが強力なセグメンテーションツールになり、3D-GSで正常に適用されたことは注目に値します。セグメンテーションに加えて、LLMモデルは、言語誘導の生成、操作、および知覚タスクにも使用されることが期待されています。これは、幅広いアプリケーションでのこれらのモデルの汎用性と実用性を強調しており、3D-GSにおけるそれらの重要性をさらに強調しています。 SAMモデルが強力なセグメンテーションツールになり、3D-GSで正常に適用されたことは注目に値します。セグメンテーションに加えて、LLMモデルは、言語誘導の生成、操作、および知覚タスクにも使用されることが期待されています。これは、幅広いアプリケーションでのこれらのモデルの汎用性と実用性を強調しており、3D-GSにおけるそれらの重要性をさらに強調しています。 3D-GSのトレーニングは、他の方法に使用されます。一部のジョブは、パフォーマンスを改善するための補助ツールとして3D-GSを使用しています。たとえば、Neusgは3D-gsを使用してNeusの再構築を強化し、Specnerfはガウスの方向コーディングを組み合わせて鏡面反射をモデル化します。したがって、3D-GSのユニークな機能を既存の方法にシームレスに統合して、パフォーマンスをさらに向上させることができます。 3D-GSは、大規模な再構成モデル(LRM)または自律車の分野で既存の知覚技術と組み合わせることができ、その知覚能力を高めることができると考えられます。 |
テスラは6月22日、@Tesla AIというTwitterアカウントを作成し、「テスラは自律型ロボッ...
デジタル化が進むにつれ、人工知能は不動産経済の成長を促進する上で重要な役割を果たします。有名なソフト...
3D AI生成は近年急速に発展しており、最新の作品の多くは文章・画像から高品質な3Dモデルを生成で...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
現在、あらゆるToB市場において、5G+AIが並行して未来を創造しています。 [[331677]] ...
12月5日、有名な数学者でフィールズ賞受賞者のテレンス・タオ氏は、ソーシャルネットワーク上で、多項式...
カリフォルニア大学サンフランシスコ校の神経科学者チームは、ネイチャー誌に最近発表した研究で、脳の活動...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
AI は登場以来、タスクの自動化や業務の効率化、より優れたテクノロジーの構築、エンドユーザー エクス...
数日前、fast.ai の創設者であり、Kaggle の元主任科学者である Jeremy Howar...
[[341117]]この記事はWeChatの公開アカウント「Invincible Coder」から転...