この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 序文と著者の個人的な理解北京大学王軒コンピュータ研究所の最新の研究では、効率的で効果的な動的自動運転シナリオ フレームワークである DrivingGaussian が提案されました。移動するオブジェクトを含む複雑なシーンの場合、まず、増分静的 3D ガウス分布を使用して、シーン全体の静的背景を順次段階的にモデル化します。次に、複合動的ガウス マップを使用して、複数の移動ターゲットを処理し、各ターゲットを個別に再構築し、シーン内の正確な位置と遮蔽関係を復元します。さらに、ガウススプラッティングに LIDAR 事前分布を使用して、より詳細なシーンを再構築し、パノプティックな一貫性を維持します。 DrivingGaussian は、運転シーンの再構築において既存の方法よりも優れており、高い忠実度と複数のカメラの一貫性を備えたリアルなサラウンド ビュー合成を可能にします。 オープンソースリンク: https://pkuvdig.github.io/DrivingGaussian/ 要約すると、DrivingGaussian の主な貢献は次のとおりです。
関連業務についてお話ししましょうNeRF は境界シナリオに使用されます。新しいビュー合成のためのニューラルレンダリングの急速な進歩は、大きな注目を集めています。 Neural Radiance Fields (NeRF) は、多層パーセプトロン (MLP) と微分可能ボクセル レンダリングを活用して 3D シーンを再構築し、一連の 2D 画像と対応するカメラ姿勢情報から新しいビューを合成します。ただし、NeRF は境界のあるシーンに限定されており、中心のオブジェクトとカメラの間に一定の距離が必要です。また、わずかに重なり合ってキャプチャされたシーンや、外向きのキャプチャ方法の処理も困難です。多くの進歩により NeRF の機能が拡張され、トレーニング速度、ポーズの最適化、シーン編集、動的シーン表現が大幅に改善されました。しかし、NeRF を自動運転シナリオなどの大規模な境界のないシナリオに適用することは、依然として課題となっています。 無制限のシーンのための NeRF 。大規模な境界のないシーンについては、いくつかの研究で NeRF の改良版を導入し、マルチスケールの都市レベルの静的シーンをモデル化しました。ただし、これらの方法では、シーンが静的であるという前提でモデル化されるため、動的な要素を効果的にキャプチャすることが困難になります。 一方、これまでの NeRF ベースの方法は、正確なカメラの姿勢に大きく依存していました。正確なポーズなしで動的な単眼ビデオから合成できます。ただし、これらの方法は前方の単眼視点に限定されており、周囲の複数のカメラ設定からの入力を処理する際に課題が発生します。 上記の NeRF ベースの方法で合成されたビューの品質は、レイ サンプリングに依存しているため、複数の動的オブジェクトや変化、および照明の変動があるシーンでは低下します。さらに、LiDAR の利用は補助的な深度監視を提供することに限定されており、幾何学的事前情報の提供など、再構築における潜在的な利点は未だに研究されていません。 これらの制限に対処するために、複合ガウススプラッティングを使用して、無制限の動的シーンをモデル化します。このシーンでは、自車両の移動に合わせて静的背景が徐々に再構築され、複数の動的ターゲットがガウスグラフを介してモデル化され、シーン全体に統合されます。 LiDAR はガウス初期化として使用され、画像からの詳細な監視だけでなく、より正確なジオメトリ事前予測と包括的なシーン記述を提供します。 3D ガウス スプラッティング。最近の 3DGaussian スプラッティング (3D-GS) は、多数の 3D ガウス分布を使用して静的シーンをモデル化し、新しいビュー合成とトレーニング速度の点で最先端の結果を実現します。以前の明示的なシーン表現 (メッシュ、ボクセルなど) と比較して、3D-GS はより少ないパラメータで複雑な形状をモデル化できます。暗黙的なニューラル レンダリングとは異なり、3D-GS では、スプラット ベースのラスタライゼーションを使用して高速レンダリングと微分可能な計算が可能になります。 動的 3D ガウス スプラッティング。オリジナルの 3D-GS は静的なシーンを表現するために設計されましたが、一部の研究者はそれを動的なオブジェクト/シーンに拡張しました。動的な単眼画像のセットが与えられた場合、 実際の自動運転のシナリオでは、データ取得プラットフォームの高速移動により、広範囲かつ複雑な背景の変化が発生しますが、これは通常、まばらなビュー(例:2~4 ビュー)でキャプチャされます。さらに、空間的な変化や遮蔽が激しい高速で移動する動的オブジェクトによって、状況はさらに複雑になります。これらの要因を総合すると、既存のアプローチに大きな課題が生じます。 DrivingGaussianの詳しい説明複合ガウススプラッティング3D-GS は、純粋に静的なシーンでは優れたパフォーマンスを発揮しますが、大規模な静的な背景と複数の動的オブジェクトが混在するシーンでは大きな制限があります。図 2 に示すように、私たちの目標は、境界のない静的背景と動的ターゲットの複合ガウス スプラッティングを使用して、周囲の大規模な運転シーンを表現することです。 増分静的 3D ガウス。運転シーンの静的な背景は、サイズが大きく、継続時間が長く、自車の動きやカメラの複数の変換によって変化するため、課題が生じます。自車両が移動すると、静的な背景が時間とともに変化することがよくあります。遠近法の原理により、オプティカルフローから離れた時間ステップから遠くの街の風景を事前に統合すると、スケールの混乱が生じ、不快なアーティファクトやぼやけが生じる可能性があります。この問題に対処するために、図 3 に示すように、車両の動きによってもたらされる視点の変化と隣接するフレーム間の時間的関係を利用して、増分静的 3D ガウス分布を導入することで 3D-GS を強化します。 具体的には、まず、LiDAR 事前分布によって提供される深度範囲に基づいて、静的シーンを N 個のビンに均等に分割します。ビンは時間順に並べられ、各ビンは 1 つ以上の時間ステップにおける複数の画像から取得されます。最初のビン内のシーンについては、LiDAR 事前分布を使用してガウス モデルを初期化します (SfM ポイントについても同様)。 後続のビンについては、前のビンのガウス分布を位置の基準として使用し、重複領域に基づいて隣接するビンを位置合わせします。各ビンの 3D 中心は次のように定義できます。 反復的に、後続のビンのシーンを、複数の周囲のフレームを監視として以前に構築したガウス モデルに組み込みます。増分静的ガウスモデル Gs は次のように定義できます。 静的ガウス モデルの増分構築中に、前面カメラと背面カメラによる同じシーンのサンプリングに違いが生じる可能性があることに注意してください。これに対処するために、3D ガウス投影中に加重平均を使用して、シーンの色を可能な限り正確に再構築します。 複合動的ガウスプロット。自動運転環境は、複数の動的ターゲットと時間の変化を伴い、非常に複雑です。図 3 に示すように、自車両と動的ターゲットの動きにより、ターゲットは通常、限られたビュー (例: 2 ~ 4 ビュー) から観察されます。高速化により、動的オブジェクトの空間的な変化も顕著になり、固定ガウス分布を使用して動的オブジェクトを表現することが困難になります。 これらの課題に対処するために、大規模かつ長期的な運転シナリオで複数の動的ターゲットを構築できる複合動的ガウスグラフを導入します。まず、静的な背景から動的な前景オブジェクトを分解し、データセットによって提供される境界ボックスを使用して動的なガウス マップを構築します。動的ターゲットは、ターゲット ID と対応する発生タイムスタンプによって識別されます。さらに、Segment Anything モデルは、境界ボックスの範囲に基づいて動的オブジェクトをピクセル単位で正確に抽出するために使用されます。 次に、動的ガウスグラフを次のように構築します。 ここでは、各動的ターゲットのガウス分布を個別に計算します。変換行列 mo を使用して、ターゲット o の座標系を静的な背景が配置されているワールド座標に変換します。 動的ガウス グラフ内のすべてのノードを最適化した後、複合ガウス グラフを使用して動的ターゲットと静的背景を組み合わせます。各ノードのガウス分布は、境界ボックスの位置と方向に従って時間順に静的ガウス フィールドに連結されます。複数の動的ターゲット間の遮蔽の場合、カメラの中心からの距離に基づいて不透明度を調整します。光の伝播の原理によれば、ターゲットが近いほど不透明度が高くなります。 最後に、静的な背景と複数の動的ターゲットを含む複合ガウス場は次のように定式化できます。 周囲の景色を映したLiDAR Priorプリミティブ 3D-GS は、Structure-from-Motion (SfM) を介してガウス分布を初期化しようとします。しかし、自動運転の対象となる境界のない都市のシーンには、さまざまなスケールの背景や前景が多数含まれています。しかし、それらは極めてまばらなビューを通じてのみ垣間見られるため、ジオメトリの復元は誤りかつ不完全になります。 ガウス分布のより適切な初期化を提供するために、3D ガウス分布の前に LiDAR を導入して、より適切なジオメトリを取得し、サラウンド ビュー登録におけるマルチカメラの一貫性を維持します。各タイムステップで、モバイル プラットフォームから収集されたマルチカメラ画像のセットと、マルチフレーム LIDAR スキャン Lt が提供されます。私たちの目標は、LiDAR 画像のマルチモーダル データを使用してマルチカメラ登録エラーを最小限に抑え、正確なポイントの位置と幾何学的事前分布を取得することです。 まず、複数の LiDAR スキャンをマージしてシーンの完全なポイント クラウドを取得し、各画像から個別に画像の特徴を抽出します。次に、LIDAR ポイントをサラウンド イメージに投影します。各 LIDAR ポイントの座標をカメラ座標系に変換し、投影によってカメラ画像平面の 2D ピクセルに一致させます。 LiDAR からのポイントが複数の画像の複数のピクセルに投影される可能性があることに注意してください。したがって、画像平面までのユークリッド距離が最短の点を選択し、それを投影点として保持し、色を割り当てます。 3D 再構成に関する以前の研究と同様に、高密度バンドル調整 (DBA) をマルチカメラ セットアップに拡張し、更新された LIDAR ポイントを取得します。実験結果では、周囲の複数の目と位置合わせする前に LiDAR で初期化すると、ガウス モデルのより正確な幾何学的事前確率を提供できることが実証されています。 ガウススプラッティングによるグローバルレンダリングこの論文では、微分可能な 3D ガウス スプラッティング レンダラーを採用し、グローバル合成 3D ガウスを 2D に投影します。ここで、共分散行列は次のように与えられます。 複合ガウス場は、グローバル 3D ガウスを複数の 2D 平面に投影し、各タイム ステップでの監視にサラウンド ビューを使用します。グローバル レンダリング中、次のタイム ステップのガウス分布は最初は現在のイメージには表示されず、その後、対応するグローバル イメージの監視と組み合わされます。 私たちの方法の損失関数は 3 つの部分で構成されています。次に、まずタイル構造類似性 (TSSIM) をガウススプラッティングに導入します。これは、レンダリングされたタイルと対応するグラウンドトゥルースとの類似性を測定します。 また、3D ガウス分布の外れ値を減らすための堅牢な損失も導入します。これは次のように定義されます。 ライダーの損失は、ライダーの予想されるガウス位置を監視することで、より優れたジオメトリとエッジ形状を取得するためにさらに活用されます。 実験結果表 1 に示すように、私たちの方法は、新しいビューの合成にハッシュベースの NeRF を使用する Instant-NGP よりも大幅に優れています。 Mip-NeRF と MipNeRF360 は、境界のない屋外シーン向けに設計された 2 つの方法です。私たちの方法は、すべての評価指標においても、他の方法より大幅に優れています。 KITTI-360 シングルビュー合成の比較。単眼運転シナリオ設定における当社のアプローチの有効性をさらに検証するために、KITTI-360 データセットで実験を行い、既存の SOTA 方法と比較しました。表 2 に示すように、当社の方法は単眼運転シナリオで最高のパフォーマンスを示し、既存の方法を大幅に上回っています。さらなる結果とビデオは補足資料に記載されています。 アブレーション実験ガウス分布の事前初期化。さまざまな事前分布と初期化方法がガウスモデルに与える影響を比較実験によって分析しました。オリジナルの 3D-GS には、ランダムに生成されたポイントと COLMAP によって計算された SfM ポイントの 2 つの初期化モードがあります。また、事前トレーニング済みの NeRF モデルからエクスポートされたポイント クラウドと、LiDAR 事前分布を使用して生成されたポイントという、他の 2 つの初期化方法も提供しています。 一方、ポイントクラウドの数の影響を分析するために、LiDAR を 600K にダウンサンプリングし、適応フィルタリング (1M) を適用して、生成される LiDAR ポイントの数を制御します。また、ランダムに生成されたポイントに対して異なる最大しきい値(600K と 1M)を設定しました。ここで、SfM-600K±20KはCOLMAPによって計算されたポイント数を表し、NeRF-1M±20Kは事前トレーニング済みのNeRFモデルによって生成されたポイントの合計数を表し、LiDAR-2M±20Kは元のLiDARポイント数を表します。 表 3 に示すように、ランダムに生成されたポイントは、幾何学的な事前条件がないため、最悪の結果をもたらします。 SfM ポイントによる初期化では、ポイントのスパース性と許容できない構造エラーのため、シーンの正確な幾何学的構造を完全に復元することはできません。事前トレーニング済みの NeRF モデルから生成されたポイント クラウドを利用すると、比較的正確な幾何学的事前分布が得られますが、それでも明らかな外れ値が存在します。 LiDAR 事前確率で初期化されたモデルの場合、ダウンサンプリングによって一部のローカル領域で幾何学的情報が失われますが、それでも比較的正確な構造事前確率が保持されるため、SfM を上回ります (図 5)。また、実験結果はライダーポイントの数に応じて直線的に変化しないこともわかります。これは、過度に密集したポイントに冗長な特徴が格納され、ガウスモデルの最適化を妨げているためだと推測されます。 各モジュールの有効性。提案された各モジュールが最終的なパフォーマンスにどのように貢献するかを分析します。表 4 に示すように、複合動的ガウス マップ モジュールは動的運転シーンの再構築に重要な役割を果たしますが、増分静的 3D ガウス マップ モジュールは、高品質で大規模な背景再構築を実現できます。これら 2 つの新しいモジュールにより、複雑な運転シナリオのモデリング品質が大幅に向上します。提案された損失関数に関しては、結果は、との両方がレンダリング品質を大幅に向上させ、テクスチャの詳細を強化し、アーティファクトを除去することを示しています。 LiDAR 事前分布の助けを借りて、Gaussian がより優れた幾何学的事前分布を取得できるようにします。実験結果では、DrivingGaussian は LiDAR 事前確率がなくても優れたパフォーマンスを発揮し、さまざまな初期化方法に対して堅牢であることも示されています。 コーナーケースシミュレーションさらに、実際の運転シナリオにおけるコーナーケースのシミュレーションにおける当社のアプローチの有効性を実証します。図 6 に示すように、再構成されたガウス場に任意の動的オブジェクトを挿入できます。シミュレートされたシナリオは主に時間的に一貫しており、複数のセンサー間で良好なセンサー間一貫性を示しています。私たちのアプローチにより、自動運転シナリオの制御可能なシミュレーションと編集が可能になり、安全な自動運転システムの研究が促進されます。 要約するこの論文では、提案された複合ガウススプラッティングに基づいて、大規模な動的自動運転シナリオを表現するための新しいフレームワークである DrivingGaussian を提案します。 DrivingGaussian は、増分静的 3D ガウス分布を使用して静的背景を段階的にモデル化し、複合動的ガウス分布を使用して複数の移動ターゲットをキャプチャします。さらに、LiDAR の事前分布を活用して、正確なジオメトリとマルチビューの一貫性を実現します。 DrivingGaussian は、2 つのよく知られた運転データセットで最先端のパフォーマンスを実現し、高品質の周囲ビュー合成と動的なシーン再構築を可能にします。 オリジナルリンク: https://mp.weixin.qq.com/s/pGwIbrgvmbScyNKNbZLE1w |
<<: 大きな模型が家から盗まれました! CNN はマルチモーダル性において Transformer と同等に優れている (Tencent と香港中国語)
>>: ウルトラマンの新技に開発者激怒! ChatGPTプラグインは放棄され、作者がGPTに目を向けたことを示唆している。
2018年11月21日(北京時間)、Cheetah Mobile(NYSE:CMCM)は2018年第...
最近の調査によると、毎日 9,300 万枚の自撮り写真がソーシャル メディアに投稿されており、Ins...
[51CTO.com クイック翻訳]フィリップ・K・ディックの1968年の小説『アンドロイドは電気羊...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[253800]] 2017年にジャック・マーがニューリテールの概念を提唱して以来、雨後の筍のよ...
「最初のディープラーニングフレームワークをどのように選択するか」は、初心者にとって常に頭痛の種でし...
著者 | 崔昊レビュー | Chonglouまとめこの論文では、大規模な言語モデルと LangCha...
01 トラフィック監視セキュリティ任務におけるドローンの有望な用途の 1 つは、交通監視システムの...
比較的新しい概念である AIoT は、人工知能 (AI) とモノのインターネット (IoT) を組み...
[[412385]]人工知能は現在、特に自動運転車でより広く深く活用されています。人工知能を使用して...