DrivingGaussian: リアルなサラウンドビューデータ、運転シーンの再構成SOTA

DrivingGaussian: リアルなサラウンドビューデータ、運転シーンの再構成SOTA

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

DrivingGaussian: 周囲の動的な自動運転シーンの合成ガウススプラッティング

論文リンク: https://arxiv.org/pdf/2312.07920.pdf

コードリンク: https://pkuvdig.github.io/DrivingGaussian/

著者所属: 北京大学、Google Research、カリフォルニア大学マーセド校

論文のアイデア:

この論文では、動的な自動運転シナリオのための効率的で費用対効果の高いフレームワークである DrivingGaussian を提案します。移動するオブジェクトを含む複雑なシーンの場合、まず増分静的 3D ガウス分布を使用して、シーン全体の静的な背景を順次段階的にモデル化します。次に、複合動的ガウス グラフを使用して複数の移動オブジェクトを処理し、各オブジェクトを個別に再構築し、シーン内の正確な位置と遮蔽関係を復元します。この論文では、ガウススプラッティングに LiDAR 事前分布をさらに使用して、より詳細なシーンを再構築し、パノラマの一貫性を維持します。 DrivingGaussian は、運転シーンの再構築において既存の方法よりも優れており、高い忠実度と複数のカメラの一貫性を備えたリアルなサラウンド ビュー合成を可能にします。

主な貢献:

私たちの知る限り、DrivingGaussian は、複合ガウス スプラッティングに基づく大規模な動的運転シーンの表現およびモデリング フレームワークとしては初めてのものです。

増分静的 3D ガウス分布と複合動的ガウス分布グラフを含む 2 つの新しいモジュールが導入されました。前者は静的な背景を段階的に再構築し、後者はガウスマップを使用して複数の動的オブジェクトをモデル化します。 LiDAR 事前確率の支援により、当社のアプローチは大規模な運転シナリオで完全なジオメトリを回復するのに役立ちます。

包括的な実験により、DrivingGaussian は、困難な自動運転ベンチマークにおいて従来の方法よりも優れた性能を発揮し、さまざまな下流タスクでコーナーケースのシミュレーションを実行できることが示されました。

ネットワーク設計:

この論文では、サラウンドビューの動的自動運転シナリオを表現するための新しいフレームワークである DrivingGaussian を紹介します。この論文の重要なアイデアは、複数のセンサーからの順次データを使用して、複雑な運転シナリオを階層的にモデル化することです。この論文では、複合ガウススプラッティングを使用して、シーン全体を静的な背景と動的なオブジェクトに分解し、各部分を個別に再構築します。具体的には、まず増分静的 3D ガウス分布を使用して、周囲のマルチカメラ ビューから合成シーンを順次構築します。次に、複合動的ガウスマップを使用して、各移動オブジェクトを個別に再構築し、ガウスマップに基づいて静的背景に動的に統合します。これを基に、ガウス スプラッティングを通じてグローバル レンダリングを実行し、静的な背景や動的なオブジェクトを含む現実世界のオクルージョン関係をキャプチャします。さらに、本論文ではGS表現にLiDAR事前分布を組み込んでおり、ランダム初期化やSfM [34]を使用して生成された点群と比較して、より正確な形状を復元し、より優れたマルチビューの一貫性を維持できる。

広範囲にわたる実験により、私たちのアプローチは公開されている自動運転データセットで最先端のパフォーマンスを達成することが実証されています。事前の LiDAR がなくても、私たちのアプローチは優れたパフォーマンスを示し、大規模な動的シーンの再構築における汎用性を実証しています。さらに、当社のフレームワークは動的シナリオ構築とコーナーケースシミュレーションをサポートしており、自動運転システムの安全性と堅牢性の検証に役立ちます。

図 1. DrivingGaussian は、サラウンドビューの動的自動運転シーンでリアルなレンダリング パフォーマンスを実現します。単純な方法[13, 49]では、大規模な背景に不快なアーティファクトやぼやけが生じたり、動的なオブジェクトや詳細なシーンの形状を再構築することが困難になったりします。 DrivingGaussian は、複雑な周囲の運転シーンで静的な背景と複数の動的オブジェクトを効果的に表現するために、初めて複合ガウス スプラッティングを導入しました。 DrivingGaussian は、複数のカメラにわたって高品質のサラウンドビューを合成し、長期にわたる動的シーンの再構築を容易にします。

図2. 私たちの方法の全体的なプロセス。左: DrivingGaussian は、マルチカメラ画像や LiDAR など、複数のセンサーから連続データを取得します。中央: 大規模な動的運転シーンを表現するために、この論文では 2 つの部分で構成される複合ガウス スプラッティングを提案します。最初の部分では、広い静的背景を段階的に再構築し、2 番目の部分では、ガウス マップを使用して複数の動的オブジェクトを構築し、それらをシーンに動的に統合します。右: DrivingGaussian は、複数のタスクとアプリケーション シナリオで優れたパフォーマンスを発揮します。

図 3. 増分静的 3D ガウス プロットと動的ガウス プロットを使用した複合ガウス スプラッティング。この論文では、複合ガウススプラッティングを使用して、シーン全体を静的な背景と動的なオブジェクトに分解し、各部分を個別に再構築して、それらを統合してグローバルレンダリングを行います。

実験結果:

要約:

この論文では、提案された複合ガウススプラッティングに基づいて大規模な動的自動運転シナリオを表現するための新しいフレームワークである DrivingGaussian を紹介します。 DrivingGaussian は、増分静的 3D ガウス分布を使用して静的背景を増分的にモデル化し、複合動的ガウス分布グラフを使用して複数の移動オブジェクトをキャプチャします。この論文では、LiDAR の事前確率をさらに活用して、正確な幾何学的構造とマルチビューの一貫性を実現します。 DrivingGaussian は、2 つの自動運転データセットで最先端のパフォーマンスを実現し、高品質のサラウンドビュー合成と動的シーン再構築を可能にします。

引用:

Zhou, X., Lin, Z., Shan, X., Wang, Y., Sun, D., & Yang, M. (2023). DrivingGaussian: 周囲の動的自動運転シーンのための複合ガウススプラッティング。ArXiv. /abs/2312.07920

オリジナルリンク: https://mp.weixin.qq.com/s/p1J20g0kVUG6kVpq_SEgxQ

<<: 

>>:  ストリームPETRを超えて! BEVNeXt: 高密度 BEV 認識のための新しいフレームワーク

ブログ    

推薦する

...

RNN (リカレント ニューラル ネットワーク) の背後にある数学の図解説明

導入最近では、機械学習、ディープラーニング、人工ニューラルネットワークに関する議論がますます増えてい...

低品質の AIGC コンテンツがインターネット エコシステムに溢れかえれば、エコシステムは破壊されてしまいます。

少し前、ChatGPT は突然人気を博し、ユーザーベースが急速に増加しました。多くの人が「生成 AI...

C# アルゴリズムで実装された文字列反転の簡単な分析

C# を使用して文字列反転アルゴリズムを実装することに関する面接の質問を見てみましょう。文字列反転の...

ChatGPT がリリースされてから 1 年が経ちました。主要なオープン ソース モデルはすべて追いついたのでしょうか?

1年前の今日、ChatGPTが誕生し、人工知能の新しい時代が到来したように思えました。 ChatG...

チップ大手がCESで新年の幕開けを飾る戦いを繰り広げる! AMD、インテル、NVIDIA、クアルコムの衝撃的な対決

毎年恒例のテクノロジー業界のオープニングショー「CES」が現在、米国ラスベガスで開催されています。 ...

神経系とビッグデータ、新しい次元削減アルゴリズムが脳をシンプルにする

ネイチャー・ニューロサイエンス誌に掲載されたレビュー記事で、カーネギーメロン大学のバイロン・M・ユー...

国内の音声対話モデルはこちら:Kai-Fu LeeとZero One Everythingが参加、中国語と英語のバイリンガルマルチモーダル、オープンソースで市販されている

中国語と英語のバイリンガル音声対話の最初のオープンソース モデルが登場しました。最近、arXivに音...

...

人工知能技術の成功と失敗を支える5つの中核要素

海外メディア(VentureBeat)によると、1980年代後半には、多くのスタートアップ企業、政府...

日本政府は国民が人生のパートナーを見つけるのを支援するためにAI技術を活用することを計画している

完璧なパートナーを見つけることは、特に新型コロナウイルスによるロックダウンや隔離により対面でのコミュ...

ソフトウェアエンジニアの年収は930万ドル! Googleの給与が明らかに:15億6千万ドルは史上最高額

シリコンバレーの大企業の中でも、グーグルの従業員はテクノロジー業界で最も高給を得ている社員の一部であ...

顔認識技術の法的ギャップを埋める必要がある

顔認識などの新興技術が普及し、何百万人もの人々の生活に入り込むにつれて、技術の使用をめぐる論争がます...

自社開発のAIチップのトレンドが始まっており、テクノロジー依存からの脱却は始まりに過ぎない

大規模な AI モデルへの熱狂に後押しされ、AI チップの分野ではついに百家争鳴の時代が到来しました...

機械学習を簡単に理解!クラスタリング、回帰、分類アルゴリズムを説明する 3 つのケース

機械はどのように学習し、何を学ぶのでしょうか?人間はどうやって機械に学習を教えるのでしょうか?この記...