Neural Radiance Fieldsは2020年に提案されて以来、関連論文が飛躍的に増加し、3次元再構成の重要な分野となっただけでなく、自動運転の重要なツールとして研究の最前線で徐々に活躍するようになりました。 NeRF は、過去 2 年間で強力な勢力として浮上しました。主な理由は、NeRF が特徴点の抽出とマッチング、エピポーラ幾何学と三角測量、PnP とバンドル調整などの従来の CV 再構築パイプラインのステップを省略し、メッシュ再構築、マッピング、レイ トレーシングさえ省略して、2D 入力画像から放射場を直接学習し、放射場から実際の写真に近いレンダリング画像を出力するためです。言い換えれば、ニューラル ネットワークに基づく暗黙的な 3D モデルを、指定された視点で 2D 画像に適合させ、新しい視点を合成する機能を持たせることができます。 NeRF の開発は自動運転とも密接に関係しており、実際のシーンの再構成や自動運転シミュレーターの応用に反映されています。 NeRF は写真レベルの画像レンダリングを提供することに優れているため、NeRF でモデル化された街路シーンは、自動運転のための非常にリアルなトレーニング データを提供できます。NeRF マップは、建物、車両、歩行者を現実では捉えにくいさまざまなコーナー ケースに組み合わせるように編集でき、認識、計画、障害物回避などのアルゴリズムのパフォーマンスをテストするために使用できます。そのため、3D再構成の分岐指示やモデリングツールとして、NeRFを使いこなすことは再構成や自動運転を行う研究者にとって欠かせないスキルとなっている。 今日は、ナーフと自動運転に関する内容を整理します。過去11回の記事で、ナーフと自動運転の過去と現在を探ります。 1. ナーフの最初の製品NeRF: ビュー合成のためのニューラル放射フィールドとしてシーンを表現する。ECCV2020。 最初の論文は先駆的な研究であり、疎な入力ビューのセットを使用して基礎となる連続ボリュームシーン関数を最適化することで、複雑なシーンの新しいビューを合成する最先端の結果を達成する Nerf 法を提案しています。このアルゴリズムは、完全に接続された(非畳み込み)ディープ ネットワークを使用してシーンを表します。その入力は単一の連続 5D 座標(空間位置(x、y、z)と視線方向(θ、ξ))であり、出力はその空間位置でのボリューム密度とビューに依存する放射輝度です。 NERF は、2D ポーズ画像を教師として使用します。画像を畳み込む必要はありません。代わりに、位置エンコーディングを継続的に学習し、画像の色を教師として使用して、複雑な 3 次元シーンを表現するための一連の暗黙的なパラメーターを学習します。暗黙的な表現を通じて、任意の視点のレンダリングを完了できます。 2. ミップネRF360CVPR2020の作品は、屋外のボーダーレスなシーンに関連しています。 Mip-NeRF 360: 無制限のアンチエイリアス ニューラル放射フィールド 論文リンク: https://arxiv.org/pdf/2111.12077.pdf ニューラル ラディアンス フィールド (NeRF) は、オブジェクトと空間の小さな境界領域で有望なビュー合成結果を示していますが、カメラが任意の方向を向いており、コンテンツが任意の距離に存在する可能性がある「境界のない」シーンでは実装が困難です。この文脈では、既存の NeRF のようなモデルは、近くのオブジェクトと遠くのオブジェクトの詳細とスケールの不均衡により、ぼやけたレンダリングや低解像度のレンダリングを生成することが多く、トレーニングに時間がかかり、一連の小さな画像から大きなシーンを再構築するというタスクの固有の曖昧さにより、アーティファクトが発生する可能性があります。本稿では、サンプリングとエイリアシングの問題に対処する NeRF のバリエーションである mip-NeRF の拡張を提案します。これは、非線形シーン パラメータ化、オンライン蒸留、および新しい歪みベースの正規化を使用して、無制限のシーンによってもたらされる課題を克服します。 mip-NeRF と比較すると、平均二乗誤差が 57% 削減され、非常に複雑で境界のない現実世界のシーンに対して、リアルな合成ビューと詳細な深度マップを生成できます。 3. インスタントNGP明示的なボクセルと暗黙的な特徴を組み合わせたハイブリッドシーン表現 (SIGGRAPH 2022) マルチ解像度ハッシュエンコーディングによるインスタントニューラルグラフィックスプリミティブ リンク: https://nvlabs.github.io/instant-ngp ここではまず、Instant-NGP と NeRF の類似点と相違点を示します。
大きなフレームワークは依然として同じであることがわかりますが、最も重要な違いは、NGP がシーン表現としてパラメーター化されたボクセル グリッドを選択することです。学習により、ボクセルに格納されたパラメータがシーン密度の形状になります。 MLP の最大の問題は、速度が遅いことです。シーンを高品質で再構築するには、比較的大規模なネットワークが必要になることが多く、各サンプリング ポイントがネットワークを通過するのに多くの時間がかかります。グリッド内の補間ははるかに高速です。しかし、グリッドで高精度なシーンを表現するには高密度のボクセルが必要となり、メモリ使用量が非常に多くなってしまいます。シーン内に空白領域が多いことを考慮して、NVIDIA はシーンを表現するためにスパース構造を提案しました。 4. F2-NeRFF2-NeRF: 自由カメラ軌跡による高速ニューラル放射輝度フィールドトレーニング 論文リンク: https://totoro97.github.io/projects/f2-nerf/ 私たちは、新しいビュー合成のために、任意の入力カメラ軌跡を実装でき、トレーニングに数分しかかからない、F2-NeRF (Fast Free NeRF) と呼ばれる新しいグリッドベースの NeRF を提案します。 Instant NGP、Plenoxels、DVGO、TensoRF などの既存の高速グリッドベースの NeRF トレーニング フレームワークは、主に境界付きシナリオ向けに設計されており、境界なしシナリオの処理には空間ワーピングに依存しています。広く使用されている既存の 2 つの空間ワーピング手法は、前向きの軌道または 360 度のオブジェクト中心の軌道のみを対象としており、任意の軌道を処理することはできません。この論文では、境界のないシーンを処理するための空間ワーピングのメカニズムを詳細に研究します。さらに、グリッドベースの NeRF フレームワークで任意の軌跡を処理できる、パースペクティブ ワーピングと呼ばれる新しい空間ワーピング手法を提案します。広範囲にわたる実験により、F2-NeRF は、収集された 2 つの標準データセットと新しい自由軌跡データセットで同じビューワーピングを使用して高品質の画像をレンダリングできることが実証されています。 5.モバイルNeRFモバイルデバイスでのリアルタイムレンダリング、メッシュのエクスポートのNerfがCVPR2023に含まれています。 MobileNeRF: モバイル アーキテクチャ上で効率的なニューラル フィールド レンダリングを実現するポリゴン ラスタライゼーション パイプラインの活用。 出典:http://arxiv.org/pdf/2208.00277.pdf Neural Radiance Fields (NeRF) は、斬新な視点から 3D シーンの画像を合成する驚くべき能力を実証しました。しかし、これらはレイマーチングに基づく特殊なボリューム レンダリング アルゴリズムに依存しており、広く導入されているグラフィックス ハードウェアの機能と一致しません。この論文では、標準のレンダリング パイプラインを介して新しい画像を効率的に合成するために使用できる、テクスチャ ポリゴンに基づく新しい NeRF 表現を紹介します。 NeRF は、バイナリ不透明度と固有ベクトルを表すテクスチャを持つポリゴンのセットとして表されます。 Z バッファを使用したポリゴンの従来のレンダリングでは、各ピクセルに特徴があり、フラグメント シェーダで実行される小さなビュー依存 MLP によって解釈されて最終的なピクセル カラーが生成される画像が生成されます。このアプローチにより、NeRF は従来のポリゴン ラスタライズ パイプラインを使用してレンダリングできるようになり、大規模なピクセル レベルの並列処理が提供され、携帯電話を含むさまざまなコンピューティング プラットフォームでインタラクティブなフレーム レートが実現します。 6. 共同SLAMリアルタイム視覚測位と NeRF マッピング作業が CVPR2023 に含まれていました。 Co-SLAM: ニューラルリアルタイムSLAMのための座標とスパースパラメトリックの結合エンコーディング 論文リンク: https://arxiv.org/pdf/2304.14377.pdf Co-SLAM は、ニューラル暗黙的表現に基づくリアルタイム RGB-D SLAM システムであり、カメラ追跡と高忠実度の表面再構築が可能です。 Co-SLAM は、非常に高い収束速度と高頻度のローカル特徴を表現する能力を活用するために、シーンをマルチ解像度のハッシュ グリッドとして表現します。さらに、表面一貫性事前条件を組み込むために、Co-SLAM はブロック エンコーディング メソッドを追加します。これにより、観測されていない領域でも堅牢なシーン補完が可能になることが示されています。私たちの共同エンコーディングは、速度、高忠実度の再構成、表面の一貫性の事前条件という両方の長所を Co-SLAM に組み合わせ、レイ サンプリング戦略により、Co-SLAM はすべてのキーフレームに対してグローバル バンドル調整を実行できます。 7.ニューラランジェロ現在最も優れたNeRF表面再構成法(CVPR2023) ニューラル サーフェス再構築は、画像ベースのニューラル レンダリングを介して高密度の 3D サーフェスを復元できることが示されています。しかし、現在の方法では現実世界のシーンの詳細な構造を復元することは困難です。この問題に対処するために、私たちは、マルチ解像度 3D ハッシュ メッシュの表現力とニューラル サーフェス レンダリングを組み合わせた NeuralAngelo を提案します。 2つの重要な要素: (1)平滑化操作として高次導関数の数値勾配を計算するため、および(2)異なる詳細レベルでハッシュグリッド上の粗い最適化から細かい最適化を制御するため。 NeuralAngelo は、深度などの補助入力がなくても、従来の方法を大幅に上回る忠実度で、マルチビュー画像から高密度の 3D 表面構造を効果的に復元できるため、RGB ビデオ キャプチャから詳細な大規模シーンの再構築が可能になります。 8. 火星自動運転用の最初のオープンソース NeRF シミュレーション ツール。 出典: http://arxiv.org/pdf/2307.15058.pdf 自動運転車は通常の状況ではスムーズに走行できますが、残りの困難な状況を解決するには現実的なセンサーシミュレーションが重要な役割を果たすと広く考えられています。この目的のために、MARS は神経放射場に基づく自動運転シミュレーターを提案しました。既存の研究と比較して、MARSには3つの注目すべき特徴があります。(1)インスタンス認識。シミュレーターは、個別のネットワークを使用してフォアグラウンド インスタンスとバックグラウンド環境を個別にモデル化することで、インスタンスの静的プロパティ (サイズや外観など) と動的プロパティ (軌道など) を個別に制御できるようにします。 (2)モジュール性シミュレーターを使用すると、さまざまな最新の NeRF 関連のバックボーン、サンプリング戦略、入力モードなどを柔軟に切り替えることができます。このモジュール設計により、NeRF ベースの自動運転シミュレーションの学術的進歩と産業展開が促進されることを期待しています。 (3)真正性シミュレーターは、最適なモジュール選択により最先端のフォトリアリスティックな結果を実現します。 最も重要な点は、オープンソースであることです。 9. ユニオックNeRF と 3D 占有ネットワーク、AD2023 チャレンジ UniOcc: 視覚中心の 3D 占有予測と幾何学的およびセマンティック レンダリングを統合します。 論文リンク: https://arxiv.org/abs/2306.09117 UniOCC は、視覚中心の 3D 占有予測です。占有予測の既存の方法は、主に 3D 占有ラベルを使用して 3D ボリューム空間に投影された特徴を最適化することに重点を置いています。ただし、これらのラベルは生成が複雑でコストがかかり (3D セマンティック注釈に依存)、ボクセル解像度によって制限されるため、きめ細かい空間セマンティクスを提供することはできません。この制限に対処するために、本論文では、空間ジオメトリ制約を明示的に課し、ボリュームレイレンダリングによるきめ細かいセマンティック監視を補完する、新しい統合占有率 (UniOcc) 予測方法を提案します。この方法はモデルのパフォーマンスを大幅に向上させ、手動注釈コストを削減する可能性を実証しています。 3D 占有率の注釈付けの面倒な性質を考慮して、ラベルなしデータを使用して予測精度を向上させるために、深度を考慮した教師-生徒 (DTS) フレームワークがさらに導入されています。このソリューションは、スタンドアロン モデルの公式リーダーボードで 51.27% mIoU のスコアを達成し、このチャレンジで 3 位にランクされました。 10. ユニシムwaabi が製造するものはどれも高品質の製品に違いありません! UniSim: ニューラル閉ループセンサーシミュレーター 論文リンク: https://arxiv.org/pdf/2308.01898.pdf 自動運転の普及を阻む大きな理由として、安全性がまだ十分ではないことが挙げられます。現実世界は、特にロングテール効果により、非常に複雑です。境界シナリオは安全運転に不可欠です。境界シナリオは多様ですが、遭遇するのは困難です。こうしたシナリオで自動運転システムがどのように機能するかをテストするのは困難です。なぜなら、現実世界では遭遇することが難しく、テストするには非常に費用がかかり、危険だからです。 この課題に対処するために、産業界と学界の両方がシミュレーションシステムの開発に注目し始めています。当初、シミュレーション システムは、他の車両や歩行者の動きをシミュレートし、自動運転計画モジュールの精度をテストすることに重点を置いていました。近年、研究の焦点は徐々にセンサーレベルでのシミュレーション、つまり、LIDARやカメラ画像などの生データの生成をシミュレートして、知覚、予測から計画までの自動運転システムのエンドツーエンドのテストを実現することへと移行しています。 これまでの研究とは異なり、UniSim は初めて次のことを同時に実現しました。
シミュレーションシステムの構築 UniSim はまず、収集した車、歩行者、道路、建物、交通標識などのデータから、デジタル世界での自動運転シーンを再構築します。次に、再構成されたシーンを制御してシミュレーションを実行し、いくつかの珍しいキーシーンを生成します。 閉ループシミュレーション UniSim は、閉ループ シミュレーション テストを実行できます。まず、UniSim は、車の挙動を制御することで、現在の車線で突然車が近づいてくるなど、危険でまれなシナリオを作成できます。次に、UniSim はシミュレーションを実行して対応するデータを生成します。次に、自動運転システムが実行され、経路計画の結果が出力されます。経路計画の結果に基づいて、無人車両は次の指定された場所に移動し、シーン (無人車両と他の車両の位置) を更新します。次に、シミュレーションを続行し、自動運転システムを実行し、仮想世界の状態を更新します。この閉ループ テストを通じて、自動運転システムとシミュレーション環境が相互作用し、元のデータとはまったく異なるシーンを作成できます。 |
<<: 自動運転におけるBEVとSLAMをわかりやすく説明するにはどうすればいいでしょうか?
>>: 人工知能の分野でデータの機密性をどのように保護するか?
大規模な AI モデルのトレンドは通信業界にも浸透しています。米国のAIスタートアップ企業Anthr...
[51CTO.com からのオリジナル記事]活動の説明: Aiti Tribe は、コア開発者に詳...
序文今は知識が急速に反復される時代です。この時代では、次のように感じるかもしれません。「最初から最後...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
著者 | 嘉宏、舜慧、郭良 他ディープラーニングの時代では、コンピューティングパワーの需要と消費が増...
職場復帰の日が近づくにつれ、全国で生産や業務が徐々に再開されているが、同時に防疫活動も緩めてはならな...
2012 年、AI 研究者はコンピューター ビジョンで大きな進歩を遂げ、ImageNet として知ら...
インターネットの発展により、人々は膨大な量の情報と製品の選択肢に直面しており、パーソナライズされた推...
効果的な IT 組織は、ハイパフォーマンス コンピューティング (HPC) から教訓を得て、システム...
世界的なパンデミックの影響で、世界各地でロックダウンが実施されたことにより、街の交通量は減少し、地域...
AIの発展には基礎教育を強化しなければ手遅れになります。大規模モデル技術が急速に発展し、企業間の競争...
これまで多くの技術進歩の基盤となってきたデータセンターは、現在、インフラストラクチャ プロバイダーだ...