この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 序文と著者の個人的な要約近年、3D 占有率予測タスクは、その独自の利点により、学界や産業界から幅広い注目を集めています。 3D 占有予測は、周囲の環境の 3D 構造を再構築することで、自動運転の計画とナビゲーションに詳細な情報を提供します。ただし、既存の方法のほとんどは、ネットワークのトレーニングを監視するために LiDAR ポイント クラウドから生成されたラベルに依存しています。 OccNeRF の研究では、著者らは自己教師型マルチカメラ占有予測法を提案しました。この方法のパラメータ化された占有フィールドは、境界のない屋外シーンの問題を解決し、サンプリング戦略を再編成します。占有フィールドは、ボリュームレンダリングを通じてマルチカメラ深度マップに変換され、最後にマルチフレームの測光一貫性によって監視されます。さらに、この方法では、事前にトレーニングされたオープン語彙セマンティックセグメンテーションモデルを使用して 2D セマンティックラベルを生成し、モデルを監視して占有フィールドのセマンティック情報を割り当てます。
OccNeRF 問題の背景近年、人工知能技術の急速な発展に伴い、自動運転の分野も大きな進歩を遂げています。 3D 認識は自動運転を実現するための基礎であり、その後の計画決定に必要な情報を提供します。従来の方法では、LIDAR は正確な 3D データを直接キャプチャできますが、センサーのコストが高く、スキャン ポイントがまばらであるため、実際の適用が制限されます。対照的に、画像ベースの 3D 認識方法は低コストで効果的であり、ますます注目を集めています。マルチカメラ 3D オブジェクトの検出は、これまで 3D シーン理解タスクの主流となってきましたが、現実世界の無限のカテゴリに対応できず、データのロングテール分布の影響を受けます。 3D 占有予測は、マルチビュー入力から周囲のシーンの幾何学的構造を直接再構築することで、これらの欠点を補うことができます。既存の方法のほとんどは、モデル設計とパフォーマンスの最適化に重点を置いており、ネットワーク トレーニングを監督するためにLiDAR ポイント クラウドから生成されたラベルに依存していますが、これは画像ベースのシステムでは利用できません。つまり、トレーニング データを収集するためには依然として高価なデータ収集車両を使用する必要があり、LiDAR ポイント クラウドの補助注釈がなければ大量の実データが無駄になるため、3D 占有率予測の開発はある程度制限されます。したがって、自己教師ありの 3D 占有予測を探求することは非常に価値のある方向性です。 OccNeRFアルゴリズムの詳細な説明下の図は、OccNeRF 方式の基本的なプロセスを示しています。複数のカメラ画像を使用したモデル 入力として、まず 2D バックボーンを使用して N 枚の画像の特徴を抽出します。 次に、単純な投影と双線形補間を通じて 3D 特徴 (パラメーター化された空間内) を直接取得し、最後に 3D CNN ネットワークを通じて 3D 特徴を最適化し、予測結果を出力します。モデルをトレーニングするために、OccNeRF メソッドはボリューム レンダリングを通じて現在のフレームの深度マップを生成し、前のフレームと次のフレームを導入して測光損失を計算します。より多くの時間情報を導入するために、OccNeRF は占有フィールドを使用してマルチフレーム深度マップをレンダリングし、損失関数を計算します。同時に、OccNeRF は 2D セマンティック マップもレンダリングし、オープン ボキャブラリ セマンティック セグメンテーション モデルによって監視されます。 パラメータ化された占有フィールドパラメータ化された占有フィールドは、カメラと占有グリッド間の認識範囲のギャップの問題に対処するために提案されました。理論的には、カメラは無限遠にある物体を撮影できますが、これまでの占有予測モデルでは比較的近い空間(たとえば、40 メートル以内)のみを考慮していました。教師あり方式では、モデルは教師信号に基づいて遠くのオブジェクトを無視することを学習できます。一方、教師なし方式では、近くの空間のみが考慮される場合、画像内の範囲外のオブジェクトの数が多すぎると、最適化プロセスに悪影響が及ぶことになります。これに基づいて、OccNeRF はパラメーター化された占有フィールドを使用して、無制限の範囲の屋外シーンをモデル化します。 OccNeRF のパラメータ化空間は、内部と外部に分かれています。内部空間は元の座標の線形マッピングであり、高解像度を維持しますが、外部空間は無限の範囲を表します。具体的には、OccNeRFは 座標は次のように変化します。 で のために 座標、、 内部空間に対応する境界値を示す調整可能なパラメータです。 これは、占有される内部空間の割合を示す調整可能なパラメータでもあります。パラメータ化された占有フィールドを生成する場合、OccNeRF は最初にパラメータ化された空間でサンプリングし、逆変換によって元の座標を取得し、次に元の座標を画像平面に投影し、最後にサンプリングと 3 次元畳み込みによって占有フィールドを取得します。 マルチフレーム深度推定占有ネットワークをトレーニングするために、OccNeRF はボリューム レンダリングを使用して占有を深度マップに変換し、測光損失関数を通じて監視することを選択します。深度マップをレンダリングするときは、サンプリング戦略が重要です。パラメータ化された空間では、深度または視差に基づいて直接均一にサンプリングを実行すると、サンプリング ポイントが内部空間または外部空間に不均一に分散され、最適化プロセスに影響を及ぼします。したがって、OccNeRF は、カメラの中心が原点に近いという前提の下で、パラメータ化された空間内で均一なサンプリングを直接実行できることを提案しています。さらに、OccNeRF はトレーニング中にマルチフレームの深度マップをレンダリングして監視します。 下の図は、パラメータ化された空間表現を使用する利点を直感的に示しています。 (3 行目ではパラメータ化されたスペースが使用されていますが、2 行目では使用されていません。) セマンティックラベル生成OccNeRF は、事前トレーニング済みの GroundedSAM (Grounding DINO + SAM) を使用して 2D セマンティック ラベルを生成します。高品質のラベルを生成するために、OccNeRF は 2 つの戦略を採用しています。1 つ目はプロンプト ワード最適化で、nuScenes のあいまいなカテゴリを正確な説明に置き換えます。 OccNeRF では、プロンプト語を最適化するために、あいまいな単語を置き換える (car を sedan に置き換える)、単一の単語を複数の単語に変更する (manmade を building、billboard、bridge に置き換える)、および追加情報を導入する (bicycle を bicycle、bicyclist に置き換える) という 3 つの戦略が使用されています。 2 つ目は、SAM によって与えられたピクセルごとの信頼度ではなく、Grounding DINO の検出ボックスの信頼度に基づいてカテゴリを決定することです。 OccNeRF によって生成されるセマンティック ラベルは次のとおりです。 OccNeRF実験結果OccNeRF は nuScenes で実験され、主にマルチビュー自己教師深度推定と 3D 占有予測タスクを完了しました。 マルチビュー自己教師深度推定OccNeRF の nuScenes におけるマルチビュー自己教師深度推定のパフォーマンスを次の表に示します。 3D モデリングに基づく OccNeRF は、主に OccNeRF が屋外シーンの無限の空間範囲をモデル化するため、2D 方式や SimpleOcc よりも大幅に優れていることがわかります。 論文中の視覚化の一部は次のとおりです。 3D占有率予測nuScenes での 3D 占有予測における OccNeRF のパフォーマンスを次の表に示します。 OccNeRF はラベル付きデータをまったく使用しないため、そのパフォーマンスは依然として教師あり学習法に遅れをとっています。ただし、一部のカテゴリ (走行可能な表面や人工物など) では、監督された方法に匹敵するパフォーマンスが達成されています。 この記事の視覚化の一部は次のとおりです。 要約する多くの自動車メーカーがLiDARセンサーの廃止を試みている現在、何千ものラベルのない画像データをいかに有効活用するかが重要な課題となっている。 OccNeRF は非常に価値のある試みをもたらします。 オリジナルリンク: https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA |
<<: 2GBのDAYU200に大規模な言語モデルをローカルにデプロイする
>>: 旅の途中のハードウェア プロジェクトが公開されました。 Apple Vision Proのエンジニアがスーパーバイザーを務め、かつてはマスクの脳コンピューターインターフェース企業で働いていた
9月4日、ChatGPT Plusサブスクリプションサービスで独自のCanvaプラグインがリリースさ...
[[201235]]概念とそれがビジネス目標に与える影響を学ぶことは非常に重要です。アルゴリズムの...
免疫療法はがんの診断と治療に革命をもたらしていますが、まだ少数の患者(20%~30%)にしか効果があ...
志東西(公式アカウント:zhidxcom)起源ディープラーニング分野の大物として、ヤン・ルカン氏は近...
[[391934]]スマートグラスの技術は長い間、SF作家たちの想像力をかき立ててきました。理論上、...
論文アドレス: https://arxiv.org/pdf/2206.11863.pdfデータセット...
最近、清華大学コンピュータサイエンス学部の朱軍教授の研究グループが発表したシュレーディンガー橋[1]...
[[414991]]この記事はWeChatの公開アカウント「Linux Kernel Things」...
コード共有サービス GitHub は、ソフトウェア開発者向けの人工知能アシスタント「GitHub C...
新型コロナウイルス肺炎の流行が始まって以来、人工知能技術は、流行の監視と分析、人員と物資の管理、医療...
本日、インテルとその開発者エコシステム パートナーは、「インテリジェント エッジに焦点を当て、開発者...
[[185985]]ニューラル ネットワークが無限のトリックを実行するのを見ると、最近ではディープラ...