OccNeRF: LIDARデータの監視は不要

OccNeRF: LIDARデータの監視は不要

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な要約

近年、3D 占有率予測タスクは、その独自の利点により、学界や産業界から幅広い注目を集めています。 3D 占有予測は、周囲の環境の 3D 構造を再構築することで、自動運転の計画とナビゲーションに詳細な情報を提供します。ただし、既存の方法のほとんどは、ネットワークのトレーニングを監視するために LiDAR ポイント クラウドから生成されたラベルに依存しています。 OccNeRF の研究では、著者らは自己教師型マルチカメラ占有予測法を提案しました。この方法のパラメータ化された占有フィールドは、境界のない屋外シーンの問題を解決し、サンプリング戦略を再編成します。占有フィールドは、ボリュームレンダリングを通じてマルチカメラ深度マップに変換され、最後にマルチフレームの測光一貫性によって監視されます。さらに、この方法では、事前にトレーニングされたオープン語彙セマンティックセグメンテーションモデルを使用して 2D セマンティックラベルを生成し、モデルを監視して占有フィールドのセマンティック情報を割り当てます。

  • 論文リンク: https://arxiv.org/pdf/2312.09243.pdf
  • コードリンク: https://github.com/LinShan-Bin/OccNeRF

OccNeRF 問題の背景

近年、人工知能技術の急速な発展に伴い、自動運転の分野も大きな進歩を遂げています。 3D 認識は自動運転を実現するための基礎であり、その後の計画決定に必要な情報を提供します。従来の方法では、LIDAR は正確な 3D データを直接キャプチャできますが、センサーのコストが高く、スキャン ポイントがまばらであるため、実際の適用が制限されます。対照的に、画像ベースの 3D 認識方法は低コストで効果的であり、ますます注目を集めています。マルチカメラ  3D オブジェクトの検出は、これまで 3D シーン理解タスクの主流となってきましたが、現実世界の無限のカテゴリに対応できず、データのロングテール分布の影響を受けます。

3D 占有予測は、マルチビュー入力から周囲のシーンの幾何学的構造を直接再構築することで、これらの欠点を補うことができます。既存の方法のほとんどは、モデル設計とパフォーマンスの最適化に重点を置いており、ネットワーク トレーニングを監督するためにLiDAR ポイント クラウドから生成されたラベルに依存していますが、これは画像ベースのシステムでは利用できません。つまり、トレーニング データを収集するためには依然として高価なデータ収集車両を使用する必要があり、LiDAR ポイント クラウドの補助注釈がなければ大量の実データが無駄になるため、3D 占有率予測の開発はある程度制限されます。したがって、自己教師ありの 3D 占有予測を探求することは非常に価値のある方向性です。

OccNeRFアルゴリズムの詳細な説明

下の図は、OccNeRF 方式の基本的なプロセスを示しています。複数のカメラ画像を使用したモデル  入力として、まず 2D バックボーンを使用して N 枚の画像の特徴を抽出します。  次に、単純な投影と双線形補間を通じて 3D 特徴 (パラメーター化された空間内) を直接取得し、最後に 3D CNN ネットワークを通じて 3D 特徴を最適化し、予測結果を出力します。モデルをトレーニングするために、OccNeRF メソッドはボリューム レンダリングを通じて現在のフレームの深度マップを生成し、前のフレームと次のフレームを導入して測光損失を計算します。より多くの時間情報を導入するために、OccNeRF は占有フィールドを使用してマルチフレーム深度マップをレンダリングし、損失関数を計算します。同時に、OccNeRF は 2D セマンティック マップもレンダリングし、オープン ボキャブラリ セマンティック セグメンテーション モデルによって監視されます。

パラメータ化された占有フィールド

パラメータ化された占有フィールドは、カメラと占有グリッド間の認識範囲のギャップの問題に対処するために提案されました。理論的には、カメラは無限遠にある物体を撮影できますが、これまでの占有予測モデルでは比較的近い空間(たとえば、40 メートル以内)のみを考慮していました。教師あり方式では、モデルは教師信号に基づいて遠くのオブジェクトを無視することを学習できます。一方、教師なし方式では、近くの空間のみが考慮される場合、画像内の範囲外のオブジェクトの数が多すぎると、最適化プロセスに悪影響が及ぶことになります。これに基づいて、OccNeRF はパラメーター化された占有フィールドを使用して、無制限の範囲の屋外シーンをモデル化します。

OccNeRF のパラメータ化空間は、内部と外部に分かれています。内部空間は元の座標の線形マッピングであり、高解像度を維持しますが、外部空間は無限の範囲を表します。具体的には、OccNeRFは  座標は次のように変化します。

  のために  座標、、  内部空間に対応する境界値を示す調整可能なパラメータです。  これは、占有される内部空間の割合を示す調整可能なパラメータでもあります。パラメータ化された占有フィールドを生成する場合、OccNeRF は最初にパラメータ化された空間でサンプリングし、逆変換によって元の座標を取得し、次に元の座標を画像平面に投影し、最後にサンプリングと 3 次元畳み込みによって占有フィールドを取得します。

マルチフレーム深度推定

占有ネットワークをトレーニングするために、OccNeRF はボリューム レンダリングを使用して占有を深度マップに変換し、測光損失関数を通じて監視することを選択します。深度マップをレンダリングするときは、サンプリング戦略が重要です。パラメータ化された空間では、深度または視差に基づいて直接均一にサンプリングを実行すると、サンプリング ポイントが内部空間または外部空間に不均一に分散され、最適化プロセスに影響を及ぼします。したがって、OccNeRF は、カメラの中心が原点に近いという前提の下で、パラメータ化された空間内で均一なサンプリングを直接実行できることを提案しています。さらに、OccNeRF はトレーニング中にマルチフレームの深度マップをレンダリングして監視します。

下の図は、パラメータ化された空間表現を使用する利点を直感的に示しています。 (3 行目ではパラメータ化されたスペースが使用されていますが、2 行目では使用されていません。)

セマンティックラベル生成

OccNeRF は、事前トレーニング済みの GroundedSAM (Grounding DINO + SAM) を使用して 2D セマンティック ラベルを生成します。高品質のラベルを生成するために、OccNeRF は 2 つの戦略を採用しています。1 つ目はプロンプト ワード最適化で、nuScenes のあいまいなカテゴリを正確な説明に置き換えます。 OccNeRF では、プロンプト語を最適化するために、あいまいな単語を置き換える (car を sedan に置き換える)、単一の単語を複数の単語に変更する (manmade を building、billboard、bridge に置き換える)、および追加情報を導入する (bicycle を bicycle、bicyclist に置き換える) という 3 つの戦略が使用されています。 2 つ目は、SAM によって与えられたピクセルごとの信頼度ではなく、Grounding DINO の検出ボックスの信頼度に基づいてカテゴリを決定することです。 OccNeRF によって生成されるセマンティック ラベルは次のとおりです。

OccNeRF実験結果

OccNeRF は nuScenes で実験され、主にマルチビュー自己教師深度推定と 3D 占有予測タスクを完了しました。

マルチビュー自己教師深度推定

OccNeRF の nuScenes におけるマルチビュー自己教師深度推定のパフォーマンスを次の表に示します。 3D モデリングに基づく OccNeRF は、主に OccNeRF が屋外シーンの無限の空間範囲をモデル化するため、2D 方式や SimpleOcc よりも大幅に優れていることがわかります。

論文中の視覚化の一部は次のとおりです。

3D占有率予測

nuScenes での 3D 占有予測における OccNeRF のパフォーマンスを次の表に示します。 OccNeRF はラベル付きデータをまったく使用しないため、そのパフォーマンスは依然として教師あり学習法に遅れをとっています。ただし、一部のカテゴリ (走行可能な表面や人工物など) では、監督された方法に匹敵するパフォーマンスが達成されています。

この記事の視覚化の一部は次のとおりです。

要約する

多くの自動車メーカーがLiDARセンサーの廃止を試みている現在、何千ものラベルのない画像データをいかに有効活用するかが重要な課題となっている。 OccNeRF は非常に価値のある試みをもたらします。

オリジナルリンク: https://mp.weixin.qq.com/s/UiYEeauAGVtT0c5SB2tHEA

<<:  2GBのDAYU200に大規模な言語モデルをローカルにデプロイする

>>:  旅の途中のハードウェア プロジェクトが公開されました。 Apple Vision Proのエンジニアがスーパーバイザーを務め、かつてはマスクの脳コンピューターインターフェース企業で働いていた

ブログ    
ブログ    

推薦する

...

人工知能は大腸がんを診断できる:精度は86%にも達する

AIは心臓病の予測やアルツハイマー病の検出など、医療分野で幅広い応用が期待されています。新たな研究に...

米連邦裁判所、AIが生成した芸術作品は著作権で保護できないと判決

米連邦地方裁判所のベリル・A・ハウエル判事は金曜日、AIによって生成された芸術作品は著作権保護を受け...

GenAI はデータ分析分野のどこに位置づけられるのでしょうか?

今日のビジネスにおける人工知能の多くの応用のうちの 1 つが予測分析です。データ セットを分析してパ...

情報理論に基づくキャリブレーション技術により、マルチモーダル機械学習の信頼性が向上

マルチモーダル機械学習は、さまざまなシナリオで目覚ましい進歩を遂げています。しかし、マルチモーダル学...

広告および推奨システムに機械学習モデルを導入するための 2 つのアーキテクチャ

広告および推奨システムは、機械学習の最も成熟した応用分野です。では、広告システムや推奨システムでは、...

在庫 | 今年の世界の AI 事情

​​​ [[253255]]​​ 1. 2018 年の世界の AI 業界の発展は非常に爆発的でした。...

...

確かな情報です!機械学習で知っておくべき 5 つの回帰アルゴリズム!

回帰アルゴリズムといえば、理解しやすく非常に単純なため、多くの人が線形回帰を思い浮かべると思います。...

製造および産業環境監視アプリケーション向けの AI 搭載マシンビジョン

従来の産業および製造現場では、作業者の安全の監視、オペレーターの効率性の向上、品質検査の改善はすべて...

...

2020年に人工知能は私たちの生活をどのように変えたのでしょうか?

2020年はごく平凡な年であると同時に、非常に非凡な年でもありました。生活の面では、人工知能が配達...

詳細 | 自然言語処理におけるディープラーニング研究の概要: 基本概念から最先端の成果まで

[[181446]] 1. 自然言語処理入門自然言語処理 (NLP) とは、言語を処理または「理解」...

ファーウェイ成都インテリジェントボディー人工知能サミットフォーラムが成功裏に開催され、ファーウェイは成都の「スマートで美しい成都」の構築を支援

デジタル経済の時代において、クラウド、5G、AI、ビッグデータ、人工知能などの新技術が社会の生産要素...

李偉博士がブロックチェーンについてわかりやすく語る:技術原理、実用的応用、AIとの統合

[51CTO.comからの原文] 人工知能、モノのインターネット、ブロックチェーンなどの最先端技術が...