2Dラベルのみを使用してマルチビュー3D占有モデルをトレーニングするための新しいパラダイム

2Dラベルのみを使用してマルチビュー3D占有モデルをトレーニングするための新しいパラダイム

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

[RenderOcc、2D ラベルのみを使用してマルチビュー 3D 占有モデルをトレーニングするための新しいパラダイム] 著者らは、マルチビュー画像から NeRF スタイルの 3D ボリューム表現を抽出し、ボリューム レンダリング技術を使用して 2D 再構成を構築することで、2D セマンティック ラベルと深度ラベルからの直接的な 3D 監視を実現し、高価な 3D 占有注釈への依存を減らします。広範囲にわたる実験により、RenderOcc のパフォーマンスは 3D ラベルで完全に監視されたモデルと同等であることが示され、実際のアプリケーションにおけるこのアプローチの重要性が強調されています。オープンソース。

タイトル: RenderOcc: 2Dレンダリング監視による視覚中心の3D占有予測

著者の所属: 北京大学、Xiaomi Motors、香港中文大学MMLAB

オープンソースアドレス: GitHub - pmj110119/RenderOcc

3D 占有予測は、3D シーンを意味ラベル付きのグリッド セルに量子化するため、ロボットの認識や自動運転の分野で大きな可能性を秘めています。最近の研究では、主に 3D ボクセル空間の完全占有ラベルを監視に利用しています。ただし、コストのかかる注釈付けプロセスと、場合によってはあいまいなラベルにより、3D 占有モデルの使いやすさと拡張性が大幅に制限されます。この問題に対処するために、著者らは 2D ラベルのみを使用して 3D 占有モデルをトレーニングするための新しいパラダイムである RenderOcc を提案しています。具体的には、マルチビュー画像から NeRF スタイルの 3D ボリューム表現を抽出し、ボリューム レンダリング技術を使用して 2D 再構成を構築し、2D セマンティック ラベルとディープ ラベルからの直接的な 3D 監視を可能にします。さらに、著者らは、自動運転シナリオにおけるスパース視点の問題に対処するために、連続フレームを利用して各オブジェクトの包括的な 2D レンダリングを構築する補助光線法を導入しています。 RenderOcc は、2D ラベルのみを使用してマルチビュー 3D 占有モデルをトレーニングする最初の試みであり、これにより、高価な 3D 占有注釈への依存が軽減されます。広範囲にわたる実験により、RenderOcc のパフォーマンスは 3D ラベルで完全に監視されたモデルと同等であることが示され、実際のアプリケーションにおけるこのアプローチの重要性が強調されています。

ネットワーク構造:

図 1. RenderOcc は新しいトレーニング パラダイムを表します。高価な 3D 占有ラベルを監督に使用することに焦点を当てた以前の研究とは異なり、私たちが提案する RenderOcc は 2D ラベルを活用して 3D 占有ネットワークをトレーニングします。 2D レンダリング監視を通じて、モデルはきめ細かい 2D ピクセル レベルのセマンティックおよび深度監視の恩恵を受けます。

図 2. RenderOcc の全体的なフレームワーク。この論文では、2D から 3D へのネットワークを通じてボリュームの特徴を抽出し、各ボクセルの密度とセマンティクスを予測します。したがって、本論文では、ボリューム レンダリングを実行してレンダリングされた 2D セマンティクスと深度を生成できるセマンティック密度フィールドを生成します。 Rays GT を生成するために、隣接フレームから補助光線を抽出し、現在のフレームの光線を補足し、提案された加重光線サンプリング戦略を使用してそれらを精製します。次に、ray GT と {,} を使用して損失を計算し、2D ラベルのレンダリング監視を実現します。

図3.補助光: 単一フレームの画像では、オブジェクトのマルチビュー情報を適切にキャプチャできません。隣接する 2 台のカメラ間の重複領域はわずかであり、視野角の差は限られています。隣接フレームからの補助光線を導入することで、モデルはマルチビュー一貫性制約から大きな恩恵を受けることになります。

実験結果:

オリジナルリンク: https://mp.weixin.qq.com/s/WzI8mGoIOTOdL8irXrbSPQ

<<:  AI言語モデルにおける幻覚バイアスのリスク

>>:  SFから現実へ:人工知能の歴史と将来の可能性

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

世紀の奇跡!華中科技大学の師弟が世界で初めて韓国の常温超伝導磁気浮上を再現、アメリカン・スーパーコンダクターは取引セッション中に150%急騰

人類は物質とエネルギーの新しい時代を迎えようとしているのでしょうか?未来のテクノロジーへの扉が開かれ...

トヨタのAIの旅:車だけにとどまらない

今日の自動車メーカーは、市場での地位を今後も維持したいのであれば、強力な自動運転技術を確立しなければ...

毎日のアルゴリズム: 上位 K 個の高頻度要素

空でない整数の配列が与えられた場合、最も頻繁に出現する上位 k 個の要素を返します。例1:入力: n...

大規模言語モデル評価における信頼性の低いデータに注意: Flan-T5 に基づくプロンプト選択のケーススタディ

翻訳者|朱 仙中レビュー | Chonglou導入信頼性の高いモデル評価はMLOP と LLMop ...

【文字列処理アルゴリズム】回文判定のアルゴリズム設計とCコード実装

1. 要件の説明文字列を入力し、その文字列が回文であるかどうかを判断するプログラムを作成します。便宜...

次世代ロボットは「人間と共存」するかもしれない。中国はこのチャンスをどうつかむのか?

「次世代のロボットは『人間と共存する』ものになるだろう。中国がこのチャンスをつかめば、ロボットイノ...

人工知能の発展を推進する4つの技術

[[419350]] 「人工知能」という用語は 1956 年に初めて登場しました。人工知能とは、機械...

...

偽の顔を正確に生成します! Amazonの新しいGANモデルは死角のないオールラウンドな美しさを提供します

最近、Amazon One の研究者は、生成された画像を明示的に制御できる GAN をトレーニングす...

...

ディープ ニューラル ネットワークを構築するための 20 の「未熟な」ヒント

当社の機械学習ラボでは、数多くの高性能マシンで何万時間ものトレーニングを行って豊富な経験を蓄積してき...

IEEEの論文では、画像強調を実現するための放射状変換を提案している

[[202259]]最近、「少量のデータによるニューラル ネットワークのトレーニング - ドラフト」...

将来、人工知能は人間の意思決定に取って代わることができるでしょうか?

ほとんどの CIO は、AI に意思決定を任せることに消極的です。しかし、それは彼らがより優れた、よ...

ボーダーライン上の質問:テクノロジー企業はAIアルゴリズムを使って従業員の採用と解雇を行っている

アルゴリズムによる採用は珍しいことではありません。膨大な履歴書の審査を自動化するために AI アルゴ...

...