SelfOcc: 純粋な視覚に基づく初の自己教師あり 3D 占有予測 (清華大学)

SelfOcc: 純粋な視覚に基づく初の自己教師あり 3D 占有予測 (清華大学)

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な理解

3次元シーンの注釈付けには通常、多くの人的資源、物的資源、財源が必要であり、自動運転モデル​​のトレーニングと反復を制限する大きなボトルネック問題です。大量の2次元ビデオから効果的な3次元シーン表現を自己教師学習することが効果的な解決策です。私たちが提案する SelfOcc は、NeRF 監視を使用して、ビデオ シーケンスのみを使用して 3D シーン表現 (BEV または TPV) のリアルタイム学習を初めて実現します。 SelfOcc は、自己教師あり単眼シーン補完、サラウンド 3D セマンティック占有予測、新しい視点の深度合成、単眼深度推定、サラウンド深度推定などのタスクで SOTA パフォーマンスを達成しました。

SelfOccの背景

自己教師あり3D占有予測

現在の自動運転技術の分野では、視覚中心のシステムは通常、効果的な 3D 表現を学習するために細かい 3 次元 (3D) 注釈に依存しています。しかし、細かい 3D 注釈に依存するこのアプローチは、特に最近提案された 3D 占有予測タスクにおいて、主に 3D 注釈の取得コストが高いという形で現れる深刻な課題に直面しています。

3D 占有予測タスクの中核は、シーン内の各ボクセルが占有されているかどうかを予測することです。しかし、これを実現するには、既存の方法のほとんどで、各ボクセルを 1 つずつ意味的に監視する必要があります。この方法は正確な 3D 表現を提供できますが、トレーニング プロセスに非常に時間とコストがかかるため、大規模なデータ トレーニングに適用するのは困難です。この問題を解決するために、SceneRF や BTS などのいくつかの自己教師あり 3D 占有予測方法が提案されています。しかし、これらの方法は主に単眼ビデオを対象としており、サラウンドシーンを効果的に処理することはできません。

この文脈では、SelfOcc メソッドが特に重要です。 SelfOcc の目標は、自己教師学習を通じて 3D 表現を効果的に学習することです。従来の方法とは異なり、SelfOcc は単一の視点だけに焦点を当てるのではなく、3D 表現を明示的にモデル化することで、単眼視点と周囲の視点の両方を自然に統合します。この方法では、単眼ビデオデータを使用して 3D 構造を理解し、サラウンドビュービデオを処理することもできるため、自律走行車により包括的かつ正確な環境認識機能を提供できます。

一般化可能な神経放射場

2D 画像からの自己教師あり 3D 再構築の主要なパラダイムは、複数の視点からキャプチャされた 2D 画像から 3D シーンを再構築する Neural Radiance Fields (NeRF) です。 NeRF の最大のメリットは、非常にリアルで連続的な 3D 視覚効果を生成できることですが、従来の NeRF 方式では、トレーニング中に同じシーンをさまざまな視点から撮影した画像を大量に必要とするため、実際のアプリケーションでは大きな制限となります。さらに、従来の NeRF には新しいシーンに一般化する機能がないため、これまでに見たことのないシーンを効果的に処理することができません。

これらの制限を克服するために、いくつかの研究では画像の特徴に条件付けられた NeRF が提案されました。この方法の目的は、新しいシーンへのモデルの一般化能力を強化しながら、より少ない視点で 3D シーンを再構築することです。しかし、このアプローチは、主な情報源として 2D 画像の特徴のみに依存しており、深い 3D 認識と理解のための 3D 特徴エンコーディングの重要性を無視しています。

この文脈において、SelfOcc は新たな視点を提供します。 2D 画像の特徴に基づく従来の方法とは異なり、SelfOcc はシーンレベルの 3D 表現を学習することの重要性を重視しています。特徴抽出プロセスは主に 3 次元空間で実行されます。つまり、SelfOcc は 2 次元画像によって提示される表面情報に焦点を当てるだけでなく、より重要なことに、空間内の深層構造と関係を探索して理解することができます。この方法では、3D 空間で直接特徴を抽出して処理することで、シーンの 3D 特性をより包括的に捉えることができ、3D 再構築の品質と精度が向上します。

自己教師深度推定

NeRF のトレーニング プロセスには、特に収束が遅く、過剰適合になりやすいなど、いくつかの重大な課題があります。これらの問題は主に、NeRF のシーンの高度に非線形なモデリングと、トレーニング データへの集中的な依存に起因します。この目的のために、いくつかの研究では、補助的な監督として深度情報を導入したり、自己監督による深度推定制約を採用したりし始めています。

補助的な監視として深度情報を導入する方法は、追加の深度情報を提供することで、NeRF がシーンの空間構造をよりよく理解し、トレーニング プロセスを加速し、過剰適合のリスクを軽減できるという考えに基づいています。同時に、自己教師付き深度推定制約の導入により、深度推定を最適化することで NeRF モデルの一般化能力を向上させることを目指しています。しかし、これらの方法は、実際の応用においてはいくつかの固有の課題にも直面します。まず、NeRF のボリューム レンダリング統合プロセスでは、深度を最適化するための冗長な自由度が導入され、深度の最適化が複雑で不安定になります。さらに、透視変換後の双線形補間により、最適化された深度の受容野が制限され、深度の推定が局所的な特徴の影響を受けやすくなり、局所最適に陥りやすくなります。

これらの課題を克服するために、SelfOcc は、安定した効率的な自己監視型のディープ最適化を実現する革新的な MVS 組み込み戦略を提案します。 MVS (マルチビューステレオ) テクノロジーは、複数の視点からの画像から正確な 3D モデルを再構築できる成熟した 3D 再構築テクノロジーです。 SelfOcc は、MVS テクノロジーを NeRF トレーニング プロセスに組み込み、MVS の強力な深度推定機能を使用して NeRF モデルの最適化をガイドします。この戦略により、ボリューム レンダリング プロセスの自由度が効果的に削減され、深度最適化プロセスがより安定して効率的になります。同時に、MVS 組み込み戦略は、複数の視点からの情報を統合することで、深い最適化の受容フィールドを拡大し、局所最適性のリスクを軽減します。

SelfOccアルゴリズムの詳細な説明

上図は、SelfOcc メソッドの全体的なフローチャートです。SelfOcc は、まず 2D 画像バックボーン ネットワークを使用してマルチスケールの画像特徴を抽出し、次に 3D 特徴エンコーダーを使用して画像特徴から 3D シーン表現を抽出し、最後に軽量デコーダーを介して 3D 表現を符号付き距離フィールド (SDF) にデコードし、時間フレーム間のレンダリング制約を通じて監視を実装します。

2D画像から3D占有率へ

SelfOcc はまず、画像エンコーダーを介して 2D 入力画像を処理します。この画像エンコーダーの主なタスクは、標準の 2D 画像を豊富な情報を含むマルチスケールの特徴マップに変換し、その後の 3D 表現に必要な生データを提供することです。次に、SelfOcc は 3D エンコーダーを使用してこれらのマルチスケール画像特徴マップを処理します。 3D エンコーダーの機能は、2D 画像の特徴を 3D 空間表現 (BEV/TPV) に変換することです。この変換プロセスは、2 次元の平面情報を 3 次元空間に拡張するための重要なステップであり、これによりモデルは空間内の深層構造と関係を探索して理解できるようになります。最後に、SelfOcc は軽量デコーダーを使用して、3D 表現から最終的な 3D 占有予測結果をデコードします。

3D占有から2D画像へ

生成された 3D 表現を効果的に自己監視するために、SelfOcc は SDF ベースのボリューム レンダリング技術を使用して、3D 表現を 2D 画像と深度マップにレンダリングします。

具体的には、SelfOcc はまずデコーダーを使用して 3D 表現を符号付き距離フィールド (SDF) にデコードします。 SDF は、オブジェクトの表面を記述する効果的な方法を提供します。各ポイントの値は、ポイントから最も近い表面までの距離を表し、正または負の符号は、ポイントがオブジェクトの内側にあるか外側にあるかを示します。密度場と比較すると、SDF は勾配サイズに対する物理的な意味と制約がより明確であるため、正規化と最適化がより効率的になります。 SDF のもう 1 つの利点は、点の符号によって点が表面の内側にあるか外側にあるかを直接判断できるため、複雑なジオメトリを正確に処理できることです。

SDF フィールドを取得した後、SelfOcc はボリューム レンダリングを通じて 2D 結果を生成します。このプロセスでは、観測点から 3D シーンを通る光線がシミュレートされ、光線のパスに沿ったボクセルのプロパティ情報が収集され、この情報に基づいて最終的なピクセルの色と強度が計算されます。

3D占有を中心とした監視戦略

MVSに基づくディープ最適化戦略

SelfOcc は、MVS 埋め込み戦略と呼ばれる革新的な深層最適化戦略を提案します。これは、NeRF フレームワークで従来の自己教師深度推定制約を使用するときに発生するいくつかの重要な問題に対処することを目的としています。自己教師による深度推定には通常、深度情報を単一の値に統合し、透視投影によって 2 つの視点を変換し、最後にターゲット ピクセルをソース イメージの双線形補間によって取得されたソース ピクセルと比較して深度推定の精度を評価するという複雑な統合プロセスが必要です。ただし、このアプローチには固有の制限がいくつかあります。まず、統合プロセスの多自由度問題により、最適化プロセス中の深度推定に振動と不確実性が生じます。さらに、双線形補間法は深度最適化の受容野を制限します。つまり、深度推定プロセスはローカルな特徴に過度に依存し、より広いシーンのコンテキストを捉えることが困難になり、ローカルな極端状態に陥りやすくなります。

これらの制限を克服するために、SelfOcc は、レイ上の複数の深度提案の重みを直接最適化する方法を提案し、複雑な統合プロセスを回避します。この戦略の核心は、レイ上のさまざまな深度ポイントの重みを最適化することで、各深度ポイントの貢献度と重要性をより直接的に評価し、より正確で安定した深度推定を得られることです。さらに、この方法では複数のディープ プロポーザルを導入することでディープ最適化の受容フィールドが大幅に拡大します。つまり、最適化プロセスではより広範囲のシーン情報を考慮できるため、ローカルの極値の問題が軽減されます。

SDF フィールドのタイミング制約と正規化

自動運転カメラは通常外を向いており、各カメラの視野の重なり合う領域が小さいことを考慮して、SelfOcc は時間的に隣接するフレーム、つまり前のフレームと次のフレームを NeRF の監視対象として使用することを選択します。このアプローチは、自動運転シナリオにおける視点の変化の独自性を考慮し、時間的連続性を活用して空間的な視点の重なりの欠如を補います。

自衛隊の分野の正規化については、自衛隊の物理的意義と継続性を確保するためのさまざまな措置を講じています。まず、SDF の物理的な妥当性を保証するために一般的に使用される正規化手法であるアイコナール損失を紹介します。アイコナール損失の主な役割は、空間内の SDF の勾配サイズが一定に保たれるようにすることです。これにより、SDF フィールドの一貫性と精度が維持されます。次に、SDF の空間連続性を改善することを目的とした 2 次導関数制約も導入します。 SDF の 2 次導関数を制限することで、SDF フィールドの滑らかさをより適切に制御し、複雑な形状での不連続性と急激な変化を減らすことができます。これに加えて、モデルが見えない領域を空であると予測するように強制するスパース制約も導入します。自動運転のアプリケーションでは、視野角の制限により、見えない領域が必ず存在します。スパース性制約を使用することで、これらの目に見えない領域が SDF フィールドで適切に処理され、これらの領域での誤った予測を回避できるようになります。これらの正規化手段は、ビューが少ない未決定問題に直面したときに SDF 学習プロセスを効果的にガイドし、学習した SDF フィールドがビュー再構築の要件を満たしながら可能な限り物理的な事前分布と一致するようにします。

実験

私たちは、nuScenes、SemanticKITTI、KITTI-2015 の 3 つの主要な自動運転データセットで実験を行い、3D 占有予測、新しいビューの深度予測、深度推定などの自己教師あり 3D 理解タスクをカバーしています。すべての実験は 8 台の RTX 3090 で実施され、トレーニングおよびテスト コードはオープン ソースです。主な実験結果と可視化は以下の通りです。詳細については論文とGitHubリポジトリをご覧ください。

自己教師あり3D占有予測

表 1 と 2 に、3D 占有予測タスクの結果を示します。 Occ3D データセットでは、教師あり方式と比較して、私たちの方法はいかなる形式の 3D 教師も使用せず、それでもより高い IoU と妥当な mIoU を実現します。 IoU が 45.01% であることは、SelfOcc がビデオ シーケンスから意味のある幾何学的構造を学習していることを示しています。さらに重要なのは、LiDAR によって監視される TPVFormer や 3D truth によって監視される MonoScene と比較して、SelfOcc はより高い IoU と mIoU を達成することです。

SemanticKITTI データセットでは、さまざまな方法を 3D 真実、深度、画像監視の 3 つのカテゴリに分類しています。表2からわかるように、SelfOccは視覚的深度監視と画像監視に基づく3D占有率予測方法の中で新しいSOTAを達成し、IoU指標の点で以前のSOTA方法SceneRFを58.7%上回っています。

深層予測のための自己監督に関する新たな視点

表 3 は、自己教師ありの新しいビューの深度予測タスクにおける SelfOcc のパフォーマンスを示しています。 SelfOcc は、SemanticKITTI および nuScenes データセットのすべてのメトリックにおいて、これまでの最先端の SceneRF よりも優れています。

自己教師あり深層予測

表4は、自己教師あり深度推定タスクにおけるSelfOccのパフォーマンスを示しています。 SelfOcc は nuScenes で SOTA 結果を達成し、KITTI-2015 データセットの SOTA メソッドと同等のパフォーマンスを発揮します。

視覚化

上記の 2 つの図は、nuScenes データセットにおける SelfOcc の自己教師あり 3D 占有予測と深度推定の視覚化結果を示しています。

論文情報

著者: Huang Yuanhui*、Zheng Wenzhao*、Zhang Boyui、Zhou Jie、Lu Jiwen 所属機関: 清華大学オートメーション学部 記事リンク: https://arxiv.org/pdf/2311.12754.pdf
プロジェクトホームページ: https://huang-yh.github.io/SelfOcc/
コードリポジトリ: https://github.com/huang-yh/SelfOcc (オープンソース)

オリジナルリンク: https://mp.weixin.qq.com/s/3ysN139lRE8Txl1YU7Nfyw

<<:  GPT-5 プレビュー!アレン人工知能研究所がGPT-5の新機能を予測する最も強力なマルチモーダルモデルを発表

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

マスク氏はまたも常識に反する発言をしました。自動運転は普及初期段階では渋滞を増加させるでしょう。

自動運転の普及初期には交通渋滞が悪化するだろう。これは、自動運転についてのあなたの理解と異なりますか...

人工ニューラルネットワークは、体型を崩すことなく、一瞬で老けたり若返ったりすることができる

ディープラーニングマシンは、人が年をとった後の顔がどのようになるかを示すことができますが、多くの場合...

...

RNN と LSTM は弱いです!注目モデルは王様!

リカレント ニューラル ネットワーク (RNN)、長期短期記憶 (LSTM)、これらの人気のニューラ...

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできないだろう。

[[422682]]以前、チューリング賞受賞者でありディープラーニングの先駆者であるヤン・ルカン氏...

...

合成データは AI/ML トレーニングの未来を推進するでしょうか?

人工知能や機械学習 (AI/ML) をトレーニングするために現実世界のデータを収集することは、時間が...

GPT-4は人間が92点取れる質問に対して15点しか取れない。テストがアップグレードされると、すべての大きなモデルが露呈する。

GPT-4は誕生以来、さまざまな試験(ベンチマーク)で高得点を獲得する「優秀な生徒」でした。しかし...

ChatGPTがついにオンラインになり、回答のソースを提供できるようになりました

たった今、OpenAI が重要なニュースを発表しました。ChatGPT が正式にインターネットに接続...

機械学習の仕組み - コード例

誰が生き残るかを予測するモデルをトレーニングします。 [注: ここでモデルを自分で構築するには、完全...

Web アプリケーション向けビジネス チャットボット 12 選

[[315528]] [51CTO.com クイック翻訳] ビジネスの発展を推進するために、AI(人...

...

Nougat: 科学文書の OCR 用トランスフォーマー モデル

人工知能の分野は継続的に進歩しており、自然言語処理、自然言語生成、コンピュータービジョンなどのサブフ...

ああはは、それだ!人気の機械学習アルゴリズムの 4 つの「なるほど!」という瞬間

ほとんどの人は 2 つのグループに分かれます。これらの機械学習アルゴリズムが理解できません。アルゴリ...

ヘルスケアにおける機械学習の悪影響

Marzyeh Ghassemi 助教授は、医療データに隠れたバイアスが人工知能のアプローチにどのよ...