RadOcc: レンダリング支援蒸留によるクロスモーダル占有知識の学習

RadOcc: レンダリング支援蒸留によるクロスモーダル占有知識の学習

原題: Radocc: レンダリング支援蒸留によるクロスモダリティ占有知識の学習

論文リンク: https://arxiv.org/pdf/2312.11829.pdf

著者所属部署: FNii、CUHK-Shenzhen SSE、CUHK-Shenzhen Huawei Noah's Ark Laboratory

会議: AAAI 2024

論文のアイデア:

3D 占有予測は、マルチビュー画像を使用して 3D シーンの占有状態とセマンティクスを推定することを目的とした新しいタスクです。しかし、画像ベースのシーン認識では、幾何学的な事前条件がないため、正確な予測を達成するのに大きな課題が生じます。本論文では、このタスクにおけるクロスモーダル知識蒸留を検討することでこの問題に対処します。つまり、より強力なマルチモーダル モデルを活用して、トレーニング中に視覚モデルをガイドします。実際には、提案され広く使用されている特徴またはロジットの配置を鳥瞰図 (BEV) 認識に直接適用しても、満足のいく結果は得られないことがわかります。この問題を克服するために、本稿では、3D 占有率予測のためのレンダリング支援蒸留パラダイムである RadOcc を紹介します。微分可能なボリュームレンダリングを採用することで、透視画像に深度マップとセマンティックマップを生成し、教師モデルと生徒モデルのレンダリング出力間の 2 つの新しい一貫性基準を提案します。具体的には、深度一貫性損失はレンダリングされた光線の終了分布を揃え、意味一貫性損失は Visual Basis Model (VLM) によって導かれるセグメント内類似性を模倣します。 nuScenes データセットでの実験結果は、さまざまな 3D 占有予測方法を改善する上での提案方法の有効性を実証しています。たとえば、提案方法により、mIoU メトリックではベースラインが 2.2% 向上し、Occ3D ベンチマークでは 50% 向上します。

主な貢献:

本稿では、RadOcc という 3D 占有率予測のためのレンダリング支援蒸留パラダイムを提案します。この論文は、3D-OP におけるクロスモーダル知識蒸留を初めて検討したものであり、このタスクへの既存の BEV 蒸留技術の適用に関する貴重な洞察を提供します。

レンダリング深度とセマンティック一貫性 (RDC と RSC) という 2 つの新しい蒸留制約が提案されています。これらは、視覚基底モデルによって導かれるレイ分布とアフィニティ マトリックスを調整することで、知識転送プロセスを効果的に強化します。

提案された方法を搭載した RadOcc は、Occ3D および nuScenes ベンチマークでの密な占有予測と疎な占有予測の両方で最先端のパフォーマンスを実現します。さらに、本論文では、本論文で提案した蒸留法がいくつかのベースラインモデルのパフォーマンスを効果的に向上できることを検証します。

ネットワーク設計:

この論文では、3D 占有予測タスクのためのクロスモーダル知識蒸留を初めて研究します。知識移転に BEV またはロジットの一貫性を使用する BEV 認識分野の既存の方法に基づいて、図 1(a) に示すように、これらの蒸留手法を拡張して、3D 占有予測タスクでボクセル特徴とボクセル ロジットを揃えます。しかし、私たちの予備実験では、これらのアライメント技術は、特に前者の方法では負の転移が導入されるため、3D-OP タスクで満足のいく結果を達成する上で大きな課題に直面していることがわかりました。この課題は、3D オブジェクトの検出と占有予測の根本的な違いから生じている可能性があります。占有予測は、背景オブジェクトだけでなく幾何学的詳細もキャプチャする必要がある、よりきめ細かい認識タスクです。

上記の課題に対処するために、本論文では、微分可能なボリュームレンダリングを使用したクロスモーダル知識蒸留の新しいアプローチである RadOcc を提案します。 RadOccの中心的なアイデアは、図1(b)に示すように、教師モデルと生徒モデルによって生成されたレンダリング結果を揃えることです。具体的には、カメラの固有パラメータと外部パラメータを使用してボクセル特徴に対してボリュームレンダリングを実行し(Mildenhall et al. 2021)、これにより、さまざまな視点から対応する深度マップとセマンティックマップを取得できるようになります。レンダリング出力間のより良い整合を実現するために、この論文では、新しいレンダリング深度一貫性 (RDC) 損失とレンダリング セマンティック一貫性 (RSC) 損失を紹介します。一方、RDC 損失は光線分布の一貫性を強制し、学生モデルがデータの基礎となる構造を捉えることを可能にします。一方、RSC 損失は、視覚ベースモデル (Kirillov et al. 2023) の長所を活用し、事前に抽出されたセグメントを使用してアフィニティ蒸留を行います。この基準により、モデルはさまざまな画像領域の意味表現を学習して比較できるようになり、細かい詳細をキャプチャする能力が向上します。上記の制約を組み合わせることで、提案された方法はクロスモーダル知識蒸留を効果的に活用し、パフォーマンスを向上させ、学生モデルをより適切に最適化します。私たちは、密な占有率予測と疎な占有率予測の両方において私たちのアプローチの有効性を実証し、両方のタスクで最先端の結果を達成しました。

図 1: レンダリング支援蒸留。 (a) 既存の方法は、特徴量またはロジットを整列させます。 (b) 本論文で提案するRadOcc法は、レンダリングされた深度マップとセマンティクスを同時に制約します。図 2: RadOcc の全体的なフレームワーク。これは教師-生徒アーキテクチャを採用しており、教師ネットワークはマルチモーダル モデルであり、生徒ネットワークはカメラ入力のみを受け入れます。両方のネットワークの予測は、微分可能なボリューム レンダリングを介してレンダリングの深度とセマンティクスを生成するために使用されます。新しく提案されたレンダリング深度とセマンティック一貫性損失は、レンダリング結果間で使用されます。

図 3: レンダリング深度分析。教師 (T) と生徒 (S) のレンダリングされた深度は、特に前景オブジェクトについては類似していますが、レイ終了分布には大きな違いが見られます。

図 4: アフィニティ マトリックスの生成。この論文では、まず視覚基底モデル (VFM)、つまり SAM を採用して、元の画像にセグメントを抽出します。その後、本論文では、各セグメントでレンダリングされた意味的特徴に対してセグメント集約を実行し、類似性マトリックスを取得します。

実験結果:

要約:

本稿では、3D 占有率予測のための新しいクロスモーダル知識蒸留パラダイムである RadOcc を提案します。マルチモーダル教師モデルを活用して、微分可能なボリューム レンダリングを介して視覚的な生徒モデルに幾何学的および意味的なガイダンスを提供します。さらに、本論文では、教師モデルと生徒モデル間の光線分布とアフィニティ マトリックスを整合させるために、深度一貫性損失と意味的一貫性損失という 2 つの新しい一貫性基準を提案しています。 Occ3D および nuScenes データセットでの広範な実験により、RadOcc はさまざまな 3D 占有予測方法のパフォーマンスを大幅に向上できることが実証されています。私たちの方法は、Occ3D チャレンジ ベンチマークで最先端の結果を達成し、既存の公開された方法を大幅に上回ります。私たちの研究は、シーン理解におけるクロスモーダル学習の新たな可能性を切り開くものだと信じています。

<<:  ジェネレーティブ AI: 職場の CIO にとって未知の要素

>>:  馬はとても速いですね!上海AIラボ、人間の学習パラダイムを模倣した初の自動運転意思決定フレームワーク「DiLu」をリリース

ブログ    
ブログ    

推薦する

2021年以降の人工知能トレンドに関する5つの予測

アンドリュー・ン教授(スタンフォード大学コンピュータサイエンスおよび電気工学准教授)は、「人工知能は...

...

...

「犬とロボットのふれあい」がここにあります!犬は誰の言うことを聞くでしょうか?ロボットかロボット犬か?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

目に見えないAI技術は、知的な世界の秘密を理解するのに役立ちます

今日のインターネット技術の急速な発展により、目に見えないAI技術は生活のあらゆる側面に浸透しています...

低速自動運転のためのパノラマ/魚眼カメラによる近距離認識

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

完全なルーティングアルゴリズムの設計目標の分析

ルーティング アルゴリズムには通常、次の 1 つ以上の設計目標があります。最適化:最適化とは、メトリ...

アイデアから実装まで、2018 年の 13 の驚くべき新しい NLP 研究

2018 年には、自然言語処理の分野で多くの刺激的なアイデアやツールが生まれました。概念的な視点から...

Wu Fengguang: Linux を使って事前読み取りアルゴリズムを学ぶ

Linux は急速に発展し、今では Microsoft に追いついています。Linux をより良く適...

...

ILO: 生成型AIは大量失業を引き起こす可能性は低いが、雇用を創出するだろう

国連機関である国際労働機関は最近、ChatGPTのような生成AIが人間の間で大規模な失業を引き起こす...

AIを活用して産業データの価値を見出す

すべての業界に共通するものが 1 つあります。それは、大量のデータです。データ量は、個人用デバイス、...

...

フロントエンド: JavaScript でのバイナリ ツリー アルゴリズムの実装

[[359197]]次に、js データ構造のツリーを調べてみましょう。ここでのツリーは、幹と枝を持つ...

AI に物語を伝える: シーンを想像するように教えるにはどうすればよいでしょうか?

[[282830]]視覚的な想像力は人間が生まれながらに持っているものです。AI は同様の能力を持...