RadOcc: レンダリング支援蒸留によるクロスモーダル占有知識の学習

RadOcc: レンダリング支援蒸留によるクロスモーダル占有知識の学習

原題: Radocc: レンダリング支援蒸留によるクロスモダリティ占有知識の学習

論文リンク: https://arxiv.org/pdf/2312.11829.pdf

著者所属部署: FNii、CUHK-Shenzhen SSE、CUHK-Shenzhen Huawei Noah's Ark Laboratory

会議: AAAI 2024

論文のアイデア:

3D 占有予測は、マルチビュー画像を使用して 3D シーンの占有状態とセマンティクスを推定することを目的とした新しいタスクです。しかし、画像ベースのシーン認識では、幾何学的な事前条件がないため、正確な予測を達成するのに大きな課題が生じます。本論文では、このタスクにおけるクロスモーダル知識蒸留を検討することでこの問題に対処します。つまり、より強力なマルチモーダル モデルを活用して、トレーニング中に視覚モデルをガイドします。実際には、提案され広く使用されている特徴またはロジットの配置を鳥瞰図 (BEV) 認識に直接適用しても、満足のいく結果は得られないことがわかります。この問題を克服するために、本稿では、3D 占有率予測のためのレンダリング支援蒸留パラダイムである RadOcc を紹介します。微分可能なボリュームレンダリングを採用することで、透視画像に深度マップとセマンティックマップを生成し、教師モデルと生徒モデルのレンダリング出力間の 2 つの新しい一貫性基準を提案します。具体的には、深度一貫性損失はレンダリングされた光線の終了分布を揃え、意味一貫性損失は Visual Basis Model (VLM) によって導かれるセグメント内類似性を模倣します。 nuScenes データセットでの実験結果は、さまざまな 3D 占有予測方法を改善する上での提案方法の有効性を実証しています。たとえば、提案方法により、mIoU メトリックではベースラインが 2.2% 向上し、Occ3D ベンチマークでは 50% 向上します。

主な貢献:

本稿では、RadOcc という 3D 占有率予測のためのレンダリング支援蒸留パラダイムを提案します。この論文は、3D-OP におけるクロスモーダル知識蒸留を初めて検討したものであり、このタスクへの既存の BEV 蒸留技術の適用に関する貴重な洞察を提供します。

レンダリング深度とセマンティック一貫性 (RDC と RSC) という 2 つの新しい蒸留制約が提案されています。これらは、視覚基底モデルによって導かれるレイ分布とアフィニティ マトリックスを調整することで、知識転送プロセスを効果的に強化します。

提案された方法を搭載した RadOcc は、Occ3D および nuScenes ベンチマークでの密な占有予測と疎な占有予測の両方で最先端のパフォーマンスを実現します。さらに、本論文では、本論文で提案した蒸留法がいくつかのベースラインモデルのパフォーマンスを効果的に向上できることを検証します。

ネットワーク設計:

この論文では、3D 占有予測タスクのためのクロスモーダル知識蒸留を初めて研究します。知識移転に BEV またはロジットの一貫性を使用する BEV 認識分野の既存の方法に基づいて、図 1(a) に示すように、これらの蒸留手法を拡張して、3D 占有予測タスクでボクセル特徴とボクセル ロジットを揃えます。しかし、私たちの予備実験では、これらのアライメント技術は、特に前者の方法では負の転移が導入されるため、3D-OP タスクで満足のいく結果を達成する上で大きな課題に直面していることがわかりました。この課題は、3D オブジェクトの検出と占有予測の根本的な違いから生じている可能性があります。占有予測は、背景オブジェクトだけでなく幾何学的詳細もキャプチャする必要がある、よりきめ細かい認識タスクです。

上記の課題に対処するために、本論文では、微分可能なボリュームレンダリングを使用したクロスモーダル知識蒸留の新しいアプローチである RadOcc を提案します。 RadOccの中心的なアイデアは、図1(b)に示すように、教師モデルと生徒モデルによって生成されたレンダリング結果を揃えることです。具体的には、カメラの固有パラメータと外部パラメータを使用してボクセル特徴に対してボリュームレンダリングを実行し(Mildenhall et al. 2021)、これにより、さまざまな視点から対応する深度マップとセマンティックマップを取得できるようになります。レンダリング出力間のより良い整合を実現するために、この論文では、新しいレンダリング深度一貫性 (RDC) 損失とレンダリング セマンティック一貫性 (RSC) 損失を紹介します。一方、RDC 損失は光線分布の一貫性を強制し、学生モデルがデータの基礎となる構造を捉えることを可能にします。一方、RSC 損失は、視覚ベースモデル (Kirillov et al. 2023) の長所を活用し、事前に抽出されたセグメントを使用してアフィニティ蒸留を行います。この基準により、モデルはさまざまな画像領域の意味表現を学習して比較できるようになり、細かい詳細をキャプチャする能力が向上します。上記の制約を組み合わせることで、提案された方法はクロスモーダル知識蒸留を効果的に活用し、パフォーマンスを向上させ、学生モデルをより適切に最適化します。私たちは、密な占有率予測と疎な占有率予測の両方において私たちのアプローチの有効性を実証し、両方のタスクで最先端の結果を達成しました。

図 1: レンダリング支援蒸留。 (a) 既存の方法は、特徴量またはロジットを整列させます。 (b) 本論文で提案するRadOcc法は、レンダリングされた深度マップとセマンティクスを同時に制約します。図 2: RadOcc の全体的なフレームワーク。これは教師-生徒アーキテクチャを採用しており、教師ネットワークはマルチモーダル モデルであり、生徒ネットワークはカメラ入力のみを受け入れます。両方のネットワークの予測は、微分可能なボリューム レンダリングを介してレンダリングの深度とセマンティクスを生成するために使用されます。新しく提案されたレンダリング深度とセマンティック一貫性損失は、レンダリング結果間で使用されます。

図 3: レンダリング深度分析。教師 (T) と生徒 (S) のレンダリングされた深度は、特に前景オブジェクトについては類似していますが、レイ終了分布には大きな違いが見られます。

図 4: アフィニティ マトリックスの生成。この論文では、まず視覚基底モデル (VFM)、つまり SAM を採用して、元の画像にセグメントを抽出します。その後、本論文では、各セグメントでレンダリングされた意味的特徴に対してセグメント集約を実行し、類似性マトリックスを取得します。

実験結果:

要約:

本稿では、3D 占有率予測のための新しいクロスモーダル知識蒸留パラダイムである RadOcc を提案します。マルチモーダル教師モデルを活用して、微分可能なボリューム レンダリングを介して視覚的な生徒モデルに幾何学的および意味的なガイダンスを提供します。さらに、本論文では、教師モデルと生徒モデル間の光線分布とアフィニティ マトリックスを整合させるために、深度一貫性損失と意味的一貫性損失という 2 つの新しい一貫性基準を提案しています。 Occ3D および nuScenes データセットでの広範な実験により、RadOcc はさまざまな 3D 占有予測方法のパフォーマンスを大幅に向上できることが実証されています。私たちの方法は、Occ3D チャレンジ ベンチマークで最先端の結果を達成し、既存の公開された方法を大幅に上回ります。私たちの研究は、シーン理解におけるクロスモーダル学習の新たな可能性を切り開くものだと信じています。

<<:  ジェネレーティブ AI: 職場の CIO にとって未知の要素

>>:  馬はとても速いですね!上海AIラボ、人間の学習パラダイムを模倣した初の自動運転意思決定フレームワーク「DiLu」をリリース

ブログ    
ブログ    

推薦する

Python 自然言語処理 (NLP) を使用して要約を作成する方法

たくさんのレポートを読まなければならないときに、それぞれのレポートを簡単に要約したいという状況に遭遇...

6種類の負荷分散アルゴリズムの概要

C言語を学んだ友人やIT関係の人ならアルゴリズムには詳しいと思います。したがって、分野が異なれば、ア...

自動運転のスケールアップ問題

[[280016]]最近のニュースによると、Google傘下の自動運転企業Waymoがユーザーにメー...

2019 年の 9 つの AI トレンド、準備はできていますか?

人工知能は成長して以来、絶え間ない混乱に悩まされてきましたが、特に近年は人工知能が発展の黄金期に入り...

脳と機械の統合の時代が到来し、人類の文明は急速に発展するだろう

著者: ホン・タオ、オットー・マック著者は全員ジョージア工科大学の博士研究員である。人類の歴史におい...

目から涙が溢れてきました!ビクーニャのデジタルツインは10年前の自分を再現し、10年間の対話は数え切れないほどの人々に影響を与えた

Reddit のネットユーザーが何か新しいことをやっている。彼は、自身のオンラインフットプリントデー...

AI は今後 10 年間で BAT のリセット ボタンとなるでしょうか?

中国の王朝には必ず一つの法則がある。一代か二代で王位は行き詰まりを迎える。漢の時代には呂后の乱、唐の...

...

データサイエンスについて知っておくべきこと: 10 の重要な概念 + 22 のグラフ

01 バイアスと分散のトレードオフこれは、機械学習における最も重要な理論の中で常に上位にランクされ...

ボストンダイナミクス「人間と犬のダンス」:PK韓国ボーイズバンド、ロボットダンスの神グループが登場

[[408381]]ロボット犬とボーイズバンドが一緒に「ダンス」すると、どんな火花が散るのでしょうか...

...

AI、機械学習、ディープラーニングの解放

【51CTO.com クイック翻訳】 [[393512]] AI、機械学習、ディープラーニングの発展...

DockerとFlaskをベースにしたディープラーニングモデルのデプロイメント!

モデルの展開は、ディープラーニング アルゴリズムの実装において常に重要な部分です。ディープラーニング...

AIは教育分野にどのように貢献できるのでしょうか?

調査機関Markets&Marketsの予測によると、2023年までに世界の教育業界における...

知識をグラフに変換するには、いくつのステップが必要ですか?インターネット上で最も包括的な清華ナレッジグラフレポートの89ページ

ナレッジグラフは、人工知能の重要な分野技術です。2012年にGoogleによって提案され、大規模な知...