計算負荷の少ない BEV モデルのパフォーマンスを向上させるにはどうすればよいでしょうか?おそらく DistillBEV が答えでしょう!

計算負荷の少ない BEV モデルのパフォーマンスを向上させるにはどうすればよいでしょうか?おそらく DistillBEV が答えでしょう!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

著者の個人的な理解

今年、BEVモデルはますます多くの自動運転企業に採用されています。NvidiaのOrinプラットフォームやHorizo​​nのJ5シリーズは比較的大きな計算能力を持っていますが、機能モデルの数が多いため、多くの企業がモデルの小型化に取り組んでいます。しかし、小型モデルの計算能力が低下すると、パフォーマンスが低下します。では、小型モデルのパフォーマンスを向上させるにはどうすればよいでしょうか。この分野で一般的な方法は、主に半監督と蒸留です。今日の主役は知識蒸留タスクです。蒸留は同型蒸留と異種蒸留に分けられます。現在、ほとんどのソリューションは純粋に視覚的なものであるため、大規模なポイント クラウド モデルを通じて小さな視覚モデルを蒸留することは、多くのチームに認識されており、ポイントを増やすための簡単な方法です。

蒸留モデルを設計するにはどうすればいいですか?

カメラのコストが下がったため、マルチカメラ BEV 3D 認識ソリューションは、自動運転の分野で量産の主流になっています。シングル/マルチカメラ BEV と LiDAR ベースの 3D 物体検出の間には、明らかなパフォーマンスのギャップがあります。主な理由は、LiDAR は正確な深度やその他の幾何学的測定値を取得できるのに対し、画像入力のみからそのような 3D 情報を推測するのは非常に困難であるためです。 DistillBEV は、十分にトレーニングされた LiDAR ベースの教師検出器の特徴を模倣するようにトレーニングすることで、多目的 BEV ベースの生徒検出器の表現学習を強化することを提案します。生徒が教師から重要な特徴を学ぶことに集中し、時間的融合によって知識をマルチスケール レイヤーに転送するように強制する効果的なバランス戦略が提案されています。 DistillBEV は、BEV でのクロスモーダル蒸留を提案します。これは、LiDAR と多目的 BEV ベースの検出器間の知識転送に自然に適しています。さらに、効果的でバランスのとれた設計により、生徒はマルチスケールで時間的に統合された教師の主要な機能の学習に集中することができます。 DistillBEV のアプローチは学生モデルを大幅に改善し、nuScenes で最先端のパフォーマンスを実現します。

検出タスクにおいて知識の蒸留が重要なのはなぜですか?

カメラベース

この分野の多くの方法は、2D オブジェクト検出に似た FCOS3D や DD3D などの単眼視覚パラダイムに基づいています。最近、多目的 BEV(鳥瞰図)フレームワークは、その固有の利点によりトレンドになっています。このフレームワークでは、ビュー変換モジュールが、マルチビュー画像の特徴を BEV に変換する上で基本的な役割を果たします。いくつかの方法では、逆透視マッピングまたは多層パーセプトロンを使用して、透視図から BEV への変換を実行します。 LSS は、BEVDet、BEVDet4D、BEVDepth などの対応するビンごとの深度分布方法を通じて画像の特徴を改善するために導入されました。 BEVFormer は、クロスアテンションを使用して、目的の異なる画像の特徴を見つけて集約することを提案しています。さらに、BEV 表現は、複数のタイムスタンプでのオブジェクト検出とモーション状態推定を改善するための、より理想的なシーン機能の連結を提供します。 BEVDet4D と BEVDepth は空間アライメントを介して以前の特徴と現在の特徴を融合し、BEVFormer はソフトアテンションを介して時間的融合を実行します。

LiDARに基づく

この分野のほとんどの方法では、不規則な点群を列やボクセルなどの規則的なグリッドに変換するため、BEV で特徴を抽出するのは自然なことです。 VoxelNet は、各ボクセル内で集約されたポイント フィーチャに 3D 畳み込みを適用します。 SECOND はスパース 3D 畳み込みを使用して計算効率を向上させます。 PointPillars は、高さの次元を縮小し、2D 畳み込みを使用して推論の待ち時間をさらに短縮することを提案しました。 CenterPoint は、オブジェクトをポイントとして表す、アンカーを使用しない一般的な方法です。 PillarNeXt は、柱ベースのモデルのアーキテクチャとトレーニングの両方における最新の設計が、精度とレイテンシの両方においてボクセルの同等のモデルよりも優れていることを実証しています。複数のセンサーの融合は、検出性能を高めるために広く使用されています。 MVP は、仮想画像ポイントによって強化された CenterPoint のセンサー フュージョン バージョンです。

知識の蒸留

この手法はもともと、より大きな教師モデルからコンパクトな生徒モデルに情報を転送することでネットワークを圧縮するために提案されました。この分野の方法のほとんどは、もともと画像分類用に設計されていましたが、画像オブジェクトの検出用に改良されたものはほとんどありません。最近のいくつかの方法では、知識蒸留を 2D オブジェクトの検出にうまく適用しています。しかし、3D オブジェクト検出の蒸留については、特に教師モデルと生徒モデルが異なるモダリティである場合、あまり研究されていません。 DistillBEV によって提案されたアプローチに最も関連のある研究は BEVDistill です。これは、密な前景ガイド付き特徴模倣とスパースインスタンスレベルの蒸留を導入して、LiDAR からの空間知識をマルチビュー 3D オブジェクト検出に転送します。このアプローチと比較して、DistillBEV の方法は、地域分解と適応スケーリングを導入することで、より洗練された蒸留を実現します。さらに、DistillBEV の設計はマルチスケール蒸留に適応しており、さまざまなレベルの機能抽象化でクロスモーダル知識転送を強化できます。

BEV用蒸留ネットワークの設計方法

地域別内訳

GTと教師と生徒の差に応じて領域を分割し、GT領域と差領域の学習に重点を置く

2D オブジェクト検出では、前景領域と背景領域の間の不均衡により、教師と生徒の間で特徴を単純に位置合わせするだけでは、改善はほとんど得られません。 3D 空間のほとんどにはオブジェクトが存在しないため、この現象は 3D オブジェクト検出ではさらに深刻になります。 BEV 特徴マップを統計的に分析すると、平均して 30% 未満のピクセルが空ではないことがわかりました。つまり、関心のあるオブジェクトが含まれているのは、そのうちのごく一部だけです。効果的な知識移転を実行するために、 DistillBEV は領域分解を導入し、すべての領域を平等に扱うのではなく、重要な領域に学生が集中できるように導きます。具体的には、特徴マップは、真陽性 (TP)、偽陽性 (FP)、真陰性 (TN)、偽陰性 (FN) の 4 つのタイプに分類されます。したがって、領域分解マスクは次のように定義されます。

ここで、は特徴マップ上の座標であり、FP 領域内のピクセルの相対的な重要度を制御するために使用されます。

この分解により、 DistillBEVのアプローチでは、さまざまな領域に異なる重要度を柔軟に割り当てることができます。グラウンドトゥルースボックスによってカバーされる領域 (つまり、TP 領域と FN 領域の結合) が前景オブジェクトの特性を正確に伝えると考えるのは簡単です。ただし、 DistillBEV はFP 領域を TN 領域とは異なる方法で処理します。教師モデルが特定の領域で高い活性化を生成する場合、たとえそれが FP であっても (たとえば、ポールが歩行者と誤検出される)、生徒モデルがそのような特徴的な応答を模倣するように促すことは、全体的な 3D ジオメトリの学習にとって依然として有益です。 FP 領域は、教師検出器によって生成された信頼ヒートマップとグラウンド トゥルース ラベルをしきい値処理することによって見つけることができます。

ここで、およびはそれぞれ教師モデルとグラウンドトゥルースから取得されたヒートマップに対応し、ヒートマップのしきい値設定のためのハイパーパラメータです。

スケール適応

対象領域が大きいほど、拡大縮小され(前景が大きい)、FP 領域と TN 領域(背景)も拡大縮小され、ウェイト マップ制約損失が生成されます。

BEV で教師から生徒に知識を引き出す際のもう 1 つの課題は、さまざまなオブジェクト サイズの範囲が非常に広いことです。たとえば、鳥瞰すると、バスは歩行者よりも数十倍の大きさになります。さらに、壁や植物などの背景によって、空白でない領域がかき消されてしまいます。したがって、背景オブジェクトと巨大な前景オブジェクトからより多くの特徴が得られるため、これらが蒸留損失の大部分を占めることになります。蒸留損失への寄与が類似している、異なるサイズのターゲットまたはクラスを反映することが望ましいです。この目標を達成するために、適応スケーリング係数が導入されています。

   BEVにおける境界ボックスの長さ  幅は   k番目のGT(TPまたはFN)  そして  これらはそれぞれ FP 領域と TN 領域に含まれるピクセルの数を表します。

空間的注意

教師の空間的注意と生徒のマルチスケール適応型(スケールに合わせた)空間的注意は、その後の制約損失に対する注意マップを形成する。

DistillBEV は、抽出された教師と生徒の特徴に基づいて空間注意マップを採用し、さらに注目すべき有益な特徴を選択します。空間注意マップは次のように構築されます。

は特徴マップ、はチャネル次元に沿った特徴マップの平均プーリング結果、はすべての空間位置に対するソフトマックスの正規化された注目度、 τは分布エントロピーを調整するための温度です。教師を考慮したDistillBEV   学生たち  特徴マップは最終的な空間注意マップを取得するために使用されます。

その中には、教師の特徴マップから生徒の特徴マップへの適応モジュールがあります。

マルチスケール蒸留

蒸留(スケールアラインメント)マルチスケールだが、領域分割は意味的に表現力のあるヘッドレイヤーに基づいている

ネットワーク内の異なる深さのレイヤーは、異なる抽象的な特徴をエンコードし、異なるレベルの特徴を組み合わせて、さまざまなサイズのオブジェクトをより適切に検出します。教師と生徒の包括的な整合を実現するために、 DistillBEV はこのアイデアを採用し、CNN ベースのモデルに対してマルチスケール特徴蒸留を実行します。ただし、教師ネットワークと生徒ネットワークは異なるアーキテクチャで設計されているため、中間機能間の対応を見つけることが非常に重要になります。たとえば、教師の BEV 特徴マップは通常、生徒の BEV 特徴マップの 2 倍または 4 倍の大きさになります。同じ解像度の機能を単純に揃えると、機能の抽象化レベルに互換性がなくなります。そのため、 DistillBEV は、アップサンプリング レイヤーと投影レイヤーで構成される軽量の適応モジュールを導入し、生徒の特徴をマッピングしてから、同様のレベルの教師の特徴と揃えます。また、ポイントクラウドと画像間のモダリティギャップによって引き起こされる表現の違いが初期段階ではまだ大きいため、初期層での特徴の模倣は蒸留に役立たないこともわかっています。したがって、 DistillBEV は、BEV の最後のエンコード レイヤー (つまり、プレヘッド機能) の FP 領域のみを認識して利用します。この設定は、おそらく最後のレイヤーに表示される高レベルのセマンティック機能が FP 領域をより適切に表現できるため、最も効果的に機能します。

蒸留損失

上記のデザインはすべて、レーダー教師がカメラ学生を紛失するために使用されます。

DistillBEVは、分類と回帰の元の損失と全体的な蒸留損失を使用して学生ネットワークをトレーニングします。まず、教師が定義されます。   学生たち    蒸留層の損失を模倣する機能

このうち、 は領域分解マスクの論理補数、 は適応スケーリング係数、 は空間注意マップ、 αβ はこれら 2 つの項に重み付けするためのハイパーパラメータです。

DistillBEV は、注意模倣損失を利用して、生徒に教師と同様の生成的注意パターンを学習させ、教師ネットワークがより重要と見なす空間的な場所に集中させます。

全損:

 は蒸留を実行するために選択するレイヤーの数であり、 λ は2 つの損失関数間の相対的な重要性を制御します。

時間の融合の蒸留

マルチカメラ BEV に求められる機能は、複数のタイムスタンプ付き機能の融合を容易にすることです。時間的融合を使用して開発されたこの方法は、重要な動的手がかりを利用することで、3D オブジェクトの検出と動きの推定を大幅に改善します。 LiDAR ベースのモデルの場合、一般的なアプローチは、自己動き補正を介して過去のスキャンを現在の座標系に直接変換し、各ポイントの測定値に相対的なタイムスタンプを追加することで、複数のポイント クラウドを融合することです。したがって、教師は時間情報を使用して生徒と簡単に互換性を保つことができるため、 DistillBEVのアプローチで時間的な知識の転送を実行するのは自然なことです。実際には、単一フレームベースと複数フレームベースの両方の学生モデルに統合された教師モデルが採用され、時間的融合による蒸留が実行されます。

DistillBEV の利点は何ですか?

私たちは、大規模な自動運転ベンチマークである nuScenes でアプローチを評価します。データセットは、32 ビーム LIDAR と 6 台のカメラによって 20Hz と 10Hz の周波数で撮影された約 20 秒間の 1,000 シーンで構成されています。 3D オブジェクト検出には合計 10 のカテゴリがあり、注釈は 2Hz で提供されます。標準的な評価分割に従って、トレーニング、検証、テストにそれぞれ 700、150、150 のシーンが使用されます。公式の評価指標に従い、主な指標として平均精度 (mAP) と nuScenes 検出スコア (NDS) が含まれます。また、mATE、mASE、mAOE、mAVE、mAAE を使用して、変換、スケール、方向、速度、属性関連のエラーを測定します。

教師と生徒のモデル  DistillBEVアプローチの一般化可能性を検証するために、さまざまな教師モデルと生徒モデルが検討されます。教師モデルとして、人気の CenterPoint またはそのセンサー フュージョン バージョン MVP が採用されています。学生モデルについては、BEVDet、BEVDet4D、BEVDepth、BEVFormer が代表的な学生モデルとして選択されており、これらは CNN から Transformer まで、基本バージョンから時間 (時間を融合する「4D」) と空間 (信頼性の高い深度推定を強化する「Depth」) まで、幅広い学生モデルを表しています。これらのモデルを組み合わせると、8 つの異なる教師と生徒の組み合わせが形成されます。

PyTorch で実装され、ネットワークはバッチ サイズ 64 の 8 つの NVIDIA Tesla V100 GPU を使用してトレーニングされました。オプティマイザーとして AdamW が使用され、学習率は 2e-4 のコサインスケジュールを採用します。すべてのモデルは CBGS 戦略を使用して 24 エポックにわたってトレーニングされました。 BEVDet と BEVDepth に続いて、画像と BEV 空間の両方にデータ拡張が適用されます。標準評価プロトコルに従い、検出範囲は[-51.2m、51.2m]×[-51.2m、51.2m]に設定されました。画像のバックボーン ネットワークとして、ImageNet-1K で事前トレーニングされた ResNet-50 が使用され、特に指定がない限り、画像は 256×704 にサイズ変更されます。より速い収束を実現するために、生徒検出ヘッドは教師のパラメータで初期化されます。

主な結果

複数のベースに基づく nuScenes 検証セットで DistillBEV を使用した結果は次のとおりです。

nuScenes 検証セット:

nuScenes テストセット:

アブレーション研究

視覚化

参考: DistillBEV: クロスモーダル知識蒸留によるマルチカメラ 3D オブジェクト検出の強化

オリジナルリンク: https://mp.weixin.qq.com/s/qlHnKpCDrbP4WQs9GCxXLA

<<:  BEV におけるレーダー・カメラ間データセット融合に関する実験的研究

>>:  Hugging FaceはLLM向けの新しいGitHubです

ブログ    
ブログ    
ブログ    

推薦する

210,000のボーナスがあなたを待っています! 「ファーウェイクラウドカップ」全国AIコンテスト募集中

現在、神府改革革新モデル区、華為(遼寧)人工知能イノベーションセンター、上海交通大学が共催する神府モ...

医療従事者を守ってください!ロボットは薬を届け、病気を治療し、消毒し、医師や看護師を感染から守ることができる。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

7つの部門:AI、IoTなどの技術を活用し、廃家電リサイクル・処理のインテリジェント化を推進

近年、人工知能などの新世代情報技術や5Gなどの新世代通信技術の急速な発展に伴い、あらゆる分野で科学技...

...

Meta主任AI研究者ヤン・リクン氏:今日のAIは愚かであり、規制当局は我々に干渉すべきではない

ソーシャルメディアFacebookの親会社Metaの主任人工知能研究者ヤン・ルカン氏は10月20日、...

科学者たちは古い携帯電話を分解してリサイクルするためのAI搭載ロボットを開発している

2016年、AppleはiPhoneを11秒で分解できるリサイクルロボット「Liam」を開発したと発...

IoTセキュリティ戦略における機械学習の重要性

機械学習は、自動化と異常な動作の検出を通じて、よりスケーラブルかつ効率的に IoT デバイスを保護す...

...

ついに!ファーウェイの次世代カメラはカメラには見えない

最近、セキュリティ業界で2つの大きな出来事が起こりました。大手証券会社にとって、これはブラックマンデ...

機械学習を実装するには?

機械学習の実装は、AI を活用した製品やサービスの成功にとって重要なステップです。 MLOps が企...

...

陳丹奇と清華大学特別賞受賞学生が新たな成果を発表:Google BERTが提案したトレーニングルールを破る

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

自動運転車の安全基準を緩和?米国上院議員の提案は拒否された

最近、ジョー・バイデン米大統領は1740億ドルの電気自動車提案を行った。バイデン氏は、米国民に電気自...