この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 MonoLSS: 単眼 3D 検出のための学習可能なサンプル選択 論文リンク: https://arxiv.org/pdf/2312.14474.pdf 自動運転の分野では、単一の RGB 画像内の物体の 3D プロパティ (深度、サイズ、方向) を推定する単眼 3D 検出が重要なタスクです。これまでの研究では、不適切な特徴が望ましくない影響を及ぼす可能性があることを考慮せずに、特徴を使用してヒューリスティックな方法で 3D プロパティを学習していました。この論文では、サンプル選択が導入され、3D 属性を回帰するには適切なサンプルのみを使用する必要があります。サンプルを適応的に選択するために、Gumbel-Softmax と相対距離サンプル分割に基づいた学習可能なサンプル選択 (LSS) モジュールが提案されています。 LSS モジュールはウォームアップ戦略に基づいて動作し、トレーニングの安定性を向上させます。さらに、3D 属性サンプル選択専用の LSS モジュールはオブジェクト レベルの機能に依存しているため、MixUp3D というデータ拡張手法がさらに開発され、曖昧さを導入することなくイメージング原理に準拠した 3D 属性サンプルが強化されます。 2 つの直交方法として、LSS モジュールと MixUp3D を個別に、または組み合わせて使用できます。十分な実験により、これらを組み合わせて使用することで相乗効果が得られ、個々の適用の合計を上回る改善が得られることが証明されています。 LSS モジュールと MixUp3D の助けを借りて、追加データなしで、私たちの方法 MonoLSS は KITTI 3D オブジェクト検出ベンチマークの 3 つのカテゴリ (車、自転車、歩行者) すべてで 1 位にランクされ、Waymo データセットと KITTI-nuScenes クロスデータセット評価で競争力のある結果を達成しました。 MonoLSSの主な貢献: この論文では、すべての特徴が 3D プロパティの学習に同等に効果的であるとは限らないことを強調し、まずそれをサンプル選択の問題として再定式化します。したがって、適応的にサンプルを選択できる新しい学習可能なサンプル選択 (LSS) モジュールが開発されました。 3D 属性サンプルを充実させるために、空間オーバーラップをモデル化し、3D 検出パフォーマンスを大幅に向上させる MixUp3D データ拡張を設計しました。 追加情報を導入することなく、MonoLSS は KITTI ベンチマークの 3 つのカテゴリすべてで 1 位にランクされ、自動車カテゴリの中レベルと中間レベルで現在の最良の方法を 11.73% と 12.19% 上回りました。また、Waymo データセットと KITTI nuScenes クロスデータセット評価で SOTA 結果も達成しました。 MonoLSSの主なアイデアMonoLSS フレームワークを下図に示します。まず、ROI Align と組み合わせた 2D 検出器を使用してオブジェクトの特徴を生成します。次に、6 つのヘッドがそれぞれ 3D 特徴 (深度、サイズ、方向、3D 中心投影オフセット)、深度不確実性、対数確率を予測します。最後に、学習可能なサンプル選択 (LSS) モジュールが適応的にサンプルを選択し、損失計算を実行します。 学習可能なサンプル選択 U ∼ Uniform (0, 1) と仮定すると、逆変換サンプリングを使用して G = −log(−log(U)) を計算することで Gumbel 分布 G を生成できます。 Gumbel Max トリックは、Gumbel 分布を使用して対数確率を独立して摂動し、argmax 関数を使用して最大要素を見つけることで、ランダム選択なしで確率サンプリングを実現します。この研究に基づいて、Gumbel Softmax は Softmax 関数を argmax の連続微分可能な近似として使用し、再パラメータ化の助けを借りて全体的な微分可能性を実現します。 GumbelTop-k は、サイズ k の順序付きサンプルを置換なしで抽出することにより、サンプリング ポイントの数を Top-1 から Top-k に拡張します。ここで、k はハイパーパラメータです。ただし、同じ k がすべてのオブジェクトに適用されるわけではありません。たとえば、遮蔽されたオブジェクトでは、通常のオブジェクトよりも正のサンプルが少なくなります。この目的のために、ハイパーパラメータの相対距離に基づいてサンプルを適応的に分割するモジュールを設計します。要約すると、著者らは、3D 属性学習におけるサンプル選択問題に対処するために、Gumbel Softmax と相対距離サンプル分割器で構成される学習可能なサンプル選択 (LSS) モジュールを提案しました。 LSS モジュールの概略図を図 2 の右側に示します。 Mixup3Dデータ拡張データ拡張方法は、厳しい画像制約のため、単眼 3D 検出では制限されます。測光歪みや水平反転に加えて、ほとんどのデータ拡張方法では、イメージング原理の破壊によりぼやけた特徴が生じます。さらに、LSS モジュールはターゲット レベルの特徴に重点を置いているため、ターゲット自体の特性を変更しない方法は LSS モジュールにとって十分な効果がありません。 MixUp の利点により、ターゲットのピクセルレベルの特徴を強化できます。著者らは、2D MixUp に物理的な制約を追加して、新しく生成された画像が本質的に空間的な重なりの妥当な画像となるようにする MixUp3D を提案しています。具体的には、MixUp3D は、生成された画像がイメージングの原則に準拠していることを保証しながら、物理世界におけるオブジェクトの衝突制約のみに違反し、曖昧さを回避します。 実験結果KITTI テスト セットにおける自動車の単眼 3D 検出パフォーマンス。 KITTI リーダーボードと同様に、メソッドは中程度の難易度以下にランク付けされます。最も良い結果を太字で強調し、2 番目に良い結果を下線で強調します。追加データ: 1) LIDAR は、トレーニング中に追加の LIDAR クラウド ポイントを使用する方法を表します。 2) 深度とは、深度マップまたは別の深度推定データセットで事前トレーニングされたモデルを活用することを指します。 3) CAD 表現では、CAD モデルによって提供される高密度の形状注釈が使用されます。 4) 「なし」は追加データが使用されないことを意味します。 Wamyo データセットのテスト結果: 深度 MAE を使用した KITTI-val および nuScenes フロントフェイス val 車両における KITTI-val モデルのクロスデータセット評価: オリジナルリンク: https://mp.weixin.qq.com/s/X5_2ZZjABnvEi2Ki62oiwg |
>>: Gemini と GPT-4V のどちらが優れていますか?視覚言語モデルの総合的な比較と併用
3Dバイオプリンティング技術は、3Dプリンターを使用して細胞や生物学的材料を含む「インク」を特定の形...
清華大学の自動化部門チームは、北京総合人工知能研究所と協力して、複数の AI エージェントにボードゲ...
Facebookは、独自のARグラスを開発するためにRay-Banと提携するなど、拡張現実技術に多大...
AI テクノロジーがスマート ホームをどのように改善しているかについて学びます。人工知能とは何ですか...
オープンソースライセンスは進化すべきだと思いますか? 2023年は人工知能(AI)の登場とともに新年...
運輸業界は、現在のレベルに到達するまでに何百年にもわたる研究、実験、改良を経てきました。 1787 ...
CVPR 2021で発表された論文の中で、NetEase Fuxiとミシガン大学の研究者は、制御可能...
1. ニューラルネットワークに基づく機械翻訳選択理由: 翻訳は「自然言語処理」の中でも最も重要な分...
0. はじめに現在、ノートパソコン、スマートフォン、ソリッドステートドライブなどの新しい電子機器には...