LIDAR ポイント クラウドの自己教師あり事前トレーニング用 SOTA!

LIDAR ポイント クラウドの自己教師あり事前トレーニング用 SOTA!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

論文のアイデア:

マスクされたオートエンコーディングは、テキスト、画像、そして最近ではポイントクラウド用の Transformer モデルの事前トレーニング パラダイムとして成功しています。生の自動車データセットは、3D オブジェクト検出 (OD) などのタスクの注釈に比べて収集コストが一般的に安価であるため、自己教師あり事前トレーニングに適しています。しかし、ポイントクラウド用のマスクされたオートエンコーダーの開発は、合成データと屋内データにのみ焦点を当ててきました。そのため、既存の方法では、均一な点密度を持つ小さくて密な点群に合わせて表現とモデルを調整してきました。この研究では、自動車の設定における点群のマスクされたオートエンコーディングを研究します。これらの点群はまばらで、同じシーン内の異なるオブジェクト間で密度が大きく異なる可能性があります。この目的のために、本論文では、ボクセル表現用に設計された単純なマスク付きオートエンコーディング事前トレーニング方式である Voxel-MAE を提案します。マスクされたボクセルを再構築し、空のボクセルと空でないボクセルを区別するために、Transformer ベースの 3D オブジェクト検出器バックボーンを事前トレーニングします。私たちの方法は、困難な nuScenes データセットで 3D OD パフォーマンスを 1.75 mAP と 1.05 NDS 向上させます。さらに、Voxel-MAE で事前トレーニングすることで、ランダムに初期化された同等のデータよりも優れたパフォーマンスを得るために、注釈付きデータの 40% のみが必要になることを示しています。

主な貢献:

本稿では、ボクセル化されたポイントクラウドに MAE スタイルの自己教師付き事前トレーニングを展開する方法である Voxel-MAE を提案し、大規模な自動車ポイントクラウドデータセット nuScenes で評価します。私たちの方法は、自動車のポイントクラウドに Transformer バックボーンを使用する最初の自己教師付き事前トレーニング スキームです。

私たちはボクセル表現へのアプローチを調整し、独自の再構築タスクのセットを使用して、ボクセル化されたポイントクラウドの特性を捉えます。

私たちのアプローチはデータ効率が高く、注釈付きデータの必要性を減らすことを実証します。事前トレーニングでは、注釈付きデータの 40% のみを使用した場合でも、完全に教師ありのデータよりも優れたパフォーマンスを発揮します。

さらに、Voxel-MAE は、Transformer ベースの検出器のパフォーマンスを mAP で 1.75 パーセント ポイント、NDS で 1.05 パーセント ポイント向上させ、既存の自己教師あり方式に比べて 2 倍の改善を達成することがわかりました。

ネットワーク設計:

この研究の目的は、MAE スタイルの事前トレーニングをボクセル化されたポイント クラウドに拡張することです。中心となる考え方は、図 2 に示すように、エンコーダーを使用して入力の部分的な観測から豊富な潜在表現を作成し、デコーダーを使用して元の入力を再構築することです。事前トレーニング後、エンコーダーは 3D オブジェクト検出器のバックボーンとして使用されます。ただし、画像とポイント クラウドの基本的な違いにより、Voxel-MAE を効果的にトレーニングするにはいくつかの変更が必要になります。

図 2: 当社の Voxel-MAE 手法。まず、ポイント クラウドは固定のボクセル サイズでボクセル化されます。図中のボクセル サイズは視覚化のために誇張されています。トレーニングの前に、空でないボクセルの大部分 (70%) がランダムにマスクされました。エンコーダは可視ボクセルにのみ適用され、動的ボクセル特徴埋め込み[46]を使用してこれらのボクセルが埋め込まれます。マスクされた空でないボクセルとランダムに選択された空のボクセルは、同じ学習可能なマスク トークンを使用して埋め込まれます。次に、デコーダーはマスク トークンのシーケンスとエンコードされた可視ボクセルのシーケンスを処理して、マスクされたポイント クラウドを再構築し、空のボクセルと空でないボクセルを区別します。事前トレーニング後、デコーダーは破棄され、エンコーダーがマスクされていないポイント クラウドに適用されます。

図 1: MAE (左) は、画像を固定サイズの重複しないパッチに分割します。既存のマスクされたポイント モデリング方法 (中央) は、最も遠いポイント サンプリングと k 近傍法を使用して、固定数のポイント クラウド パッチを作成します。私たちの方法 (右) では、重複しないボクセルと動的な数のポイントを使用します。

実験結果:

引用:

Hess G、Jaxing J、Svensson E、他「LIDAR点群の自己教師あり事前学習のためのマスクオートエンコーダー[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2023: 350-359」

<<:  機械は倫理的な判断を下せるのか?

>>:  Meta がピクセルレベルのモーション トラッキング モデルを発表、簡易版はオンラインで利用可能

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

Baidu Brain の「EasyDL Classic Edition」はあなたを魅了しました。実際の業界アプリケーションを手に入れましたか?

既存のビジネスやソリューションをベースに、企業は AI 機能を導入することで、どのようにすれば効率性...

アクセス制御における生体認証の応用と開発

現在、アクセス制御にはより高度な技術と新しいアプリケーション市場があります。アクセス制御システムで現...

今後、セキュリティ分野で顔認識技術はどのように発展していくのでしょうか?

顔認識とは、顔の特徴情報の本人分析を利用して本人認証を行う生体認証技術を指します。人気の生体認証技術...

...

仮想誘拐:人工知能がランサムウェア詐欺を助長

もしあなたの配偶者や子供があなたに泣きながら電話をかけてきて、誘拐されたと告げたら、あなたは冷静で慎...

...

...

Microsoft AI の面接の質問はどれくらい難しいですか?サンプルロールはこちら

ビッグデータ概要編纂者:張南星、魏青、銭天培マイクロソフトのような大企業は、どのような AI 人材を...

ロボットは電気羊の夢を見るか?Google AI 従業員の辞職から AI 倫理について何を学ぶことができるか?

2月20日、Googleの倫理AIチームの創設者であるミッチェル氏はTwitterに「私は解雇され...

スマート水利建設を加速する必要があり、ドローンが大きな推進力となる

夏の気温が上昇し続け、雨季が近づいているため、我が国の水利インフラは再び大きな試練に直面することにな...

ChatGPT-4 に基づく IDEA スマート アシスタントの使い方を教えます

遅れて気づいて申し訳ありません。この記事を読んでいる友人の中には、すでにこのプラグインをインストール...

Aiti Tribe Clinic 第 6 回: 機械学習は緊急事態をどのように判断するのか?

[51CTO.com からのオリジナル記事]活動の説明: Aiti Tribe は、コア開発者に詳...

自動運転マップ構築モデルを1つの記事で理解する

1 高精度地図高精度地図HDMapは自動運転において愛憎入り混じった役割を果たしており、近年、業界の...