UniPAD: ユニバーサル自動運転事前トレーニングモデル!あらゆる種類の知覚タスクをサポートできます

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

最近、新しい論文が次々と発表されるので、ついていけない気がします。言語と視覚のマルチモーダル大規模モデルの融合が業界のコンセンサスとなっていることがわかります。UniPad の記事は、マルチモーダル入力とワールドライクモデルの事前トレーニング済みベースモデルを備え、従来の複数の視覚アプリケーションに簡単に拡張できる、非常に代表的なものです。また、大規模言語モデルの事前トレーニング方法を 3D シーンに適用するという問題も解決し、統一された知覚ベースの大規模モデルを実現できるようになります。

UniPAD は、MAE と 3D レンダリングに基づく自己教師あり学習方法です。優れたパフォーマンスでベースモデルをトレーニングし、その後、このモデルで深度推定、オブジェクト検出、セグメンテーションなどの下流タスクを微調整してトレーニングできます。この作品は、2D および 3D フレームワークに簡単に統合できる統一された 3D 空間表現方法を設計しているため、ベースモデルの位置付けに沿った、より高い柔軟性を実現しています。

読んでいるときに思ったことや疑問に思ったこと:

マスクセルフエンコーディング技術と3D微分可能レンダリング技術の関係は何ですか?簡単に言うと、マスクオートエンコーディングはオートエンコーダの自己教師あり学習機能を活用することであり、レンダリング技術は生成された画像と元の画像間の損失関数を計算し、教師あり学習を実行することです。したがって、論理は依然として非常に明確です。

この記事では、ベースモデルの事前トレーニング方法を使用し、その後、下流の検出およびセグメンテーション方法を微調整します。この方法は、現在の大規模モデルが下流のタスクでどのように機能するかを理解するのにも役立ちます。

タイミング情報は組み込まれていないようです。結局のところ、純粋なビジュアル 50.2 NuScenes NDS は、時系列による検出方法 (StreamPETR、Sparse4D など) と比較すると、まだ少し弱いです。したがって、4D MAE メソッドも試してみる価値があります。実際、GAIA-1 ではすでに同様のアイデアが言及されています。

使用される計算量とメモリ量はどれくらいですか?

具体的な方法：

UniPAD は、主にマスクオートエンコーダ (MAE、VoxelMAE など) からヒントを得た 3D 空間情報を暗黙的にエンコードします。この論文では、生成マスクを使用してボクセル機能を強化し、シーン内の連続した 3D 形状構造と 2D 平面上の複雑な外観機能を再構築します。

私たちの実験では、UniPAD の優位性が十分に実証されました。従来の LIDAR、カメラ、LIDAR カメラ融合ベースラインと比較すると、UniPAD は NDS をそれぞれ 9.1、7.7、6.9 向上させます。特筆すべきは、nuScenes 検証セットでは、事前トレーニングパイプラインが 3D オブジェクト検出で NDS 73.2、3D セマンティックセグメンテーションタスクで mIoU スコア 79.4 を達成しており、これは従来の方法と比較して最高の結果であるということです。

全体的なアーキテクチャ:

全体的なアーキテクチャ。フレームワークは LiDAR とマルチレンズ画像を入力として受け取り、これらのマルチモーダルデータはマスクジェネレーターを通じてゼロで埋められます。マスクされた埋め込みはボクセル空間に変換され、レンダリング技術を使用してこの 3D 空間で RGB または深度予測が生成されます。このとき、マスクでマスクされていない元の画像は、教師あり学習用の生成データとして使用することができます。

マスクジェネレーター

ここでのマスクされたオートエンコーダーのマスクは、マスクジェネレーターによって生成されます。モデルの表現力と一般化能力を高めるために、データを増やすことでトレーニングの難易度が上がることがわかります。ポイントクラウドデータと画像データを区別しながら、特定の領域を選択的にマスクするためのマスクジェネレーターが導入されました。ポイントクラウドデータでは、ブロック単位のマスキング戦略が採用され、画像の場合は、スパース畳み込み法を使用して、可視領域でのみ計算を実行します。入力データがマスクされると、対応するマスク領域で後続のエンコードされた特徴は 0 に設定され、モデル処理では無視されます。同時に、ターゲットとそれに対応するグラウンドトゥルースを予測するために使用できるグラウンドトゥルースを使用した後続の教師あり学習も提供されます。

統一された表現

事前トレーニング方法をさまざまなデータモダリティに適用できるようにするには、統一された表現を見つけることが重要です。 BEV や OCC などの従来の方法では、統一された識別形式が求められていました。3D ポイントを画像平面に投影すると深度情報が失われ、BEV の鳥瞰図に統合すると高さに関する詳細が失われます。したがって、本論文では、両方のモダリティを 3D ボリューム空間、つまり OCC に類似した 3D ボクセル空間に変換することを提案します。

レンダリング方法:

著者の意見では、微分可能レンダリング技術はおそらくこの論文の最大のハイライトです。この論文では、NERF のようなサンプリング光線を使用してマルチビュー画像またはポイントクラウドを通過し、ニューラルネットワーク構造を通じて各 3D ポイントの色または深度を予測し、最終的に光線が通過するパスを通じて 2D マッピングを取得します。これにより、画像内の幾何学的またはテクスチャ的な手がかりをより有効に活用し、モデルの学習能力と適用範囲を向上させることができます。

シーンを SDF (暗黙の符号付き距離関数フィールド) として表現します。入力がサンプリングポイントの 3D 座標 P (光線に沿った対応する深度 D) と F (特徴埋め込みは三線補間によってボリューム表現から抽出できます) の場合、SDF はサンプリングポイントの SDF 値を予測する MLP として見ることができます。ここで、F は点 P が位置するエンコードコードとして理解できます。次に、出力 N (表面法線上のカラーフィールドの条件) と H (ジオメトリ特徴ベクトル) を取得します。次に、P、D、F、N、H を入力として MLP を使用して、3D サンプリングポイントの RGB 値と深度値を取得し、レイを使用して 3D サンプリングポイントを 2D 空間に重ね合わせてレンダリング結果を取得します。ここで Ray に使用されている方法は、基本的に Nerf の場合と同じです。

レンダリング方法ではメモリ消費を最適化する必要もありますが、これについてはここでは説明しません。ただし、この問題は実装上のより重大な問題です。

マスクとレンダリング方式の本質は、事前トレーニングモデルをトレーニングすることです。事前トレーニングでは、後続の分岐なしで予測されたマスクに基づいてトレーニングを完了できます。事前トレーニングのその後の作業では、それぞれ異なるブランチを通じて RGB と深度の予測が生成されます。つまり、後で det/seg などのタスクと組み合わせて微調整できるため、プラグアンドプレイ機能が実現します。

損失損失関数:

損失関数は複雑ではありません。

実験結果:

最近の他の研究と比較すると:

実際、GAIA-1 は時系列ですでにマスクオートエンコーダーの考え方を採用していますが、監視データは異なる時間のデータのフレーム全体ですが、UniPAD は 3D 空間でマスクの一部をランダムに抽出して予測を監視します。この2つがどのように組み合わされるかを見るのが楽しみです。

さらに、UniPAD は、マルチモーダルな大規模モデル、または世界モデルの試みとして見ることができます。ただし、この記事ではこの点は強調されていません。

要約:

この記事は、3D 分野における比較的新しいマスクオートエンコーダ手法として捉えるべきです。 MAE法はベースモデルの事前学習段階で利用されるため、複数の異なるモダリティからの情報に対応しており、多くの下流タスクを微調整するために自然に拡張できます。これは、事前学習段階でマルチモーダル情報を捕捉し、さまざまなタスクに統一された基盤を提供することに重点を置くLLMの設計思想に非常に近いものです。この方法は、3D 分野の研究に新たなアイデアと可能性をもたらします。

この方法は、3D 分野での可能性を秘めているだけでなく、4D 時系列分野にも拡張でき、メモリと計算の複雑さを最適化する上で多くの新しい作業を生み出し、将来の研究に新しいアイデアと可能性を提供します。

オリジナルリンク: https://mp.weixin.qq.com/s/e_reCS-Lwr-KVF80z56_ow

<<: GPT-4 Turboがリリースされたが、人気が高すぎて翌日2時間ダウンした。

>>: AI の力: Docker による機械学習アプリケーションの導入とスケーラビリティの簡素化