UniPAD: ユニバーサル自動運転事前トレーニングモデル!あらゆる種類の知覚タスクをサポートできます

UniPAD: ユニバーサル自動運転事前トレーニングモデル!あらゆる種類の知覚タスクをサポートできます

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

最近、新しい論文が次々と発表されるので、ついていけない気がします。言語と視覚のマルチモーダル大規模モデルの融合が業界のコンセンサスとなっていることがわかります。UniPad の記事は、マルチモーダル入力とワールド ライク モデルの事前トレーニング済みベース モデルを備え、従来の複数の視覚アプリケーションに簡単に拡張できる、非常に代表的なものです。また、大規模言語モデルの事前トレーニング方法を 3D シーンに適用するという問題も解決し、統一された知覚ベースの大規模モデルを実現できるようになります。

UniPAD は、MAE と 3D レンダリングに基づく自己教師あり学習方法です。優れたパフォーマンスでベース モデルをトレーニングし、その後、このモデルで深度推定、オブジェクト検出、セグメンテーションなどの下流タスクを微調整してトレーニングできます。この作品は、2D および 3D フレームワークに簡単に統合できる統一された 3D 空間表現方法を設計しているため、ベースモデルの位置付けに沿った、より高い柔軟性を実現しています。

読んでいるときに思ったことや疑問に思ったこと:

マスクセルフエンコーディング技術と3D微分可能レンダリング技術の関係は何ですか?簡単に言うと、マスクオートエンコーディングはオートエンコーダの自己教師あり学習機能を活用することであり、レンダリング技術は生成された画像と元の画像間の損失関数を計算し、教師あり学習を実行することです。したがって、論理は依然として非常に明確です。

この記事では、ベースモデルの事前トレーニング方法を使用し、その後、下流の検出およびセグメンテーション方法を微調整します。この方法は、現在の大規模モデルが下流のタスクでどのように機能するかを理解するのにも役立ちます。

タイミング情報は組み込まれていないようです。結局のところ、純粋なビジュアル 50.2 NuScenes NDS は、時系列による検出方法 (StreamPETR、Sparse4D など) と比較すると、まだ少し弱いです。したがって、4D MAE メソッドも試してみる価値があります。実際、GAIA-1 ではすでに同様のアイデアが言及されています。

使用される計算量とメモリ量はどれくらいですか?

具体的な方法:

UniPAD は、主にマスクオートエンコーダ (MAE、VoxelMAE など) からヒントを得た 3D 空間情報を暗黙的にエンコードします。この論文では、生成マスクを使用してボクセル機能を強化し、シーン内の連続した 3D 形状構造と 2D 平面上の複雑な外観機能を再構築します。

私たちの実験では、UniPAD の優位性が十分に実証されました。従来の LIDAR、カメラ、LIDAR カメラ融合ベースラインと比較すると、UniPAD は NDS をそれぞれ 9.1、7.7、6.9 向上させます。特筆すべきは、nuScenes 検証セットでは、事前トレーニング パイプラインが 3D オブジェクト検出で NDS 73.2、3D セマンティック セグメンテーション タスクで mIoU スコア 79.4 を達成しており、これは従来の方法と比較して最高の結果であるということです。

全体的なアーキテクチャ:

全体的なアーキテクチャ。フレームワークは LiDAR とマルチレンズ画像を入力として受け取り、これらのマルチモーダル データはマスク ジェネレーターを通じてゼロで埋められます。マスクされた埋め込みはボクセル空間に変換され、レンダリング技術を使用してこの 3D 空間で RGB または深度予測が生成されます。このとき、マスクでマスクされていない元の画像は、教師あり学習用の生成データとして使用することができます。

マスクジェネレーター

ここでのマスクされたオートエンコーダーのマスクは、マスクジェネレーターによって生成されます。モデルの表現力と一般化能力を高めるために、データを増やすことでトレーニングの難易度が上がることがわかります。ポイント クラウド データと画像データを区別しながら、特定の領域を選択的にマスクするためのマスク ジェネレーターが導入されました。ポイント クラウド データでは、ブロック単位のマスキング戦略が採用され、画像の場合は、スパース畳み込み法を使用して、可視領域でのみ計算を実行します。入力データがマスクされると、対応するマスク領域で後続のエンコードされた特徴は 0 に設定され、モデル処理では無視されます。同時に、ターゲットとそれに対応するグラウンドトゥルースを予測するために使用できるグラウンドトゥルースを使用した後続の教師あり学習も提供されます。

統一された表現

事前トレーニング方法をさまざまなデータ モダリティに適用できるようにするには、統一された表現を見つけることが重要です。 BEV や OCC などの従来の方法では、統一された識別形式が求められていました。3D ポイントを画像平面に投影すると深度情報が失われ、BEV の鳥瞰図に統合すると高さに関する詳細が失われます。したがって、本論文では、両方のモダリティを 3D ボリューム空間、つまり OCC に類似した 3D ボクセル空間に変換することを提案します。

レンダリング方法:

著者の意見では、微分可能レンダリング技術はおそらくこの論文の最大のハイライトです。この論文では、NERF のようなサンプリング光線を使用してマルチビュー画像またはポイント クラウドを通過し、ニューラル ネットワーク構造を通じて各 3D ポイントの色または深度を予測し、最終的に光線が通過するパスを通じて 2D マッピングを取得します。これにより、画像内の幾何学的またはテクスチャ的な手がかりをより有効に活用し、モデルの学習能力と適用範囲を向上させることができます。

シーンを SDF (暗黙の符号付き距離関数フィールド) として表現します。入力がサンプリング ポイントの 3D 座標 P (光線に沿った対応する深度 D) と F (特徴埋め込みは三線補間によってボリューム表現から抽出できます) の場合、SDF はサンプリング ポイントの SDF 値を予測する MLP として見ることができます。ここで、F は点 P が位置するエンコード コードとして理解できます。次に、出力 N (表面法線上のカラー フィールドの条件) と H (ジオメトリ特徴ベクトル) を取得します。次に、P、D、F、N、H を入力として MLP を使用して、3D サンプリング ポイントの RGB 値と深度値を取得し、レイを使用して 3D サンプリング ポイントを 2D 空間に重ね合わせてレンダリング結果を取得します。ここで Ray に使用されている方法は、基本的に Nerf の場合と同じです。

レンダリング方法ではメモリ消費を最適化する必要もありますが、これについてはここでは説明しません。ただし、この問題は実装上のより重大な問題です。

マスクとレンダリング方式の本質は、事前トレーニング モデルをトレーニングすることです。事前トレーニングでは、後続の分岐なしで予測されたマスクに基づいてトレーニングを完了できます。事前トレーニングのその後の作業では、それぞれ異なるブランチを通じて RGB と深度の予測が生成されます。つまり、後で det/seg などのタスクと組み合わせて微調整できるため、プラグアンドプレイ機能が実現します。

損失損失関数:

損失関数は複雑ではありません。

実験結果:

最近の他の研究と比較すると:

実際、GAIA-1 は時系列ですでにマスクオートエンコーダーの考え方を採用していますが、監視データは異なる時間のデータのフレーム全体ですが、UniPAD は 3D 空間でマスクの一部をランダムに抽出して予測を監視します。この2つがどのように組み合わされるかを見るのが楽しみです。

さらに、UniPAD は、マルチモーダルな大規模モデル、または世界モデルの試みとして見ることができます。ただし、この記事ではこの点は強調されていません。

要約:

この記事は、3D 分野における比較的新しいマスク オートエンコーダ手法として捉えるべきです。 MAE法はベースモデルの事前学習段階で利用されるため、複数の異なるモダリティからの情報に対応しており、多くの下流タスクを微調整するために自然に拡張できます。これは、事前学習段階でマルチモーダル情報を捕捉し、さまざまなタスクに統一された基盤を提供することに重点を置くLLMの設計思想に非常に近いものです。この方法は、3D 分野の研究に新たなアイデアと可能性をもたらします。

この方法は、3D 分野での可能性を秘めているだけでなく、4D 時系列分野にも拡張でき、メモリと計算の複雑さを最適化する上で多くの新しい作業を生み出し、将来の研究に新しいアイデアと可能性を提供します。

オリジナルリンク: https://mp.weixin.qq.com/s/e_reCS-Lwr-KVF80z56_ow

<<:  GPT-4 Turboがリリースされたが、人気が高すぎて翌日2時間ダウンした。

>>:  AI の力: Docker による機械学習アプリケーションの導入とスケーラビリティの簡素化

ブログ    
ブログ    

推薦する

脳コンピューターインターフェースが人間とコンピューターの共生を実現 専門家:ハッカーにハイジャックされ記憶を消去される可能性も

[[336395]]海外メディアの報道によると、8月4日、サイバーセキュリティの専門家は、イーロン・...

ロボット工学における最先端技術トップ10

近年、ロボット産業は急速に発展し、特に産業分野ではロボットがさまざまな分野で広く使用されるようになり...

スマートホームデバイスにおける自然言語生成の応用

スマートホームデバイスへの自然言語生成 (NLG) の統合により、テクノロジーとのやり取りの方法に革...

マスク氏の最新インタビュー:自動運転、AI、テスラのヒューマノイドロボットについて

最近、世界一の富豪イーロン・マスク氏がTEDディレクターのクリス・アンダーソン氏が主催する独占インタ...

...

人工知能開発の現状と将来動向の分析

人工知能、またはよく「AI」(英語の正式名称:Artificial Intelligence)と呼ば...

パンデミックの中、大量のAIロボットが職務に就いている

2016年、著名な科学ライターでありシリコンバレーの投資家でもある呉軍氏は、大胆に次のように予測しま...

...

...

...

AI人工知能は弱い:あなたを瞬時に複製できる仮想人間が登場

今、テクノロジー界で最もホットな話題はAI(人工知能)です。将来、世界はこれらの人工知能に支配される...

PyTorch Lightning モデルを本番環境にデプロイするにはどうすればいいですか?

[51CTO.com クイック翻訳] 機械学習の分野を見ると、ソフトウェアエンジニアリングの原理を...

大規模モデルを路上に展開するための重要なステップ: 世界初の言語 + 自動運転オープンソースデータセットが登場

DriveLM は、データセットとモデルで構成される言語ベースのドライブ プロジェクトです。 Dri...

AR のヒント | 説明する時間はありません。今すぐ保存してください。

[51CTO.com からのオリジナル記事] 近年、AR は常に資本追求の焦点となってきました。 ...