UniPAD: ユニバーサル自動運転事前トレーニングモデル!あらゆる種類の知覚タスクをサポートできます

UniPAD: ユニバーサル自動運転事前トレーニングモデル!あらゆる種類の知覚タスクをサポートできます

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

最近、新しい論文が次々と発表されるので、ついていけない気がします。言語と視覚のマルチモーダル大規模モデルの融合が業界のコンセンサスとなっていることがわかります。UniPad の記事は、マルチモーダル入力とワールド ライク モデルの事前トレーニング済みベース モデルを備え、従来の複数の視覚アプリケーションに簡単に拡張できる、非常に代表的なものです。また、大規模言語モデルの事前トレーニング方法を 3D シーンに適用するという問題も解決し、統一された知覚ベースの大規模モデルを実現できるようになります。

UniPAD は、MAE と 3D レンダリングに基づく自己教師あり学習方法です。優れたパフォーマンスでベース モデルをトレーニングし、その後、このモデルで深度推定、オブジェクト検出、セグメンテーションなどの下流タスクを微調整してトレーニングできます。この作品は、2D および 3D フレームワークに簡単に統合できる統一された 3D 空間表現方法を設計しているため、ベースモデルの位置付けに沿った、より高い柔軟性を実現しています。

読んでいるときに思ったことや疑問に思ったこと:

マスクセルフエンコーディング技術と3D微分可能レンダリング技術の関係は何ですか?簡単に言うと、マスクオートエンコーディングはオートエンコーダの自己教師あり学習機能を活用することであり、レンダリング技術は生成された画像と元の画像間の損失関数を計算し、教師あり学習を実行することです。したがって、論理は依然として非常に明確です。

この記事では、ベースモデルの事前トレーニング方法を使用し、その後、下流の検出およびセグメンテーション方法を微調整します。この方法は、現在の大規模モデルが下流のタスクでどのように機能するかを理解するのにも役立ちます。

タイミング情報は組み込まれていないようです。結局のところ、純粋なビジュアル 50.2 NuScenes NDS は、時系列による検出方法 (StreamPETR、Sparse4D など) と比較すると、まだ少し弱いです。したがって、4D MAE メソッドも試してみる価値があります。実際、GAIA-1 ではすでに同様のアイデアが言及されています。

使用される計算量とメモリ量はどれくらいですか?

具体的な方法:

UniPAD は、主にマスクオートエンコーダ (MAE、VoxelMAE など) からヒントを得た 3D 空間情報を暗黙的にエンコードします。この論文では、生成マスクを使用してボクセル機能を強化し、シーン内の連続した 3D 形状構造と 2D 平面上の複雑な外観機能を再構築します。

私たちの実験では、UniPAD の優位性が十分に実証されました。従来の LIDAR、カメラ、LIDAR カメラ融合ベースラインと比較すると、UniPAD は NDS をそれぞれ 9.1、7.7、6.9 向上させます。特筆すべきは、nuScenes 検証セットでは、事前トレーニング パイプラインが 3D オブジェクト検出で NDS 73.2、3D セマンティック セグメンテーション タスクで mIoU スコア 79.4 を達成しており、これは従来の方法と比較して最高の結果であるということです。

全体的なアーキテクチャ:

全体的なアーキテクチャ。フレームワークは LiDAR とマルチレンズ画像を入力として受け取り、これらのマルチモーダル データはマスク ジェネレーターを通じてゼロで埋められます。マスクされた埋め込みはボクセル空間に変換され、レンダリング技術を使用してこの 3D 空間で RGB または深度予測が生成されます。このとき、マスクでマスクされていない元の画像は、教師あり学習用の生成データとして使用することができます。

マスクジェネレーター

ここでのマスクされたオートエンコーダーのマスクは、マスクジェネレーターによって生成されます。モデルの表現力と一般化能力を高めるために、データを増やすことでトレーニングの難易度が上がることがわかります。ポイント クラウド データと画像データを区別しながら、特定の領域を選択的にマスクするためのマスク ジェネレーターが導入されました。ポイント クラウド データでは、ブロック単位のマスキング戦略が採用され、画像の場合は、スパース畳み込み法を使用して、可視領域でのみ計算を実行します。入力データがマスクされると、対応するマスク領域で後続のエンコードされた特徴は 0 に設定され、モデル処理では無視されます。同時に、ターゲットとそれに対応するグラウンドトゥルースを予測するために使用できるグラウンドトゥルースを使用した後続の教師あり学習も提供されます。

統一された表現

事前トレーニング方法をさまざまなデータ モダリティに適用できるようにするには、統一された表現を見つけることが重要です。 BEV や OCC などの従来の方法では、統一された識別形式が求められていました。3D ポイントを画像平面に投影すると深度情報が失われ、BEV の鳥瞰図に統合すると高さに関する詳細が失われます。したがって、本論文では、両方のモダリティを 3D ボリューム空間、つまり OCC に類似した 3D ボクセル空間に変換することを提案します。

レンダリング方法:

著者の意見では、微分可能レンダリング技術はおそらくこの論文の最大のハイライトです。この論文では、NERF のようなサンプリング光線を使用してマルチビュー画像またはポイント クラウドを通過し、ニューラル ネットワーク構造を通じて各 3D ポイントの色または深度を予測し、最終的に光線が通過するパスを通じて 2D マッピングを取得します。これにより、画像内の幾何学的またはテクスチャ的な手がかりをより有効に活用し、モデルの学習能力と適用範囲を向上させることができます。

シーンを SDF (暗黙の符号付き距離関数フィールド) として表現します。入力がサンプリング ポイントの 3D 座標 P (光線に沿った対応する深度 D) と F (特徴埋め込みは三線補間によってボリューム表現から抽出できます) の場合、SDF はサンプリング ポイントの SDF 値を予測する MLP として見ることができます。ここで、F は点 P が位置するエンコード コードとして理解できます。次に、出力 N (表面法線上のカラー フィールドの条件) と H (ジオメトリ特徴ベクトル) を取得します。次に、P、D、F、N、H を入力として MLP を使用して、3D サンプリング ポイントの RGB 値と深度値を取得し、レイを使用して 3D サンプリング ポイントを 2D 空間に重ね合わせてレンダリング結果を取得します。ここで Ray に使用されている方法は、基本的に Nerf の場合と同じです。

レンダリング方法ではメモリ消費を最適化する必要もありますが、これについてはここでは説明しません。ただし、この問題は実装上のより重大な問題です。

マスクとレンダリング方式の本質は、事前トレーニング モデルをトレーニングすることです。事前トレーニングでは、後続の分岐なしで予測されたマスクに基づいてトレーニングを完了できます。事前トレーニングのその後の作業では、それぞれ異なるブランチを通じて RGB と深度の予測が生成されます。つまり、後で det/seg などのタスクと組み合わせて微調整できるため、プラグアンドプレイ機能が実現します。

損失損失関数:

損失関数は複雑ではありません。

実験結果:

最近の他の研究と比較すると:

実際、GAIA-1 は時系列ですでにマスクオートエンコーダーの考え方を採用していますが、監視データは異なる時間のデータのフレーム全体ですが、UniPAD は 3D 空間でマスクの一部をランダムに抽出して予測を監視します。この2つがどのように組み合わされるかを見るのが楽しみです。

さらに、UniPAD は、マルチモーダルな大規模モデル、または世界モデルの試みとして見ることができます。ただし、この記事ではこの点は強調されていません。

要約:

この記事は、3D 分野における比較的新しいマスク オートエンコーダ手法として捉えるべきです。 MAE法はベースモデルの事前学習段階で利用されるため、複数の異なるモダリティからの情報に対応しており、多くの下流タスクを微調整するために自然に拡張できます。これは、事前学習段階でマルチモーダル情報を捕捉し、さまざまなタスクに統一された基盤を提供することに重点を置くLLMの設計思想に非常に近いものです。この方法は、3D 分野の研究に新たなアイデアと可能性をもたらします。

この方法は、3D 分野での可能性を秘めているだけでなく、4D 時系列分野にも拡張でき、メモリと計算の複雑さを最適化する上で多くの新しい作業を生み出し、将来の研究に新しいアイデアと可能性を提供します。

オリジナルリンク: https://mp.weixin.qq.com/s/e_reCS-Lwr-KVF80z56_ow

<<:  GPT-4 Turboがリリースされたが、人気が高すぎて翌日2時間ダウンした。

>>:  AI の力: Docker による機械学習アプリケーションの導入とスケーラビリティの簡素化

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

データセキュリティの向上における人工知能の役割

現在、コンピューティング能力、ストレージ容量、データ収集能力の急速な向上により、人工知能はさまざまな...

AI投資は2025年までに2,320億ドルに達する

KPMGが最近発表したレポートによると、2025年までに人工知能(AI)、機械学習、ロボティック・プ...

メジャーアップデート!マイクロソフトが人工知能プラットフォーム「Windows ML」を発表

マイクロソフトは、Windows 開発者に、コードネーム Redstone 4 と呼ばれる今春の W...

...

自然言語処理はどのように機能しますか? NLPパイプラインの構築方法を段階的に教えます

コンピュータは構造化されたデータを理解するのが得意ですが、主に文化的習慣に基づいた人間の言語を理解す...

Mamba 論文が ICLR に受け入れられなかったのはなぜですか? AIコミュニティは盛り上がっている

2023年、大規模AIモデルの分野におけるTransformerの優位性が揺らいだ。この挑戦のきっか...

BOE の革新的なテクノロジーは、国際的な氷上および雪上イベントを強化し、世界クラスのスポーツイベントをより華やかにします。

春の始まりの2月4日、世界の注目は北京に集まった。音楽、光、影が流れる中、オリーブの枝に囲まれた巨大...

...

AI | 人工知能プロジェクトを成功させるための 8 つの重要な役割

企業が AI プロジェクトをさらに展開するにつれて、特定の役割がビジネスの成功に不可欠であることがわ...

今検討する価値のある 21 のロボティック プロセス オートメーション (RPA) ツール

[[422760]] [51CTO.com クイック翻訳]事実によれば、ロボティック プロセス オー...

2021年の中国AI業界の10大トレンド、1分でわかる | WAIC2021

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ラスベガスの「チャイナナイト」:中国の人工知能が外国人に人生への疑問を抱かせ始める!

CES は世界最大かつ最も影響力のある消費者向け電子機器展示会です。米国時間1月8日、ラスベガスで...

Google DeepMindは、新しいAIモデルGeminiを開発中であることを明らかにし、「GPT-4よりも強力」であると主張している。

6月28日、先月のGoogle I/O開発者会議で、Googleは開発中の大規模言語モデル「Gem...

Facebook、MITなどが共同で451ページの原稿を発表:「第一原理」を使ってDNNを説明する」

Facebook、プリンストン大学、MITのAI研究者らは最近、ディープラーニングが実際にどのよう...