UniPAD: ユニバーサル自動運転事前トレーニングモデル!あらゆる種類の知覚タスクをサポートできます

UniPAD: ユニバーサル自動運転事前トレーニングモデル!あらゆる種類の知覚タスクをサポートできます

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

最近、新しい論文が次々と発表されるので、ついていけない気がします。言語と視覚のマルチモーダル大規模モデルの融合が業界のコンセンサスとなっていることがわかります。UniPad の記事は、マルチモーダル入力とワールド ライク モデルの事前トレーニング済みベース モデルを備え、従来の複数の視覚アプリケーションに簡単に拡張できる、非常に代表的なものです。また、大規模言語モデルの事前トレーニング方法を 3D シーンに適用するという問題も解決し、統一された知覚ベースの大規模モデルを実現できるようになります。

UniPAD は、MAE と 3D レンダリングに基づく自己教師あり学習方法です。優れたパフォーマンスでベース モデルをトレーニングし、その後、このモデルで深度推定、オブジェクト検出、セグメンテーションなどの下流タスクを微調整してトレーニングできます。この作品は、2D および 3D フレームワークに簡単に統合できる統一された 3D 空間表現方法を設計しているため、ベースモデルの位置付けに沿った、より高い柔軟性を実現しています。

読んでいるときに思ったことや疑問に思ったこと:

マスクセルフエンコーディング技術と3D微分可能レンダリング技術の関係は何ですか?簡単に言うと、マスクオートエンコーディングはオートエンコーダの自己教師あり学習機能を活用することであり、レンダリング技術は生成された画像と元の画像間の損失関数を計算し、教師あり学習を実行することです。したがって、論理は依然として非常に明確です。

この記事では、ベースモデルの事前トレーニング方法を使用し、その後、下流の検出およびセグメンテーション方法を微調整します。この方法は、現在の大規模モデルが下流のタスクでどのように機能するかを理解するのにも役立ちます。

タイミング情報は組み込まれていないようです。結局のところ、純粋なビジュアル 50.2 NuScenes NDS は、時系列による検出方法 (StreamPETR、Sparse4D など) と比較すると、まだ少し弱いです。したがって、4D MAE メソッドも試してみる価値があります。実際、GAIA-1 ではすでに同様のアイデアが言及されています。

使用される計算量とメモリ量はどれくらいですか?

具体的な方法:

UniPAD は、主にマスクオートエンコーダ (MAE、VoxelMAE など) からヒントを得た 3D 空間情報を暗黙的にエンコードします。この論文では、生成マスクを使用してボクセル機能を強化し、シーン内の連続した 3D 形状構造と 2D 平面上の複雑な外観機能を再構築します。

私たちの実験では、UniPAD の優位性が十分に実証されました。従来の LIDAR、カメラ、LIDAR カメラ融合ベースラインと比較すると、UniPAD は NDS をそれぞれ 9.1、7.7、6.9 向上させます。特筆すべきは、nuScenes 検証セットでは、事前トレーニング パイプラインが 3D オブジェクト検出で NDS 73.2、3D セマンティック セグメンテーション タスクで mIoU スコア 79.4 を達成しており、これは従来の方法と比較して最高の結果であるということです。

全体的なアーキテクチャ:

全体的なアーキテクチャ。フレームワークは LiDAR とマルチレンズ画像を入力として受け取り、これらのマルチモーダル データはマスク ジェネレーターを通じてゼロで埋められます。マスクされた埋め込みはボクセル空間に変換され、レンダリング技術を使用してこの 3D 空間で RGB または深度予測が生成されます。このとき、マスクでマスクされていない元の画像は、教師あり学習用の生成データとして使用することができます。

マスクジェネレーター

ここでのマスクされたオートエンコーダーのマスクは、マスクジェネレーターによって生成されます。モデルの表現力と一般化能力を高めるために、データを増やすことでトレーニングの難易度が上がることがわかります。ポイント クラウド データと画像データを区別しながら、特定の領域を選択的にマスクするためのマスク ジェネレーターが導入されました。ポイント クラウド データでは、ブロック単位のマスキング戦略が採用され、画像の場合は、スパース畳み込み法を使用して、可視領域でのみ計算を実行します。入力データがマスクされると、対応するマスク領域で後続のエンコードされた特徴は 0 に設定され、モデル処理では無視されます。同時に、ターゲットとそれに対応するグラウンドトゥルースを予測するために使用できるグラウンドトゥルースを使用した後続の教師あり学習も提供されます。

統一された表現

事前トレーニング方法をさまざまなデータ モダリティに適用できるようにするには、統一された表現を見つけることが重要です。 BEV や OCC などの従来の方法では、統一された識別形式が求められていました。3D ポイントを画像平面に投影すると深度情報が失われ、BEV の鳥瞰図に統合すると高さに関する詳細が失われます。したがって、本論文では、両方のモダリティを 3D ボリューム空間、つまり OCC に類似した 3D ボクセル空間に変換することを提案します。

レンダリング方法:

著者の意見では、微分可能レンダリング技術はおそらくこの論文の最大のハイライトです。この論文では、NERF のようなサンプリング光線を使用してマルチビュー画像またはポイント クラウドを通過し、ニューラル ネットワーク構造を通じて各 3D ポイントの色または深度を予測し、最終的に光線が通過するパスを通じて 2D マッピングを取得します。これにより、画像内の幾何学的またはテクスチャ的な手がかりをより有効に活用し、モデルの学習能力と適用範囲を向上させることができます。

シーンを SDF (暗黙の符号付き距離関数フィールド) として表現します。入力がサンプリング ポイントの 3D 座標 P (光線に沿った対応する深度 D) と F (特徴埋め込みは三線補間によってボリューム表現から抽出できます) の場合、SDF はサンプリング ポイントの SDF 値を予測する MLP として見ることができます。ここで、F は点 P が位置するエンコード コードとして理解できます。次に、出力 N (表面法線上のカラー フィールドの条件) と H (ジオメトリ特徴ベクトル) を取得します。次に、P、D、F、N、H を入力として MLP を使用して、3D サンプリング ポイントの RGB 値と深度値を取得し、レイを使用して 3D サンプリング ポイントを 2D 空間に重ね合わせてレンダリング結果を取得します。ここで Ray に使用されている方法は、基本的に Nerf の場合と同じです。

レンダリング方法ではメモリ消費を最適化する必要もありますが、これについてはここでは説明しません。ただし、この問題は実装上のより重大な問題です。

マスクとレンダリング方式の本質は、事前トレーニング モデルをトレーニングすることです。事前トレーニングでは、後続の分岐なしで予測されたマスクに基づいてトレーニングを完了できます。事前トレーニングのその後の作業では、それぞれ異なるブランチを通じて RGB と深度の予測が生成されます。つまり、後で det/seg などのタスクと組み合わせて微調整できるため、プラグアンドプレイ機能が実現します。

損失損失関数:

損失関数は複雑ではありません。

実験結果:

最近の他の研究と比較すると:

実際、GAIA-1 は時系列ですでにマスクオートエンコーダーの考え方を採用していますが、監視データは異なる時間のデータのフレーム全体ですが、UniPAD は 3D 空間でマスクの一部をランダムに抽出して予測を監視します。この2つがどのように組み合わされるかを見るのが楽しみです。

さらに、UniPAD は、マルチモーダルな大規模モデル、または世界モデルの試みとして見ることができます。ただし、この記事ではこの点は強調されていません。

要約:

この記事は、3D 分野における比較的新しいマスク オートエンコーダ手法として捉えるべきです。 MAE法はベースモデルの事前学習段階で利用されるため、複数の異なるモダリティからの情報に対応しており、多くの下流タスクを微調整するために自然に拡張できます。これは、事前学習段階でマルチモーダル情報を捕捉し、さまざまなタスクに統一された基盤を提供することに重点を置くLLMの設計思想に非常に近いものです。この方法は、3D 分野の研究に新たなアイデアと可能性をもたらします。

この方法は、3D 分野での可能性を秘めているだけでなく、4D 時系列分野にも拡張でき、メモリと計算の複雑さを最適化する上で多くの新しい作業を生み出し、将来の研究に新しいアイデアと可能性を提供します。

オリジナルリンク: https://mp.weixin.qq.com/s/e_reCS-Lwr-KVF80z56_ow

<<:  GPT-4 Turboがリリースされたが、人気が高すぎて翌日2時間ダウンした。

>>:  AI の力: Docker による機械学習アプリケーションの導入とスケーラビリティの簡素化

ブログ    
ブログ    

推薦する

ディープラーニングにおける活性化関数の概要

この記事では、さまざまな活性化関数を紹介し、活性化関数の長所と短所を比較します。この記事は、人工ニュ...

機械学習プロジェクトを構築するための6つのステップをマスターしましょう

上のホワイトボードには、一連の機械学習プロジェクトの立ち上げが示されています。機械学習は幅広い分野を...

歴史を作ろう!地球からのドローンが火星へ飛び立ち、NASAはこのようにライト兄弟に敬意を表す

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

Java ガベージ コレクション アルゴリズムの紹介

51CTO 編集者注: 「Java ガベージ コレクション メカニズムの簡単な分析」では、Java ...

Python での機械学習 K-means アルゴリズムの実装

K平均法アルゴリズムの紹介K-means は、機械学習でよく使用されるアルゴリズムです。これは教師な...

シンプルなアルゴリズムで分散システムのパフォーマンスが瞬時に10倍以上向上

1. 概要この記事では、多数のクライアントが同時にデータを書き込む場合に、分散ファイルシステム HD...

...

ML プロジェクトを実行するときに、タスクが多数あり、些細な場合はどうすればよいでしょうか?このセルフチェックリストはあなたの心を整理するのに役立ちます

機械学習プロジェクトには、データ処理、モデルの最適化など、多くの要素が関係します。開発者は混乱したり...

人間の敵の99.8%を圧倒する星間AIがネイチャー誌に登場、その技術が初めて完全公開された

StarCraft 2 のプレイヤーのうち、AI にまだ負けていないのはわずか 0.2% です。これ...

...

最適化されたアルゴリズムによる高度なデータ分析に視覚化を活用する 5 つのステップ

[[176432]] 【導入】ほとんどの科学研究では、大量の実験データの統計分析は、通常、コンピュー...

Github 年次レポートレビュー: TensorFlow が間違いなく最大の勝者です!

現在、世界中の何百万もの開発者が GitHub を使用してコードを共有し、ビジネスを構築しており、多...

...

Python を使ってシンプルな遺伝的アルゴリズムをゼロから実装する

遺伝的アルゴリズムはランダムなグローバル最適化アルゴリズムです。人工ニューラル ネットワークと並んで...

馬化騰と李延紅の対談:基礎技術は巨大産業の変革の基盤

11月8日、烏鎮で開催された世界インターネット大会で、馬化騰氏と李ロビン氏が首脳対談を行った。2人の...