この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 最近、新しい論文が次々と発表されるので、ついていけない気がします。言語と視覚のマルチモーダル大規模モデルの融合が業界のコンセンサスとなっていることがわかります。UniPad の記事は、マルチモーダル入力とワールド ライク モデルの事前トレーニング済みベース モデルを備え、従来の複数の視覚アプリケーションに簡単に拡張できる、非常に代表的なものです。また、大規模言語モデルの事前トレーニング方法を 3D シーンに適用するという問題も解決し、統一された知覚ベースの大規模モデルを実現できるようになります。 UniPAD は、MAE と 3D レンダリングに基づく自己教師あり学習方法です。優れたパフォーマンスでベース モデルをトレーニングし、その後、このモデルで深度推定、オブジェクト検出、セグメンテーションなどの下流タスクを微調整してトレーニングできます。この作品は、2D および 3D フレームワークに簡単に統合できる統一された 3D 空間表現方法を設計しているため、ベースモデルの位置付けに沿った、より高い柔軟性を実現しています。 読んでいるときに思ったことや疑問に思ったこと:マスクセルフエンコーディング技術と3D微分可能レンダリング技術の関係は何ですか?簡単に言うと、マスクオートエンコーディングはオートエンコーダの自己教師あり学習機能を活用することであり、レンダリング技術は生成された画像と元の画像間の損失関数を計算し、教師あり学習を実行することです。したがって、論理は依然として非常に明確です。 この記事では、ベースモデルの事前トレーニング方法を使用し、その後、下流の検出およびセグメンテーション方法を微調整します。この方法は、現在の大規模モデルが下流のタスクでどのように機能するかを理解するのにも役立ちます。 タイミング情報は組み込まれていないようです。結局のところ、純粋なビジュアル 50.2 NuScenes NDS は、時系列による検出方法 (StreamPETR、Sparse4D など) と比較すると、まだ少し弱いです。したがって、4D MAE メソッドも試してみる価値があります。実際、GAIA-1 ではすでに同様のアイデアが言及されています。 使用される計算量とメモリ量はどれくらいですか? 具体的な方法:UniPAD は、主にマスクオートエンコーダ (MAE、VoxelMAE など) からヒントを得た 3D 空間情報を暗黙的にエンコードします。この論文では、生成マスクを使用してボクセル機能を強化し、シーン内の連続した 3D 形状構造と 2D 平面上の複雑な外観機能を再構築します。 私たちの実験では、UniPAD の優位性が十分に実証されました。従来の LIDAR、カメラ、LIDAR カメラ融合ベースラインと比較すると、UniPAD は NDS をそれぞれ 9.1、7.7、6.9 向上させます。特筆すべきは、nuScenes 検証セットでは、事前トレーニング パイプラインが 3D オブジェクト検出で NDS 73.2、3D セマンティック セグメンテーション タスクで mIoU スコア 79.4 を達成しており、これは従来の方法と比較して最高の結果であるということです。 全体的なアーキテクチャ:全体的なアーキテクチャ。フレームワークは LiDAR とマルチレンズ画像を入力として受け取り、これらのマルチモーダル データはマスク ジェネレーターを通じてゼロで埋められます。マスクされた埋め込みはボクセル空間に変換され、レンダリング技術を使用してこの 3D 空間で RGB または深度予測が生成されます。このとき、マスクでマスクされていない元の画像は、教師あり学習用の生成データとして使用することができます。 マスクジェネレーターここでのマスクされたオートエンコーダーのマスクは、マスクジェネレーターによって生成されます。モデルの表現力と一般化能力を高めるために、データを増やすことでトレーニングの難易度が上がることがわかります。ポイント クラウド データと画像データを区別しながら、特定の領域を選択的にマスクするためのマスク ジェネレーターが導入されました。ポイント クラウド データでは、ブロック単位のマスキング戦略が採用され、画像の場合は、スパース畳み込み法を使用して、可視領域でのみ計算を実行します。入力データがマスクされると、対応するマスク領域で後続のエンコードされた特徴は 0 に設定され、モデル処理では無視されます。同時に、ターゲットとそれに対応するグラウンドトゥルースを予測するために使用できるグラウンドトゥルースを使用した後続の教師あり学習も提供されます。 統一された表現事前トレーニング方法をさまざまなデータ モダリティに適用できるようにするには、統一された表現を見つけることが重要です。 BEV や OCC などの従来の方法では、統一された識別形式が求められていました。3D ポイントを画像平面に投影すると深度情報が失われ、BEV の鳥瞰図に統合すると高さに関する詳細が失われます。したがって、本論文では、両方のモダリティを 3D ボリューム空間、つまり OCC に類似した 3D ボクセル空間に変換することを提案します。 レンダリング方法:著者の意見では、微分可能レンダリング技術はおそらくこの論文の最大のハイライトです。この論文では、NERF のようなサンプリング光線を使用してマルチビュー画像またはポイント クラウドを通過し、ニューラル ネットワーク構造を通じて各 3D ポイントの色または深度を予測し、最終的に光線が通過するパスを通じて 2D マッピングを取得します。これにより、画像内の幾何学的またはテクスチャ的な手がかりをより有効に活用し、モデルの学習能力と適用範囲を向上させることができます。 シーンを SDF (暗黙の符号付き距離関数フィールド) として表現します。入力がサンプリング ポイントの 3D 座標 P (光線に沿った対応する深度 D) と F (特徴埋め込みは三線補間によってボリューム表現から抽出できます) の場合、SDF はサンプリング ポイントの SDF 値を予測する MLP として見ることができます。ここで、F は点 P が位置するエンコード コードとして理解できます。次に、出力 N (表面法線上のカラー フィールドの条件) と H (ジオメトリ特徴ベクトル) を取得します。次に、P、D、F、N、H を入力として MLP を使用して、3D サンプリング ポイントの RGB 値と深度値を取得し、レイを使用して 3D サンプリング ポイントを 2D 空間に重ね合わせてレンダリング結果を取得します。ここで Ray に使用されている方法は、基本的に Nerf の場合と同じです。 レンダリング方法ではメモリ消費を最適化する必要もありますが、これについてはここでは説明しません。ただし、この問題は実装上のより重大な問題です。 マスクとレンダリング方式の本質は、事前トレーニング モデルをトレーニングすることです。事前トレーニングでは、後続の分岐なしで予測されたマスクに基づいてトレーニングを完了できます。事前トレーニングのその後の作業では、それぞれ異なるブランチを通じて RGB と深度の予測が生成されます。つまり、後で det/seg などのタスクと組み合わせて微調整できるため、プラグアンドプレイ機能が実現します。 損失損失関数:損失関数は複雑ではありません。 実験結果:最近の他の研究と比較すると:実際、GAIA-1 は時系列ですでにマスクオートエンコーダーの考え方を採用していますが、監視データは異なる時間のデータのフレーム全体ですが、UniPAD は 3D 空間でマスクの一部をランダムに抽出して予測を監視します。この2つがどのように組み合わされるかを見るのが楽しみです。 さらに、UniPAD は、マルチモーダルな大規模モデル、または世界モデルの試みとして見ることができます。ただし、この記事ではこの点は強調されていません。 要約:この記事は、3D 分野における比較的新しいマスク オートエンコーダ手法として捉えるべきです。 MAE法はベースモデルの事前学習段階で利用されるため、複数の異なるモダリティからの情報に対応しており、多くの下流タスクを微調整するために自然に拡張できます。これは、事前学習段階でマルチモーダル情報を捕捉し、さまざまなタスクに統一された基盤を提供することに重点を置くLLMの設計思想に非常に近いものです。この方法は、3D 分野の研究に新たなアイデアと可能性をもたらします。 この方法は、3D 分野での可能性を秘めているだけでなく、4D 時系列分野にも拡張でき、メモリと計算の複雑さを最適化する上で多くの新しい作業を生み出し、将来の研究に新しいアイデアと可能性を提供します。 オリジナルリンク: https://mp.weixin.qq.com/s/e_reCS-Lwr-KVF80z56_ow |
<<: GPT-4 Turboがリリースされたが、人気が高すぎて翌日2時間ダウンした。
>>: AI の力: Docker による機械学習アプリケーションの導入とスケーラビリティの簡素化
現在、人工知能 (AI) システムは反復的で非創造的なタスクを実行するのが得意ですが、スクリプトから...
「平常時に努力しなければ、試験では友達に頼らざるを得なくなる」ということわざがある。試験が近づくに...
いわゆる「史上最強の動画生成AI」が誕生した。効果は本当に良いです:たった 1 つのプロンプト ワー...
1990年代初頭、中国の著名な学者である周海中氏は、人工知能技術がさまざまな分野で広く使用され、予想...
01 車載レーザーレーダーのレーザー点群ポイントクラウド技術により、LIDAR イメージングは...
1. 推奨ステータスまず、レコメンデーションシステムの現状について簡単に紹介します。推薦システムは、...
問題の背景: 複数のスレッドが共有リソースへの読み取りおよび書き込みアクセスを実行します。書き込みス...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[439096]] 2017年、英国の雑誌『エコノミスト』は、データが石油に代わって世界で最も価値...
今年も大学入試の季節がやってきました。現在、大学入試は受験生にとっての一大イベントであるだけでなく、...
「ここ数年、情報技術分野で私たちが学んだ最大の教訓の一つは、主要な中核技術は私たち自身の独立したイノ...
2016年のBlack Hat USAカンファレンスでは、カンファレンスに参加したセキュリティ専門家...