UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイムが登場!

UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイムが登場!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

UNIPAD: 自動運転のためのユニバーサル事前トレーニングパラダイム

UNIPAD: 自動運転のためのユニバーサル事前トレーニングパラダイム

論文リンク: https://arxiv.org/pdf/2310.08370.pdf

コードリンク: https://github.com/Nightmare-n/UniPAD

著者所属: 上海人工知能研究所 浙江大学 香港大学 中国科学技術大学 シドニー大学 浙江研究所

論文のアイデア:

自動運転の分野では、効果的な特徴学習の重要性が広く認識されています。従来の 3D 自己教師型事前トレーニング方法は幅広い成功を収めていますが、そのほとんどは元々 2D 画像用に設計されたアイデアに従っています。本稿では、3D ボリューム微分可能レンダリングのための新しい自己教師学習パラダイムである UniPAD を提案します。 UniPAD は 3D 空間を暗黙的にエンコードし、連続した 3D 形状構造とその 2D 投影の複雑な外観特性を再構築するのに役立ちます。当社のアプローチの柔軟性により、2D フレームワークと 3D フレームワークの両方にシームレスに統合でき、シーンをより包括的に理解できるようになります。本稿では、さまざまな下流 3D タスクに関する広範な実験を通じて、UniPAD の実現可能性と有効性を実証します。私たちの方法は、ライダー、カメラ、ライダーカメラベースのベースラインをそれぞれ 9.1、7.7、6.9 NDS 大幅に改善します。特に、当社の事前トレーニング済みパイプラインは、nuScenes 検証セットで 3D オブジェクト検出で 73.2 NDS、3D セマンティック セグメンテーションで 79.4 mIoU を達成し、従来の方法と比較して最先端の結果を達成しました。

主な貢献:

私たちの知る限り、この論文は、自動運転のコンテキストにおける自己教師あり学習のための新しい 3D 微分可能レンダリング アプローチを検討した初めての論文です。

このアプローチの柔軟性により、2D バックボーンの事前トレーニングに簡単に拡張できます。斬新なサンプリング戦略により、当社の方法は有効性と効率性の両面で優れていることが実証されています。

私たちは nuScenes データセットで包括的な実験を実施し、私たちのアプローチは 6 つの事前トレーニング戦略のパフォーマンスを上回りました。 7 つのバックボーンおよび 2 つの知覚タスクを含む実験は、私たちのアプローチの有効性に関する説得力のある証拠を提供します。

ネットワーク設計:

本稿では、効果的な 3D 表現学習に合わせて調整された新しい事前トレーニング パラダイムを提案します。このパラダイムは、複雑な正/負のサンプル割り当てを回避するだけでなく、3D 形状構造を学習するための継続的な監視信号を暗黙的に提供します。図 2 に示すように、フレームワーク全体はマスクされたポイント クラウドを入力として受け取り、3D 微分可能ニューラル レンダリングを通じて投影された 2D 深度画像上の欠落したジオメトリを再構築することを目的としています。具体的には、マスクされた LiDAR ポイント クラウドが提供される場合、私たちの方法では 3D エンコーダを使用して階層的な特徴を抽出します。次に、ボクセル化によって 3D 特徴がボクセル空間に変換されます。本論文ではさらに、微分可能なボリュームレンダリング法を適用して、完全な幾何学的表現を再構築します。当社のアプローチの柔軟性により、事前トレーニング済みの 2D バックボーンとのシームレスな統合が可能になります。マルチビュー画像機能は、リフト・スプリット・シュート (LSS) を介して 3D ボリュームを構築するために使用されます (Philion & Fidler、2020)。トレーニング段階の効率を維持するために、本論文では、トレーニングコストとメモリ消費を大幅に削減できる、自動運転アプリケーション向けに設計されたメモリ節約型のレイサンプリング戦略を提案します。新しいサンプリング戦略により、従来の方法と比較して精度が大幅に向上します。

図 1: 事前トレーニングによる 3D 検出とセグメンテーションの効果。C、L、M はそれぞれカメラ、LiDAR、融合モダリティを表します。

図 2: 全体的なアーキテクチャ。

私たちのフレームワークは、LiDAR ポイント クラウドまたはマルチビュー画像を入力として使用します。この論文ではまず、入力を部分的にマスクするマスク ジェネレータを提案します。次に、モダリティ固有のエンコーダーを適用して、スパースな可視特徴を抽出し、マスク領域がゼロで埋められた密な特徴に変換します。次に、モダリティ固有の特徴がボクセル空間に変換され、その後に投影レイヤーが続き、ボクセルの特徴が強化されます。最後に、ボリュームベースのニューラル レンダリングにより、可視領域とマスク領域の RGB または深度予測が生成されます。

実験結果:

引用:

Yang, H., Zhang, S., Huang, D., Wu, X., Zhu, H., He, T., Tang, S., Zhao, H., Qiu, Q., Lin, B., He, X., & Ouyang, W. (2023). UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイム。  翻訳: ...

オリジナルリンク: https://mp.weixin.qq.com/s/ep_al_G-ejQycgG4Jq0nTQ

<<:  IBMの調査によると、AIのフィッシング能力は人間と同等であることが判明

>>:  統計分析と人工知能の9つの有名な大惨事

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

倪光南:AI開発は教訓を学ぶべき、コア技術は購入したり置き換えたりすることはできない

「ここ数年、情報技術分野で私たちが学んだ最大の教訓の一つは、主要な中核技術は私たち自身の独立したイノ...

トランスフォーマー+強化学習、Google DeepMindは世界を知覚するロボットの脳となる大きなモデルを作る

ロボットの学習方法を開発する際に、大規模で多様なデータセットを統合し、強力で表現力豊かなモデル (T...

AIが私の本を盗作してAmazonで販売したのですか? !

ビッグデータダイジェスト制作出典: theguardianすべての作家にとって、盗作はおそらく最も許...

自然言語処理(NLP)はソーシャルエンジニアリング攻撃の解決に役立ちます

新しいツールは、件名や URL に基づいてソーシャル エンジニアリング攻撃を検出するのではなく、テキ...

...

...

...

Raft アルゴリズムの原理と CMQ への応用 (パート 2)

CMQにおけるラフトの応用初期には、rabbitmqをベースにスケーラブルなメッセージミドルウェア...

一時停止トークンを使用して大規模モデルを再トレーニングすると、AIは行動する前によく考えることを学ぶ

ChatGPT に回答を出す前に手順について考えてもらうことで、精度を向上させることができます。では...

詳細 | ビッグデータアルゴリズムアプリケーションのテストの開発

[[324462]]アリ姉の紹介:近年、データコンピューティング能力と機械知能アルゴリズムの台頭によ...

...

スマートホームテクノロジーが不動産業界に及ぼす影響

最近では、最新のスマートホームテクノロジーがプリインストールされている住宅を目にすることがますます一...

ChatGPT App Store は深夜でもオンラインです! 300万GPTがネットワーク上で爆発的に増加し、開発者とOpenAIがその収益を分け合った

先週の発表に続き、OpenAI は本日、GPT ストアの立ち上げを正式に発表しました。写真昨年 11...

AIを使ってAIを攻撃する?敵対的機械学習に対する脅威と防御

人工知能 (AI) や機械学習 (ML) プロジェクトを適用する組織が増えるにつれて、これらのプロジ...

マイクロソフトが積極的に顔認識データベースを削除した秘密は何でしょうか?

1. マイクロソフトはひそかに顔認識データベースを削除したマイクロソフトは、同社最大の公開顔認識デ...