UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイムが登場!

UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイムが登場!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

UNIPAD: 自動運転のためのユニバーサル事前トレーニングパラダイム

UNIPAD: 自動運転のためのユニバーサル事前トレーニングパラダイム

論文リンク: https://arxiv.org/pdf/2310.08370.pdf

コードリンク: https://github.com/Nightmare-n/UniPAD

著者所属: 上海人工知能研究所 浙江大学 香港大学 中国科学技術大学 シドニー大学 浙江研究所

論文のアイデア:

自動運転の分野では、効果的な特徴学習の重要性が広く認識されています。従来の 3D 自己教師型事前トレーニング方法は幅広い成功を収めていますが、そのほとんどは元々 2D 画像用に設計されたアイデアに従っています。本稿では、3D ボリューム微分可能レンダリングのための新しい自己教師学習パラダイムである UniPAD を提案します。 UniPAD は 3D 空間を暗黙的にエンコードし、連続した 3D 形状構造とその 2D 投影の複雑な外観特性を再構築するのに役立ちます。当社のアプローチの柔軟性により、2D フレームワークと 3D フレームワークの両方にシームレスに統合でき、シーンをより包括的に理解できるようになります。本稿では、さまざまな下流 3D タスクに関する広範な実験を通じて、UniPAD の実現可能性と有効性を実証します。私たちの方法は、ライダー、カメラ、ライダーカメラベースのベースラインをそれぞれ 9.1、7.7、6.9 NDS 大幅に改善します。特に、当社の事前トレーニング済みパイプラインは、nuScenes 検証セットで 3D オブジェクト検出で 73.2 NDS、3D セマンティック セグメンテーションで 79.4 mIoU を達成し、従来の方法と比較して最先端の結果を達成しました。

主な貢献:

私たちの知る限り、この論文は、自動運転のコンテキストにおける自己教師あり学習のための新しい 3D 微分可能レンダリング アプローチを検討した初めての論文です。

このアプローチの柔軟性により、2D バックボーンの事前トレーニングに簡単に拡張できます。斬新なサンプリング戦略により、当社の方法は有効性と効率性の両面で優れていることが実証されています。

私たちは nuScenes データセットで包括的な実験を実施し、私たちのアプローチは 6 つの事前トレーニング戦略のパフォーマンスを上回りました。 7 つのバックボーンおよび 2 つの知覚タスクを含む実験は、私たちのアプローチの有効性に関する説得力のある証拠を提供します。

ネットワーク設計:

本稿では、効果的な 3D 表現学習に合わせて調整された新しい事前トレーニング パラダイムを提案します。このパラダイムは、複雑な正/負のサンプル割り当てを回避するだけでなく、3D 形状構造を学習するための継続的な監視信号を暗黙的に提供します。図 2 に示すように、フレームワーク全体はマスクされたポイント クラウドを入力として受け取り、3D 微分可能ニューラル レンダリングを通じて投影された 2D 深度画像上の欠落したジオメトリを再構築することを目的としています。具体的には、マスクされた LiDAR ポイント クラウドが提供される場合、私たちの方法では 3D エンコーダを使用して階層的な特徴を抽出します。次に、ボクセル化によって 3D 特徴がボクセル空間に変換されます。本論文ではさらに、微分可能なボリュームレンダリング法を適用して、完全な幾何学的表現を再構築します。当社のアプローチの柔軟性により、事前トレーニング済みの 2D バックボーンとのシームレスな統合が可能になります。マルチビュー画像機能は、リフト・スプリット・シュート (LSS) を介して 3D ボリュームを構築するために使用されます (Philion & Fidler、2020)。トレーニング段階の効率を維持するために、本論文では、トレーニングコストとメモリ消費を大幅に削減できる、自動運転アプリケーション向けに設計されたメモリ節約型のレイサンプリング戦略を提案します。新しいサンプリング戦略により、従来の方法と比較して精度が大幅に向上します。

図 1: 事前トレーニングによる 3D 検出とセグメンテーションの効果。C、L、M はそれぞれカメラ、LiDAR、融合モダリティを表します。

図 2: 全体的なアーキテクチャ。

私たちのフレームワークは、LiDAR ポイント クラウドまたはマルチビュー画像を入力として使用します。この論文ではまず、入力を部分的にマスクするマスク ジェネレータを提案します。次に、モダリティ固有のエンコーダーを適用して、スパースな可視特徴を抽出し、マスク領域がゼロで埋められた密な特徴に変換します。次に、モダリティ固有の特徴がボクセル空間に変換され、その後に投影レイヤーが続き、ボクセルの特徴が強化されます。最後に、ボリュームベースのニューラル レンダリングにより、可視領域とマスク領域の RGB または深度予測が生成されます。

実験結果:

引用:

Yang, H., Zhang, S., Huang, D., Wu, X., Zhu, H., He, T., Tang, S., Zhao, H., Qiu, Q., Lin, B., He, X., & Ouyang, W. (2023). UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイム。  翻訳: ...

オリジナルリンク: https://mp.weixin.qq.com/s/ep_al_G-ejQycgG4Jq0nTQ

<<:  IBMの調査によると、AIのフィッシング能力は人間と同等であることが判明

>>:  統計分析と人工知能の9つの有名な大惨事

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

開発から生産まで: 機械学習に関する 7 つの実践的な提案

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

生成AIは昨年人気が高まったが、米国のIT関連の仕事の数はわずか700件しか増加しなかった

1月8日のニュースによると、2023年には、生成型人工知能が企業や投資家の間で大きなブームを引き起こ...

C# DES アルゴリズムの暗号化と復号化の例の分析

C# DES アルゴリズムの暗号化と復号化は、開発のセキュリティ部分として、その使用方法を理解する必...

...

全人代副代表の馬化騰氏は8つの書面提案を提出し、ブロックチェーンや人工知能など17の質問に答えた。

[[221404]] 3月3日午後9時30分、全国人民代表大会の代表でテンセント会長の馬化騰氏が黒...

ディープフェイクで映画を作る時代が来た:ディズニーが高解像度の顔を変えるアルゴリズムを公開

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

AWS 上でディープラーニングホストを構築する (Windows 版)

この記事では、Amazon EC2 P2 インスタンスをレンタルして使用する方法について簡単に説明し...

米国は自動運転に関する最も厳しい新規制を発行:L2〜L5を完全にカバー、今月30件のテスラ事故が調査された

[[408307]] IT Homeは6月30日、米国東部時間6月29日に米道路交通安全局(NHTS...

最近、ソラは子供たちの間でパニックを引き起こしています!

昨晩、娘がぼんやりしてリビングルームに立っていたので、私は彼女に尋ねました。「何をしているの?」彼女...

アルパカファミリーモデルが集合的に進化! Tian Yuandong のチームが作成した、GPT-4 と同等の 32k コンテキスト

オープンソースのアルパカ モデル LLaMA コンテキストは、1 つの簡単な変更だけで GPT-4 ...

AIアーティストの彫刻作品が、カメラアイがスパイ活動に関与しているとの疑いで税関に押収された?

[[431387]]ビッグデータダイジェスト制作ヘッダー画像のロボットの名前はAi-Da。彼女は史...

AIアルゴリズムが軍用無人車両への中間者攻撃を検出

研究者らは、軍用無人車両に対する中間者攻撃を検出できる人工知能アルゴリズムを開発した。ロボットオペレ...

人工知能の実用化を加速させるには

人工知能と機械学習ソリューションは、今日、さまざまな業界の組織で一般的になりつつあります。組織が A...