この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 本研究では、マルチフレームのポイントクラウドから高密度の占有グリッドデータセットを構築し、トランスフォーマーベースの 2D-3D Unet 構造に基づいて 3 次元の占有グリッドネットワークを設計しました。私たちの論文が ICCV 2023 に掲載されたことを光栄に思います。プロジェクト コードはオープンソース化されており、誰でも試すことができます。 arXiv: https://arxiv.org/pdf/2303.09551.pdf コード: https://github.com/weiyithu/SurroundOcc ホームページ: https://weiyithu.github.io/SurroundOcc/ 最近は必死に仕事を探していて、書く時間がありませんでした。つい最近、カメラレディ作品を提出したので、作品の仕上げとして、知乎に要約を書こうと思いました。実際、記事の紹介部分は様々な公開アカウントによって非常によく書かれており、私たちも彼らの宣伝に感謝します。Heart of Autonomous Driving: nuScenes SOTAを直接参照できます。 SurroundOcc: 自動運転のための純粋な視覚による 3D 占有予測ネットワーク (清華大学 & 天津大学)。一般的に、貢献は 2 つの部分に分かれています。1 つは、マルチフレーム LIDAR ポイント クラウドを使用して高密度の占有データセットを構築する方法であり、もう 1 つは占有予測ネットワークを設計する方法です。実際、どちらの部分も内容は比較的わかりやすく、理解しやすいです。ご質問があれば、いつでもご質問ください。そこでこの記事では、論文以外のことについてお話ししたいと思います。1つは、現在のソリューションをどのように改善して導入しやすくするか、そしてもう1つは将来の開発の方向性についてです。 展開するネットワークの展開が容易かどうかは、主にボード上で実装するのが難しい演算子があるかどうかによって決まります。SurroundOcc メソッドでより難しい 2 つの演算子は、トランスフォーマー レイヤーと 3D 畳み込みです。 トランスフォーマーの主な機能は、2D の特徴を 3D 空間に変換することです。実際、この部分は LSS、ホモグラフィー、さらには MLP でも実装できるため、ネットワークのこの部分は実装されたソリューションに応じて変更できます。しかし、私の知る限り、トランスフォーマーソリューションはキャリブレーションに敏感ではなく、いくつかのソリューションの中でパフォーマンスが優れています。トランスフォーマーの導入を実装できる人は、オリジナルのソリューションを使用することをお勧めします。 3D 畳み込みの場合は、2D 畳み込みに置き換えることができます。ここでは、元の (C、H、W、Z) 3D 特徴を (C* Z、H、W) 2D 特徴に再形成する必要があります。その後、2D 畳み込みを使用して特徴を抽出できます。最終的な占有予測ステップでは、(C、H、W、Z) に戻して再形成し、監視します。一方、スキップ接続は解像度が大きいため、より多くのビデオメモリを消費します。デプロイ時にこれを削除し、最小解像度のレイヤーのみを保持することができます。私たちの実験では、3D 畳み込みにおけるこれら 2 つの操作により、ニューシーンでいくつかのポイント ドロップアウトが発生することがわかりましたが、業界のデータセットの規模はニューシーンよりもはるかに大きく、場合によっては結論が変わるため、ポイント ドロップアウトは少なくなるか、ゼロになるはずです。 データセットの構築に関して、最も時間のかかるステップはポアソン再構成ステップです。 32 ライン LIDAR を使用して収集された nuscenes データセットを使用しているため、マルチフレーム スティッチング テクノロジを使用しても、スティッチされたポイント クラウドにはまだ多くの穴があることがわかったので、ポアソン再構成を使用して穴を埋めました。しかし実際には、業界で使用されている多くの LiDAR ポイント クラウドは、M1、RS128 など比較的密度が高いため、ポアソン再構成ステップを省略でき、データセットの構築ステップが高速化されます。 一方、SurroundOcc は、nuscenes 内の注釈付き 3D オブジェクト検出ボックスを使用して、静的シーンと動的オブジェクトを分離します。ただし、実際のアプリケーションでは、自動ラベル、つまり大規模な 3D オブジェクト検出および追跡モデルを使用して、シーケンス全体の各オブジェクトの検出ボックスを取得できます。手動で注釈を付けたラベルと比較すると、大規模なモデルを使用して生成された結果には、間違いなく何らかのエラーが含まれます。最も直接的な兆候は、複数のフレーム内のオブジェクトをつなぎ合わせた後にゴーストが発生することです。しかし実際には、占有は物体の形状に対してそれほど高い要件を持たず、検出ボックスの位置が比較的正確であれば、要件を満たすことができます。 今後の方向性現在の方法では、占有監視信号を提供するために依然として LiDAR に大きく依存していますが、多くの車、特に低レベルの運転支援車には LiDAR が搭載されていません。これらの車は、シャドウ モードを通じて大量の RGB データを送信できます。したがって、将来の方向性としては、自己教師学習に RGB のみを使用できるかどうかが挙げられます。自然な解決策は、NeRF を監督に使用することです。具体的には、バックボーン部分は変更せずに占有率予測を取得し、次にボクセル レンダリングを使用して各カメラ視点での RGB を取得し、トレーニング セット内の真の値 RGB を損失として使用して監督信号を形成します。残念ながら、この単純なアプローチは、試してみたところうまくいきませんでした。考えられる理由は、屋外シーンの範囲が広すぎて、弱体化が持続できない可能性があります。ただし、適切に調整しなかった可能性もあります。もう一度お試しください。 もう一つの方向はタイミングと占有フローです。実際、占有フローは、単一フレームの占有よりも下流のタスクに非常に役立ちます。 ICCV 期間中は占有フローデータセットを準備する時間がなかったし、論文を発表するなら多くのフローベースラインと比較する必要があったので、その時点では作業しませんでした。タイミング ネットワークは、比較的シンプルで効果的な BEVFormer および BEVDet4D のソリューションを参照できます。難しいのはフロー データセットです。一般的なオブジェクトは、シーケンスの 3 次元ターゲット検出ボックスを使用して計算できますが、小動物のビニール袋などの特殊な形状のオブジェクトは、シーン フロー メソッドを使用してラベル付けする必要がある場合があります。 オリジナルリンク: https://mp.weixin.qq.com/s/_crun60B_lOz6_maR0Wyug |
<<: 完全なマーケティング効果評価におけるベイズ構造モデルの応用
>>: ホスピタリティ業界における職場の変革 - 人間と機械の関係
[51CTO.comからのオリジナル記事] 2020年8月8日土曜日、Huawei Shanghai...
ChatGPT は、大規模言語モデル (LLM) に基づく業界をリードするチャットボットとして、テク...
[[282454]]シャプレー値について初めて聞いたのは、モデルの解釈可能性を勉強していたときでし...
[[284150]] 深圳でグローバル電子部品販売代理店優秀賞授賞式が開催されました。アヴネット中...
2023 年の FinTech 業界では、変革的な AI トレンドが見られます。機械学習、ロボティ...
[[311550]] [51CTO.com クイック翻訳] 人工知能は最新の開発トレンドであり、その...
新しい論文の著者は、コード生成を「強化」する方法を提案しています。コード生成は人工知能においてますま...
4月18日、北京メディアセンターで第2回世界情報会議の記者会見が開催された。記者会見では、中国共産...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ウェアラブル人工知能がモノのインターネット (IoT) の発展に与える影響を探ります。デジタル時代の...
人材不足により人工知能業界全体の給与水準が上昇しており、有名企業の多くが「年俸13倍」「年俸15倍」...
[[227817]]画像出典: Visual Chinaカンニングは間違いなく長い歴史を持つ「科学...
セキュリティ分野では、アカウント取引の異常や異なるイベント間の相関関係など、さまざまなシナリオで「グ...