この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 LiDAR ポイント クラウドに基づく 3D オブジェクト検出は、常に古典的な問題でした。学界と業界の両方で、精度、速度、堅牢性を向上させるさまざまなモデルが提案されてきました。しかし、屋外環境は複雑であるため、屋外のポイントクラウドのオブジェクト検出のパフォーマンスはあまり良くありません。しかし、LiDAR ポイント クラウドは本質的にスパースです。この問題を的確に解決するにはどうすればよいでしょうか?この論文では、情報抽出は時系列情報の集約に応じて完了するという独自の答えが示されています。 1. 論文情報2. はじめにこの論文では、自動運転における重要な課題である、周囲の環境の 3 次元表現を正確に作成する方法について主に説明します。これは自動運転車の信頼性と安全性にとって非常に重要です。特に、自動運転車は、車両や歩行者など周囲の物体を識別し、それらの位置、大きさ、向きを正確に判断できる必要があります。通常、このタスクを実行するには、LiDAR データを処理するためにディープ ニューラル ネットワークが使用されます。 既存の文献のほとんどは、単一フレームアプローチ、つまり一度に 1 つのセンサーでスキャンされたデータを使用することに焦点を当てています。このアプローチは、物体が最大 75 メートルの距離にある従来のベンチマークでは良好なパフォーマンスを発揮します。ただし、LiDAR ポイント クラウドは、特に長距離では本質的にまばらです。したがって、この論文では、1 回のスキャンのみを使用した長距離検出 (たとえば、最大 200 メートル) では不十分であると主張しています。 この問題に対処するための 1 つの方法は、ポイント クラウド集約を使用することです。これは、一連の LIDAR スキャン データを連結して、より密度の高い入力を取得することです。ただし、このアプローチは計算コストが高く、ネットワーク内の集約の利点を十分に活用できません。明らかな代替案は、時間の経過とともに情報を蓄積する再帰的な方法を使用することです。 この記事では、検出範囲を拡大するための他の手法として、スパース畳み込み、アテンション モジュール、3D 畳み込みなどの高度な操作の使用も挙げられています。ただし、これらのアプローチでは通常、対象ハードウェアの互換性の問題が無視されます。ニューラル ネットワークを展開およびトレーニングするために使用されるハードウェアは、サポートされる操作とレイテンシが大きく異なることがよくあります。たとえば、スパース畳み込みやアテンションなどの操作は、Nvidia Orin DLA などの既存のターゲット ハードウェアではサポートされていないことがよくあります。さらに、3D 畳み込みなどのレイヤーは、リアルタイムの遅延要件のために実現できないことがよくあります。これは、2D 畳み込みなどの単純な操作を使用する必要性を強調しています。 この論文では、一般的なターゲット ハードウェアでサポートされている操作セットを尊重し、2D 畳み込み、ピラー ベースの入力表現、畳み込み再帰ユニットに依存する新しい時間的再帰モデル TimePillars を提案しています。単一の畳み込みと補助学習を利用して、再帰ユニットの隠れ状態に自己運動補償が適用されます。アブレーション研究では、この操作の正確性を確保するために補助タスクを使用することが適切であることが示されています。この論文では、パイプラインにおける再帰モジュールの最適な配置についても研究し、ネットワークのバックボーンおよび検出ヘッドの間に配置することで最高のパフォーマンスが得られることを明確に示しています。この論文では、新しくリリースされた Zenseact Open Dataset (ZOD) に関して、TimePillars メソッドの有効性を実証しています。 TimePillars は、特に重要な自転車と歩行者のカテゴリにおいて、単一フレームおよび複数フレームのピラー ベースラインよりも大幅な評価パフォーマンスの向上を実現し、長距離 (最大 200 メートル) の検出に優れています。最後に、TimePillars のレイテンシはマルチフレーム ピラーよりも大幅に低いため、リアルタイム システムに適しています。 この論文の主な貢献には、一般的なターゲット ハードウェアでサポートされている一連の操作を尊重しながら 3D LIDAR オブジェクト検出タスクを解決するための新しい時間再帰モデル TimePillars を提案すること、TimePillars が長距離検出において単一フレームおよび複数フレームのポイント ピラー ベースラインよりも大幅に優れたパフォーマンスを実現することを示すこと、および新しい Zenseact オープン データセットで初めて 3D LIDAR オブジェクト検出モデルのベンチマークを行うことが含まれます。しかし、この論文の限界は、LIDAR データのみに焦点を当てており、他のセンサー入力を考慮しておらず、そのアプローチが単一の最先端のベースラインに基づいていることです。それでも、著者らは、彼らのフレームワークは一般的なものであり、ベースラインの将来の改善が全体的なパフォーマンスの向上につながることを意味していると主張しています。 3. 方法3.1 入力前処理この論文の「入力前処理」セクションでは、著者は「柱状化」手法を使用して入力ポイント クラウド データを処理しました。このアプローチは、垂直方向 (z 軸) の高さを固定したまま、ポイント クラウドを水平方向 (x 軸と y 軸) のみで垂直列に分割する従来のボクセル化とは異なります。これにより、ネットワーク入力次元の一貫性が保たれ、2D 畳み込みを使用した効率的な処理が可能になります。 ただし、柱化プロセスの問題の 1 つは、多くの空の柱が生成され、非常にまばらなデータになることです。この問題を解決するために、この論文では動的ボクセル化技術の使用を提案しています。この手法により、各バーに事前に定義された数のポイントを設定する必要がなくなり、各バーで切り捨てやパディング操作を実行する必要がなくなります。代わりに、ポイント クラウド データ全体が、必要なポイントの合計数 (ここでは 200,000 ポイントに設定) に一致するように全体的に処理されます。この前処理方法の利点は、情報の損失を最小限に抑え、結果として得られるデータ表現がより安定して一貫したものになることです。 3.2 モデルアーキテクチャ次に、モデル アーキテクチャについて、著者らは、ピラー フィーチャ エンコーダー、2D 畳み込みニューラル ネットワーク (CNN) バックボーン、および検出ヘッドで構成されるニューラル ネットワーク アーキテクチャを詳細に紹介しました。
3.3 特徴的な自己動き補償論文のこの部分では、著者らは、前のフレームの座標系で表されている畳み込み GRU によって出力される隠れ状態の特徴を処理する方法について説明します。直接保存して次の予測を計算するために使用すると、自己運動により空間の不一致が発生します。 変換を実行するには、さまざまな手法を適用できます。理想的には、すでに修正されたデータは、ネットワーク内で変換されるのではなく、ネットワークに送られます。しかし、これは論文で提案されているアプローチではありません。推論中の各ステップで隠れ状態をリセットし、以前のポイントクラウドを変換して、ネットワーク全体に伝播する必要があるためです。これは非効率的であるだけでなく、RNN を使用する目的にも反します。したがって、ループ コンテキストでは、機能レベルで補正を行う必要があります。これにより、仮説的な解決策はより効率的になりますが、問題はより複雑になります。従来の補間方法を使用して、変換された座標系の特徴を取得できます。 対照的に、Chen らの研究に触発されて、この論文では畳み込み演算と補助タスクを使用して変換を実行することを提案しています。前述の研究の詳細が限られていることを考慮して、この論文では問題に対するカスタムソリューションを提案しています。 この論文で採用されているアプローチは、追加の畳み込み層を通じて特徴変換を実行するために必要な情報をネットワークに提供することです。まず、連続する 2 つのフレーム間の相対的な変換行列が計算されます。これは、特徴を正常に変換するために必要な操作です。次に、そこから 2D 情報 (回転と移動の部分) を抽出します。 この簡略化により、主要な行列定数が回避され、2D(疑似画像)領域で動作し、16 個の値が 6 個に削減されます。次に、補正する隠れた特徴の形状に合わせてマトリックスを平坦化および拡張します。最初の次元は、変換する必要があるフレームの数を表します。この表現は、隠れた特徴のチャネル次元内の各潜在列を連結するのに適しています。 最後に、隠れた状態の特徴は、変換プロセスに適した 2D 畳み込み層に送られます。注意すべき重要な点は、畳み込みを実行しても変換が行われることが保証されないということです。チャネル連結は、変換がどのように実行されるかについての追加情報をネットワークに提供するだけです。この場合は支援学習を利用するのが適切です。トレーニング中、主な目的 (物体検出) と並行して追加の学習目的 (座標変換) が追加されます。補償の正確性を確保するために、監視下でネットワークを変換プロセスに導くことを目的とした補助タスクを設計します。補助タスクはトレーニング プロセスに限定されます。ネットワークが特徴を正しく変換することを学習すると、その適用性は失われます。したがって、このタスクは推論中に考慮されません。次のセクションでは、さらに実験を行ってその効果を比較します。 4. 実験実験結果によると、TimePillars モデルは、Zenseact Open Dataset (ZOD) フレーム データセットを処理する場合、特に最大 120 メートルの範囲を処理する場合に優れたパフォーマンスを発揮します。これらの結果は、さまざまなモーション転送方法における TimePillars のパフォーマンスの違いを強調し、他の方法と比較します。 ベースライン モデルの PointPillars とマルチフレーム (MF) PointPillars を比較すると、TimePillars が複数の主要パフォーマンス指標で大幅な改善を達成したことがわかります。特に NuScenes 検出スコア (NDS) では、TimePillars は検出性能と位置決め精度の優位性を反映して、より高い総合スコアを示しています。さらに、TimePillars は平均変換誤差 (mATE)、平均スケール誤差 (mASE)、平均方向誤差 (mAOE) でも低い値を達成しており、測位精度と方向推定の精度が高いことを示しています。特に注目すべきは、モーション変換に関して TimePillars を実装する方法が異なると、パフォーマンスに大きな影響を与えるということです。畳み込みベースのモーション変換 (Conv ベース) を使用する場合、TimePillars は NDS、mATE、mASE、mAOE で特に優れたパフォーマンスを発揮し、モーション補正におけるこのアプローチの有効性と検出精度の向上を実証します。対照的に、補間法を使用する TimePillars もベースライン モデルよりも優れていますが、一部の指標では畳み込み法よりも劣っています。平均精度 (mAP) の結果は、TimePillars が車両、自転車、歩行者の検出において優れたパフォーマンスを発揮し、特に自転車や歩行者などのより困難なカテゴリを扱う場合にはパフォーマンスの向上がより顕著であることを示しています。処理周波数(f(Hz))の観点から見ると、TimePillarsはシングルフレームのPointPillarsほど高速ではありませんが、高い検出性能を維持しながらマルチフレームのPointPillarsよりも高速です。これは、TimePillars がリアルタイム処理を維持しながら、長距離検出と動き補正を効果的に実行できることを示しています。つまり、TimePillars モデルは、特にマルチフレーム データを処理し、畳み込みベースのモーション変換テクノロジを使用する場合に、長距離検出、モーション補正、および処理速度において大きな利点を示します。これらの結果は、自律走行車の 3D LiDAR 物体検出アプリケーションにおける TimePillars の可能性を浮き彫りにしています。 上記の実験結果は、特にベースライン モデル PointPillars と比較して、TimePillars モデルがさまざまな距離範囲でのオブジェクト検出において優れたパフォーマンスを発揮することを示しています。結果は、0 ~ 50 メートル、50 ~ 100 メートル、100 メートル以上の 3 つの主な検出範囲に分類されます。 まず、NuScenes 検出スコア (NDS) と平均精度 (mAP) が全体的なパフォーマンス指標です。 TimePillars は両方の指標で PointPillars を上回り、全体的に高い検出能力と位置特定精度を示しています。具体的には、TimePillars の NDS は 0.723 で、PointPillars の 0.657 を大幅に上回っています。mAP に関しても、TimePillars は 0.570 で PointPillars の 0.475 を大幅に上回っています。 さまざまな距離範囲のパフォーマンスを比較すると、TimePillars があらゆる範囲で優れたパフォーマンスを発揮していることがわかります。車両カテゴリでは、0〜50メートル、50〜100メートル、100メートル以上の範囲でのTimePillarsの検出精度はそれぞれ0.884、0.776、0.591であり、すべて同じ範囲でのPointPillarsのパフォーマンスを上回っています。これは、TimePillars が近距離と遠距離の両方で車両検出の精度が高いことを示しています。 TimePillars は、オートバイ、車椅子、電動スクーターなどの脆弱な車両を扱う際にも、より優れた検出性能を発揮します。特に100メートル以上の範囲では、TimePillarsの検出精度は0.178であるのに対し、PointPillarsは0.036に過ぎず、長距離検出において大きな優位性を示しています。歩行者検出においても、TimePillars は特に 50 ~ 100 メートルの範囲で優れたパフォーマンスを示し、検出精度は 0.350 に達しますが、PointPillars は 0.211 に過ぎません。より長い距離(100 メートル以上)でも、TimePillars はある程度の検出(0.032 の精度)を達成できますが、PointPillars はこの範囲ではパフォーマンスがゼロです。 これらの実験結果は、さまざまな距離範囲での物体検出タスクを処理する際の TimePillars の優れたパフォーマンスを浮き彫りにしています。近距離でも、より困難な長距離でも、TimePillars はより正確で信頼性の高い検出結果を提供します。これは、自動運転車の安全性と効率性にとって非常に重要です。 5. 議論まず、TimePillars モデルの主な利点は、長距離の物体検出における有効性にあります。動的ボクセル化と畳み込み GRU 構造を採用することで、このモデルは、特に長距離物体検出において、スパース LiDAR データをより適切に処理できるようになります。これは、複雑で変化する道路環境における自動運転車の安全な運行にとって非常に重要です。さらに、このモデルは、リアルタイム アプリケーションに不可欠な処理速度においても優れたパフォーマンスを示します。一方、TimePillars はモーション補正に畳み込みベースのアプローチを採用しており、これは従来の方法に比べて大幅に改善されています。このアプローチは、トレーニング中の補助タスクを通じて変換の正確性を確保し、移動するオブジェクトを処理する際のモデルの精度を向上させます。 しかし、この論文の研究にもいくつかの限界があります。まず、TimePillars は長距離の物体検出の処理に優れていますが、このパフォーマンスの向上は、一定の処理速度を犠牲にする可能性があります。モデルの速度はリアルタイム アプリケーションには適していますが、単一フレーム方式よりも遅くなります。さらに、この論文は主に LiDAR データに焦点を当てており、カメラやレーダーなどの他のセンサー入力は考慮されていないため、より複雑なマルチセンサー環境へのモデルの適用性が制限される可能性があります。 つまり、TimePillars は、自律走行車の 3D LIDAR 物体検出、特に長距離検出と動き補正において大きな利点を示しています。処理速度のわずかなトレードオフとマルチセンサーデータ処理の制限にもかかわらず、TimePillars は依然としてこの分野における重要な進歩を表しています。 6. 結論この研究は、過去のセンサーデータを考慮することが、現在の情報のみを利用するよりも優れていることを示しています。以前の運転環境情報にアクセスすることで、LiDAR ポイント クラウドのスパースな性質に対処し、より正確な予測が可能になります。後者を実現する手段として、リカレント ネットワークが適していることを示します。システムにメモリを与えると、大規模な処理を通じてより高密度のデータ表現を作成するポイント クラウド集約方法と比較して、より堅牢なソリューションが実現します。私たちが提案する手法 TimePillars は、再帰問題を解決する方法を実装します。推論中に 3 つの畳み込み層を追加するだけで、基本的なネットワーク構成要素が、既存の効率性とハードウェア統合仕様を満たしながら、驚くべき結果を達成するのに十分であることを実証します。私たちの知る限り、この研究は、新しく導入された Zenseact オープン データセットにおける 3D オブジェクト検出タスクの最初のベンチマーク結果を提供します。私たちの取り組みが、将来、より安全で持続可能な道路の実現に貢献することを願っています。 オリジナルリンク: https://mp.weixin.qq.com/s/94JQcvGXFWfjlDCT77gjlA |
<<: RoboFusion: SAM による堅牢なマルチモーダル 3D 検査
>>: NeRF を放棄し始めていますか?ガウススプラッティングが自動運転のシナリオで人気があるのはなぜですか?
CB Insightsが発表した2021年第2四半期のAI(人工知能)レポートによると、疫病の刺激...
2020年、「人工知能」は産業発展における高頻度のホットワードとなり、市場展望は業界全体で広く認知さ...
この記事では、人工知能にブロックチェーンが必要な理由、人工知能がブロックチェーンに与える影響、ブロッ...
ニューヨーク市警察は、その「ユートピア的」技術に対する激しい批判を受け、米国企業ボストン・ダイナミク...
Charles Araujo 氏は、著名な業界アナリストであり、デジタル エンタープライズの国際的に...
[[198507]]誰の生活も金融から独立して存在することはできません。テクノロジーの発展により人々...
Google待望の大躍進、 Gemini大型モデルがついに発売!最も目を引くのは、次の写真とビデオで...
Microsoft と Siemens は最近、製造業向けの Siemens Industry C...
AI はワークフローを強化し、反復的なタスクを削減し、出力を増幅します。スタンフォード大学とMITの...
見て!今、あなたの前で踊っているのは 4 人の若い女性です。ショート動画プラットフォームで何人かのキ...
海外メディアの報道によると、有名な未来学者イアン・ピアソン博士は最近、今後数十年以内に、人間は思考と...
[[439859]]近年、モデルの規模はどんどん大きくなっています。例えば、2018年に登場したGP...