自動運転 AI に「プラグイン」を与えると、0.1M で動作状態を区別する能力が大幅に向上します (HKU および TCL より) | オープンソース

自動運転 AI に「プラグイン」を与えると、0.1M で動作状態を区別する能力が大幅に向上します (HKU および TCL より) | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

たった「100Kサイズのプラグイン」で、自動運転AIの「物体の動きの状態」を識別する能力を大幅に向上できます!

これは香港大学のコンピュータビジョンおよび機械知能研究所(CVMIラボ)とTCL AIラボによる新しい研究です。この論文はCVPR 2023に掲載されています。

この研究では、 MarS3Dと呼ばれる軽量モデルを提案しました。これは、物体が「何であるか」しか認識できないセマンティックセグメンテーションモデルで使用でき、これらの物体が「動いている」かどうかを認識できるようにさらに学習することができます。

さらに、主流のモデルとプラグアンドプレイで接続でき、追加の計算能力はほとんど必要ありません(推論時間は 0.03 秒未満しか増加しません) 。現在はオープンソースです。

周囲の環境を判断するために LiDAR に依存する自動運転システムの場合、その認識能力は 3D ポイント クラウド セマンティック セグメンテーション モデルの精度と効率に大きく依存することを知っておく必要があります。

モデルの「移動物体」識別能力を向上させたい場合、多くの場合、屋外の大量のマルチフレームポイントクラウドデータを個別に抽出して処理する必要があります。ただし、この方法では計算量が大幅に増加するだけでなく、認識性能もそれほど向上しません。実際には、2倍の労力で半分の結果しか得られません。

比較すると、MarS3D には約 10 万個のパラメータしかありませんが、主流のポイント クラウド セグメンテーション モデルのパフォーマンスを5% 近く向上させることができます。

これはどうやって行うのですか?

10万個のパラメータにより、モデルは「動く」物体を認識することを学習できる。

まず、3D ポイント クラウドの 2 つのセマンティック セグメンテーション タスク、シングル スキャンマルチ スキャンを理解する必要があります。

これら 2 つの方法の主な違いは、オブジェクトの運動状態を区別できるかどうかにあります。

1 回のスキャンタスクでは、1 つのフレーム ポイント クラウドに基づいて、シーン内の車、歩行者、道路などのセマンティック情報をセグメント化してラベル付けするだけで済みます。下の図に示すように、異なる色は異なるオブジェクトを表します。たとえば、青い点群は車を表します。

マルチスキャンタスクでは、時系列のマルチフレームポイントクラウドに基づいて、意味情報と動作状態を同時にセグメント化する必要があります。

言い換えれば、車、歩行者、道路を区別することを学ぶだけでなく、これらの物体が動いているかどうかも認識する必要があります。たとえば、車のラベルは「動いている車」と「止まっている車」に拡張され、歩行者のラベルは「動いている歩行者」と「止まっている歩行者」に拡張されます。

現在、自動運転用のLIDAR点群データの処理は、主にシングルスキャンセマンティックセグメンテーション方式によって行われています。

ラベルを拡張し、点群データを融合することで、シングルスキャンモデルをマルチスキャンモデルに直接トレーニングし、AIが物体の運動状態を識別する能力を習得することは可能ですが、2つの問題があります。

1 つはパフォーマンスが平均的であることです。もう 1 つは、融合されたポイント クラウド データの量が多いため、モデルが複雑になり、計算時間が長くなり、「時間との競争」の自動運転システムにはまったく受け入れられないことです。

これら 2 つの問題を解決し、セマンティック セグメンテーション モデルが「動く物体」を識別する方法を迅速かつ効果的に習得できるようにするために、MarS3D が誕生しました。

以前のモデルではシングルスキャンのセマンティックセグメンテーションしか実行できませんでしたが、MarS3D を追加すると、マルチスキャンのセマンティックセグメンテーション機能が大幅に向上し、オブジェクトが「動いている」かどうかを区別できるだけでなく、他のマルチスキャン方法よりも優れた結果を達成できます。

それで、MarS3Dの核となるアイデアは何でしょうか?

具体的には、2D CNN ネットワークに基づいてブランチBEV ブランチを設計します。このモデルは、ポイント クラウド データ変換の BEV (Bird's Eye View)表現、つまりトップダウンの鳥瞰図を抽出できます。

BEV を選択する主な理由は 2 つあります。

一方、現在移動している物体は基本的に地上を走行しており(空中を飛行している場合でも垂直方向の上昇はほとんどありません) 、つまり、ほとんどすべての動きは水平面内での変位を伴うため、ほとんどのシーンの物体の移動状態をよく反映できます。

一方、BEV はポイント クラウドよりもデータ量が少なく、参照フレームと特徴マップを減算することで、ポイント クラウドのスパース性によって生じる表現が不安定になる問題も軽減できます。つまり、同じ静的領域の表現は近似的になり、動的オブジェクトを含む領域の表現距離は遠くなります。さらに、抽出された特徴マップを表現するためにマルチサイズの畳み込みが使用され、モデルが異なる移動速度を持つオブジェクトを強力に認識できるようになります。

その後、このブランチによって抽出された動作状態情報の特徴は、時間的埋め込みベクトルによって強化された他のシングルスキャンタスクモデルブランチ3D ブランチによって抽出された意味情報の特徴と結合され、特徴融合が実行され、最終的に意味セグメンテーションが達成されます。

では、このようにして実現される 3D ポイント クラウド セマンティック セグメンテーションの効果は何でしょうか?

計算時間は数十ミリ秒で、セグメンテーションのパフォーマンスは5%近く向上します。

この論文では、RGB 画像などの他の入力と組み合わせる場合と比較して、純粋なポイント クラウド入力に対するモデルのセグメンテーション効果のテストに重点を置いています。

下の表からわかるように、SemanticKITTIデータセットの場合、SPVCNN、SparseConv、MinkUNetなどの現在主流のシングルスキャンポイントクラウドセグメンテーションモデルでは、MarS3Dはモデルに0.1Mのみを追加し(パラメータ数は0.5%未満増加) 、パフォーマンス(mIoU)をそれぞれ4.96%、5.65%、6.24%向上させます。

同時に、計算​​時間(レイテンシ)はそれぞれ 19 ミリ秒、14 ミリ秒、28 ミリ秒しか増加しませんでした。

モデルセグメンテーションパフォーマンスの 5% 向上はどの程度重要ですか?次の図は、2 つのスキャン シーンで MarS3D を追加する前と追加した後のモデルの効果を比較したものです。左の写真は追加前、中央の写真は追加後、右の写真は実際の値です。

明らかに、MarS3D を追加した後、モデルはオブジェクトをより適切に認識します。

セグメンテーション効果を真の値と直接比較すると、MarS3D を追加した後の「エラー値」は追加する前よりもはるかに低いことがわかります。

推論プロセス全体を NVIDIA GeForce RTX 3090 GPU 1 つだけで完了できます。

MarS3Dに興味のある友達はぜひ試してみてください〜

プロジェクトアドレス: https://github.com/CVMI-Lab/MarS3D

論文アドレス: https://arxiv.org/abs/2307.09316

<<:  AI 対応スマート ビルディングの利点は何ですか?

>>:  清華大学の「自然言語プログラミング成果物」が利用可能になりました! 100以上のプログラミング言語をサポートし、効率性が向上しました

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

今検討する価値のある 21 のロボティック プロセス オートメーション (RPA) ツール

[[422760]] [51CTO.com クイック翻訳]事実によれば、ロボティック プロセス オー...

...

地図メーカーの次の戦い:AI戦争

新しいインフラの下で、産業インターネット、5G基地局建設、都市間高速鉄道と都市間軌道交通、新エネルギ...

ビジネス界におけるAIと自動化の変革的役割

人工知能や自動化などの破壊的技術の急速な発展により、現代の企業は変化しています。これらのテクノロジー...

ディープフェイクは今回、顔を変えるだけでなく、街そのものを変えてしまった。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

サイバーセキュリティにおける AI と ML のユースケース

サイバー攻撃の性質と標的が多様化するにつれて、サイバーセキュリティの専門家が脆弱性に対処する方法を決...

「ロボット革命」は人類社会の発展にどのような影響を与えるのでしょうか?

世界経済フォーラムが最近発表した報告書によると、2025年までに世界の仕事の半分はロボットによって行...

これら15のアルゴリズムをマスターすれば、グラフデータベースNeo4jを操作できるようになります。

チャート分析はビジネス上の意思決定において非常に価値があり、優れたグラフ アルゴリズムは使いやすく実...

...

わかりやすく解説: 機械学習と統計モデリングの違い

これらは互いに大きく異なっており、すべてのデータ サイエンティストはその理由と方法を理解する必要があ...

スマートコックピット、進行中のインタラクティブ革命

今日では、スマートカーは都市ネットワークにおける「デジタルノード」となっています。優れた環境認識能力...

...

3D MRI および CT スキャンのディープラーニング モデルの概要

医療画像データと他の日常的な画像との最大の違いの 1 つは、DICOM シリーズ データを扱う場合、...