自動運転 AI に「プラグイン」を与えると、0.1M で動作状態を区別する能力が大幅に向上します (HKU および TCL より) | オープンソース

自動運転 AI に「プラグイン」を与えると、0.1M で動作状態を区別する能力が大幅に向上します (HKU および TCL より) | オープンソース

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

たった「100Kサイズのプラグイン」で、自動運転AIの「物体の動きの状態」を識別する能力を大幅に向上できます!

これは香港大学のコンピュータビジョンおよび機械知能研究所(CVMIラボ)とTCL AIラボによる新しい研究です。この論文はCVPR 2023に掲載されています。

この研究では、 MarS3Dと呼ばれる軽量モデルを提案しました。これは、物体が「何であるか」しか認識できないセマンティックセグメンテーションモデルで使用でき、これらの物体が「動いている」かどうかを認識できるようにさらに学習することができます。

さらに、主流のモデルとプラグアンドプレイで接続でき、追加の計算能力はほとんど必要ありません(推論時間は 0.03 秒未満しか増加しません) 。現在はオープンソースです。

周囲の環境を判断するために LiDAR に依存する自動運転システムの場合、その認識能力は 3D ポイント クラウド セマンティック セグメンテーション モデルの精度と効率に大きく依存することを知っておく必要があります。

モデルの「移動物体」識別能力を向上させたい場合、多くの場合、屋外の大量のマルチフレームポイントクラウドデータを個別に抽出して処理する必要があります。ただし、この方法では計算量が大幅に増加するだけでなく、認識性能もそれほど向上しません。実際には、2倍の労力で半分の結果しか得られません。

比較すると、MarS3D には約 10 万個のパラメータしかありませんが、主流のポイント クラウド セグメンテーション モデルのパフォーマンスを5% 近く向上させることができます。

これはどうやって行うのですか?

10万個のパラメータにより、モデルは「動く」物体を認識することを学習できる。

まず、3D ポイント クラウドの 2 つのセマンティック セグメンテーション タスク、シングル スキャンマルチ スキャンを理解する必要があります。

これら 2 つの方法の主な違いは、オブジェクトの運動状態を区別できるかどうかにあります。

1 回のスキャンタスクでは、1 つのフレーム ポイント クラウドに基づいて、シーン内の車、歩行者、道路などのセマンティック情報をセグメント化してラベル付けするだけで済みます。下の図に示すように、異なる色は異なるオブジェクトを表します。たとえば、青い点群は車を表します。

マルチスキャンタスクでは、時系列のマルチフレームポイントクラウドに基づいて、意味情報と動作状態を同時にセグメント化する必要があります。

言い換えれば、車、歩行者、道路を区別することを学ぶだけでなく、これらの物体が動いているかどうかも認識する必要があります。たとえば、車のラベルは「動いている車」と「止まっている車」に拡張され、歩行者のラベルは「動いている歩行者」と「止まっている歩行者」に拡張されます。

現在、自動運転用のLIDAR点群データの処理は、主にシングルスキャンセマンティックセグメンテーション方式によって行われています。

ラベルを拡張し、点群データを融合することで、シングルスキャンモデルをマルチスキャンモデルに直接トレーニングし、AIが物体の運動状態を識別する能力を習得することは可能ですが、2つの問題があります。

1 つはパフォーマンスが平均的であることです。もう 1 つは、融合されたポイント クラウド データの量が多いため、モデルが複雑になり、計算時間が長くなり、「時間との競争」の自動運転システムにはまったく受け入れられないことです。

これら 2 つの問題を解決し、セマンティック セグメンテーション モデルが「動く物体」を識別する方法を迅速かつ効果的に習得できるようにするために、MarS3D が誕生しました。

以前のモデルではシングルスキャンのセマンティックセグメンテーションしか実行できませんでしたが、MarS3D を追加すると、マルチスキャンのセマンティックセグメンテーション機能が大幅に向上し、オブジェクトが「動いている」かどうかを区別できるだけでなく、他のマルチスキャン方法よりも優れた結果を達成できます。

それで、MarS3Dの核となるアイデアは何でしょうか?

具体的には、2D CNN ネットワークに基づいてブランチBEV ブランチを設計します。このモデルは、ポイント クラウド データ変換の BEV (Bird's Eye View)表現、つまりトップダウンの鳥瞰図を抽出できます。

BEV を選択する主な理由は 2 つあります。

一方、現在移動している物体は基本的に地上を走行しており(空中を飛行している場合でも垂直方向の上昇はほとんどありません) 、つまり、ほとんどすべての動きは水平面内での変位を伴うため、ほとんどのシーンの物体の移動状態をよく反映できます。

一方、BEV はポイント クラウドよりもデータ量が少なく、参照フレームと特徴マップを減算することで、ポイント クラウドのスパース性によって生じる表現が不安定になる問題も軽減できます。つまり、同じ静的領域の表現は近似的になり、動的オブジェクトを含む領域の表現距離は遠くなります。さらに、抽出された特徴マップを表現するためにマルチサイズの畳み込みが使用され、モデルが異なる移動速度を持つオブジェクトを強力に認識できるようになります。

その後、このブランチによって抽出された動作状態情報の特徴は、時間的埋め込みベクトルによって強化された他のシングルスキャンタスクモデルブランチ3D ブランチによって抽出された意味情報の特徴と結合され、特徴融合が実行され、最終的に意味セグメンテーションが達成されます。

では、このようにして実現される 3D ポイント クラウド セマンティック セグメンテーションの効果は何でしょうか?

計算時間は数十ミリ秒で、セグメンテーションのパフォーマンスは5%近く向上します。

この論文では、RGB 画像などの他の入力と組み合わせる場合と比較して、純粋なポイント クラウド入力に対するモデルのセグメンテーション効果のテストに重点を置いています。

下の表からわかるように、SemanticKITTIデータセットの場合、SPVCNN、SparseConv、MinkUNetなどの現在主流のシングルスキャンポイントクラウドセグメンテーションモデルでは、MarS3Dはモデルに0.1Mのみを追加し(パラメータ数は0.5%未満増加) 、パフォーマンス(mIoU)をそれぞれ4.96%、5.65%、6.24%向上させます。

同時に、計算​​時間(レイテンシ)はそれぞれ 19 ミリ秒、14 ミリ秒、28 ミリ秒しか増加しませんでした。

モデルセグメンテーションパフォーマンスの 5% 向上はどの程度重要ですか?次の図は、2 つのスキャン シーンで MarS3D を追加する前と追加した後のモデルの効果を比較したものです。左の写真は追加前、中央の写真は追加後、右の写真は実際の値です。

明らかに、MarS3D を追加した後、モデルはオブジェクトをより適切に認識します。

セグメンテーション効果を真の値と直接比較すると、MarS3D を追加した後の「エラー値」は追加する前よりもはるかに低いことがわかります。

推論プロセス全体を NVIDIA GeForce RTX 3090 GPU 1 つだけで完了できます。

MarS3Dに興味のある友達はぜひ試してみてください〜

プロジェクトアドレス: https://github.com/CVMI-Lab/MarS3D

論文アドレス: https://arxiv.org/abs/2307.09316

<<:  AI 対応スマート ビルディングの利点は何ですか?

>>:  清華大学の「自然言語プログラミング成果物」が利用可能になりました! 100以上のプログラミング言語をサポートし、効率性が向上しました

ブログ    
ブログ    
ブログ    

推薦する

NLP に革命を起こす 3 つの AI スタートアップ

ディープラーニングは自然言語処理において驚くべき進歩を遂げました。 Explosion、Huggin...

Baidu が DeepVoice の最終バージョンをリリース: 10,000 人の声を真似て 30 分でアクセントを習得

今年初め、検索大手の百度は、人気のディープラーニング技術を使用してテキスト読み上げ(TTS)変換を実...

Googleが量子コンピューティングAIラボを発表、今後10年のロードマップを公開

[[425546]]エリック・ルセロ博士最近、Google Quantum AIのチーフエンジニアで...

ユビキタス「AI+」人工知能はこのように私たちの生活を変える

人工知能(略して AI)は、コンピュータサイエンスの重要な分野として、1956 年にダートマス協会で...

説明可能な不正防止AIについてお話しましょう

人工知能は近年急速に発展し、さまざまな業界の無数のユースケースで強力なイノベーションツールとして広く...

小度が「画期的な」新製品を百度世界2020で初公開、CCTVと提携してスマートライフの全貌を披露

「小都小都」、「私はここにいます」 - 数百万の家族と小都の間の日常会話のシーンがCCTVニュースス...

...

インテリジェントな顧客サービス チャット モジュールの 3 つのソリューションを比較すると、どれが気に入りましたか?

現在のインテリジェント顧客サービス市場とその NLP 分野において、チャット モジュールは非常に重要...

エッジAI + コンピュータービデオが木製ラック業界に新たな風を吹き込む

北京、12月30日:インテリジェントな要素がエッジに向かって動いています。データ収集速度が向上するに...

AIがDotAのトッププレイヤーに勝利したのは画期的なことでしょうか? OpenAIが詳細を発表

[[200484]]週末、OpenAI は世界最高峰の DotA 2 イベント TI7 (The I...

機械学習業界の発展はなぜ「オープンソース」から切り離せないのか

[[187490]] 2016 年末、Google DeepMind は機械学習プラットフォームであ...

このアルゴリズムチームは 2020 年に何をしましたか?

[[383980]]冒頭に書いた私自身、毎年まとめを書く習慣があります。2020年は、私の職務が垂...

...

機械学習: 決定木について

ロジスティック回帰の基本原理と勾配降下法の導出プロセスについて説明しました。このコードは、分類アルゴ...

運転教習業界にも「AI」の波が吹き荒れる、普及規模に注目

[[422314]]近年、都市化と道路交通建設の加速により、自動車旅行の需要が継続的に増加しており、...