CVPR 自動運転チャレンジで優勝したのはどのようなソリューションでしょうか?

CVPR 自動運転チャレンジで優勝したのはどのようなソリューションでしょうか?

道路は複雑で、車両の種類も多様で、歩行者も密集しています。これが都市部の道路交通の現状であり、自動運転の分野が直面する真の課題でもあります。この課題を解決するには、3 次元環境を感知して理解することが重要です。

従来の 3D オブジェクト検出タスクでは、前景オブジェクトは通常、3D 境界ボックスで表されます。しかし、この方法にはいくつかの欠点があります。一方では、現実世界の物体の形状は非常に複雑で、単純な 3 次元ボックスでは表現できません。他方では、この方法では背景要素の認識が無視される傾向があります。包括的な L4/L5 自動運転を実現するには、従来の 3D 認識方法では不十分です。

最近、エンドツーエンドの自動運転ワークショップとビジョン中心の自動運転ワークショップが、CVPR 2023 で 3D 占有予測トラックを含む自動運転チャレンジを開催しました。

図1 CVPR2023自動運転チャレンジ

3 次元占有予測は、自動運転の分野における新たなタスクであり、車両の運転シナリオのきめ細かいモデリングを必要とし、自動運転の一般的な認識機能を実現するために非常に重要です。このコンペティションでは、3次元空間をボクセル化し、3次元占有タスクに基づいて、3次元空間内のボクセルの占有状態と意味情報を推定するという2つの新しいタスクを組み合わせた、nuScenesデータセットに基づく大規模な占有予測評価ベンチマークを提供します。全体的なタスクは、マルチビュー画像を与えられた 3 次元空間で高密度の予測を行うことを目的としています。

このコンテストは、3次元占有センシングの分野における初のトップクラスの国際的権威あるイベントであり、業界や学界から幅広い注目を集めています。コンテストには、Xiaomi Auto、Huawei、42dot、Hikvisionなどの業界チームや、北京大学、浙江大学、中国科学院などの研究機関の学術チームなど、合計149チームが参加しました。

最終的に、NVIDIA と南京大学のチームが激しい競争を勝ち抜き、3D 占有率予測タスクの優勝と最優秀イノベーション賞という 2 つの重要な賞を受賞しました。優勝チームの勝利プランを見てみましょう。

チャンピオンプログラム

データの利用に制限があるこれまでのコンテストとは異なり、この自動運転コンテストでは、参加者が追加のオープンソース データやモデルを使用して、データ駆動型アルゴリズムを探索できます。そのため、今回のコンテストでは、NVIDIA と南京大学の研究者が効率的なモデル構造を設計しただけでなく、大規模モデルのトレーニングも検討し、モデルパラメータを 10 億のオーダーにまで拡張しました。これは、従来一般的に使用されていた 3D 認識モデルの 10 倍以上に相当します。

高度なモデル構造設計と大規模モデルの強力な表現機能により、チームが提案したソリューション FB-OCC は、単一モデルで 50% mIoU を超える優れたパフォーマンスを実現し、最終的に 54.19% mIoU という最高スコアを達成しました。

ネットワークアーキテクチャ

FB-OCC の主な革新は、前方投影と後方投影を組み合わせた 3 次元空間モデリング手法の使用です。

図 2 に示すように、前方投影プロセス中に、LSS 投影パラダイムを参照して、FB-OCC は各ピクセルの深度分布に基づいてシーンに対応する 3D ボクセル表現を生成します。一方、LSS パラダイムによって生成される特徴はスパースかつ非均一になる傾向があるため、FB-OCC では、スパースなシーンの特徴を最適化するためにバックプロジェクション メカニズムを導入しています。

図2 ネットワークアーキテクチャ図

さらに、計算負荷を考慮して、FB-OCC は方向投影プロセス中にシーンの特徴を鳥瞰図 (BEV) 表現に圧縮し、最終的に 3D ボクセル表現と鳥瞰図表現を組み合わせます。結合された 3D ボクセル特徴は、特徴受容野を強化するために追加のボクセル エンコーダーを通過します。

大規模モデル探索

モデルパラメータの数を増やすことは、モデルの精度を向上させる最も便利な方法ですが、3次元視覚知覚の分野では、既存の主流の知覚モデルのパラメータが依然として1億のオーダーであるのに対し、大規模モデルは過剰適合になりやすいことが研究者によって発見されました。

このコンペティションでは、FB-OCCモデルは10億のパラメータを持つInternImageバックボーンネットワークの使用を試みました。モデルパラメータの総数は、既存の一般的なモデルの10倍以上です。大規模モデルのトレーニングには通常、それに対応するビッグデータが必要ですが、自動運転データの収集と注釈付けにはコストがかかることから、オープンソースの 3D 認識データセットでは 10 億のパラメータを持つモデルをサポートするには不十分です。

この問題点に対処するために、FB-OCC は複数ラウンドの事前トレーニング メカニズムを使用します。利用可能な 2 次元知覚データセットは 3 次元知覚データよりもはるかに豊富であるため、FB-OCC はまず大規模なオープンソース データセット Objects365 で一般的なオブジェクト検出の事前トレーニングを実行します。次に、図 3 に示すように、FB-OCC は深度と意味の共同事前トレーニングを導入して、2D 知覚と 3D 知覚の間に橋を架けます。

図3. 深度と意味の統合事前トレーニング

FB-OCC は、セマンティック セグメンテーション ラベルを生成するために、ボックス プロンプトとポイント プロンプトを使用してさまざまなカテゴリのセマンティクスを生成する、自動注釈付け用の Meta の SAM モデルも使用します。複数回の事前トレーニングを経て、大規模モデルは占有認識タスクにおける深刻な過剰適合の問題を回避できるようになります。

実験結果

研究チームは実験でFB-OCCの優れた性能を実証しました。表 1 に示すように、ResNet-50 バックボーン ネットワークと 256x704 解像度の入力画像を使用すると、FB-OCC は時間的融合、ディープ スーパービジョン、その他のテクノロジの助けを借りて、モデル パフォーマンスを初期の 23.12% mIoU から 42.06% mIoU に向上させます。

表1 小規模モデルのアブレーション実験結果

より高い精度を実現するために、FB-OCC ではより大きなパラメータを持つモデルを使用します。表 2 に示すように、モデル スケールが 400M の場合、FB-OCC は単一モデルで 50% 以上の mIoU 効果を実現します。 InternImage バックボーン ネットワークの助けにより、10 億のパラメータを持つモデルはさらに 52.79% という優れた結果を達成しました。

表2 異なるモデルスケールの影響

最終的に、複数の FB-OCC モデルの統合結果がテスト セットで最高の精度 (54.19%) を達成し、コンテストで優勝し、最優秀イノベーション賞を受賞しました。 FB-OCC は、自動運転における複雑な 3 次元占有予測問題に新しいアイデアをもたらします。

<<:  AI時代が到来。アンドリュー・ン氏はすべての子供に人工知能について教えるべきだと訴える

>>:  すべてのオープンソースモデルを超え、クロードとバードを破り、プログラミングタスク専用の大規模モデルが登場

ブログ    

推薦する

人工知能開発の新たな方向性

1. 大規模収集:あらゆる方向から情報を収集するデータ収集システムは、信号、センサー、アクチュエータ...

我が国の人工知能市場の規模は2022年に3705億元に達すると推定されている。

人工知能は、機械を通じて人間の思考と意思決定をシミュレートすることに重点を置いたコンピューターサイエ...

GMIC 2018: DataVisor が成長中の企業に AI 不正防止機能を導入する方法

9月26日から28日まで、北京でグローバルモバイルインターネットカンファレンス(GMIC 2018)...

外国人の機械学習エンジニアは失業に直面しているのに、なぜ彼らはまだMLの学習にこだわるのでしょうか?

機械学習の分野では悲観的な見通しが広がっています。機械学習の人材の採用は減速しています。 [[334...

...

AI の透明性とは何ですか? また、なぜそれが必要なのですか?

AI テクノロジーを利用する組織はますます増えていますが、多くの企業はまだ AI テクノロジーの仕...

インターネットの大失敗: 破壊された破壊者

[[324391]]インターネットの破壊的イノベーションは、自らの業界から生まれることはありません...

2019年の人工知能の予測と展望

2019 年に人工知能の分野はどのように進化するでしょうか? 過去数年と比べてどのように変化するでし...

速度が2倍に向上、超強力なCPUレベルのバックボーンネットワークPP-LCNetが誕生

[[431006]]アルゴリズムの速度最適化でボトルネックが発生し、要件を満たすことができませんか?...

...

スマートテクノロジーが現代のビジネス運営を強化する7つの方法

スマート テクノロジーは、あらゆる業界の企業に無限のチャンスをもたらします。小さな変更でも、企業を完...

GNNの実装はもはや難しくありません。この記事では、効率的なGNNとスケーラブルなグラフ表現学習の最新の進歩についてまとめています。

グラフ ニューラル ネットワークは、現実世界に適用する場合、メモリ制限、ハードウェア制限、信頼性制限...

AIは脳の信号をリアルタイムで解釈し、画像の主要な視覚的特徴を7倍の速度で復元するとルカン氏は述べた。

AIが脳の信号をリアルタイムで解釈できるようになりました!これはセンセーショナルなことではありませ...

量子コンピューティングは今後10年間で物流業界を変えるだろう

近年、サプライチェーンおよび物流業界は、労働力不足から予測不可能な天候、需給の変化まで、ますます多く...

マスク氏の Grok 大型モデルがプレイ可能になりました!彼の口は彼自身と同じくらい悪い。

友達に大きなサプライズ!マスク氏は突然、Grokの大型モデルを大量の有料ユーザーに開放すると発表した...