CVPR 自動運転チャレンジで優勝したのはどのようなソリューションでしょうか?

CVPR 自動運転チャレンジで優勝したのはどのようなソリューションでしょうか?

道路は複雑で、車両の種類も多様で、歩行者も密集しています。これが都市部の道路交通の現状であり、自動運転の分野が直面する真の課題でもあります。この課題を解決するには、3 次元環境を感知して理解することが重要です。

従来の 3D オブジェクト検出タスクでは、前景オブジェクトは通常、3D 境界ボックスで表されます。しかし、この方法にはいくつかの欠点があります。一方では、現実世界の物体の形状は非常に複雑で、単純な 3 次元ボックスでは表現できません。他方では、この方法では背景要素の認識が無視される傾向があります。包括的な L4/L5 自動運転を実現するには、従来の 3D 認識方法では不十分です。

最近、エンドツーエンドの自動運転ワークショップとビジョン中心の自動運転ワークショップが、CVPR 2023 で 3D 占有予測トラックを含む自動運転チャレンジを開催しました。

図1 CVPR2023自動運転チャレンジ

3 次元占有予測は、自動運転の分野における新たなタスクであり、車両の運転シナリオのきめ細かいモデリングを必要とし、自動運転の一般的な認識機能を実現するために非常に重要です。このコンペティションでは、3次元空間をボクセル化し、3次元占有タスクに基づいて、3次元空間内のボクセルの占有状態と意味情報を推定するという2つの新しいタスクを組み合わせた、nuScenesデータセットに基づく大規模な占有予測評価ベンチマークを提供します。全体的なタスクは、マルチビュー画像を与えられた 3 次元空間で高密度の予測を行うことを目的としています。

このコンテストは、3次元占有センシングの分野における初のトップクラスの国際的権威あるイベントであり、業界や学界から幅広い注目を集めています。コンテストには、Xiaomi Auto、Huawei、42dot、Hikvisionなどの業界チームや、北京大学、浙江大学、中国科学院などの研究機関の学術チームなど、合計149チームが参加しました。

最終的に、NVIDIA と南京大学のチームが激しい競争を勝ち抜き、3D 占有率予測タスクの優勝と最優秀イノベーション賞という 2 つの重要な賞を受賞しました。優勝チームの勝利プランを見てみましょう。

チャンピオンプログラム

データの利用に制限があるこれまでのコンテストとは異なり、この自動運転コンテストでは、参加者が追加のオープンソース データやモデルを使用して、データ駆動型アルゴリズムを探索できます。そのため、今回のコンテストでは、NVIDIA と南京大学の研究者が効率的なモデル構造を設計しただけでなく、大規模モデルのトレーニングも検討し、モデルパラメータを 10 億のオーダーにまで拡張しました。これは、従来一般的に使用されていた 3D 認識モデルの 10 倍以上に相当します。

高度なモデル構造設計と大規模モデルの強力な表現機能により、チームが提案したソリューション FB-OCC は、単一モデルで 50% mIoU を超える優れたパフォーマンスを実現し、最終的に 54.19% mIoU という最高スコアを達成しました。

ネットワークアーキテクチャ

FB-OCC の主な革新は、前方投影と後方投影を組み合わせた 3 次元空間モデリング手法の使用です。

図 2 に示すように、前方投影プロセス中に、LSS 投影パラダイムを参照して、FB-OCC は各ピクセルの深度分布に基づいてシーンに対応する 3D ボクセル表現を生成します。一方、LSS パラダイムによって生成される特徴はスパースかつ非均一になる傾向があるため、FB-OCC では、スパースなシーンの特徴を最適化するためにバックプロジェクション メカニズムを導入しています。

図2 ネットワークアーキテクチャ図

さらに、計算負荷を考慮して、FB-OCC は方向投影プロセス中にシーンの特徴を鳥瞰図 (BEV) 表現に圧縮し、最終的に 3D ボクセル表現と鳥瞰図表現を組み合わせます。結合された 3D ボクセル特徴は、特徴受容野を強化するために追加のボクセル エンコーダーを通過します。

大規模モデル探索

モデルパラメータの数を増やすことは、モデルの精度を向上させる最も便利な方法ですが、3次元視覚知覚の分野では、既存の主流の知覚モデルのパラメータが依然として1億のオーダーであるのに対し、大規模モデルは過剰適合になりやすいことが研究者によって発見されました。

このコンペティションでは、FB-OCCモデルは10億のパラメータを持つInternImageバックボーンネットワークの使用を試みました。モデルパラメータの総数は、既存の一般的なモデルの10倍以上です。大規模モデルのトレーニングには通常、それに対応するビッグデータが必要ですが、自動運転データの収集と注釈付けにはコストがかかることから、オープンソースの 3D 認識データセットでは 10 億のパラメータを持つモデルをサポートするには不十分です。

この問題点に対処するために、FB-OCC は複数ラウンドの事前トレーニング メカニズムを使用します。利用可能な 2 次元知覚データセットは 3 次元知覚データよりもはるかに豊富であるため、FB-OCC はまず大規模なオープンソース データセット Objects365 で一般的なオブジェクト検出の事前トレーニングを実行します。次に、図 3 に示すように、FB-OCC は深度と意味の共同事前トレーニングを導入して、2D 知覚と 3D 知覚の間に橋を架けます。

図3. 深度と意味の統合事前トレーニング

FB-OCC は、セマンティック セグメンテーション ラベルを生成するために、ボックス プロンプトとポイント プロンプトを使用してさまざまなカテゴリのセマンティクスを生成する、自動注釈付け用の Meta の SAM モデルも使用します。複数回の事前トレーニングを経て、大規模モデルは占有認識タスクにおける深刻な過剰適合の問題を回避できるようになります。

実験結果

研究チームは実験でFB-OCCの優れた性能を実証しました。表 1 に示すように、ResNet-50 バックボーン ネットワークと 256x704 解像度の入力画像を使用すると、FB-OCC は時間的融合、ディープ スーパービジョン、その他のテクノロジの助けを借りて、モデル パフォーマンスを初期の 23.12% mIoU から 42.06% mIoU に向上させます。

表1 小規模モデルのアブレーション実験結果

より高い精度を実現するために、FB-OCC ではより大きなパラメータを持つモデルを使用します。表 2 に示すように、モデル スケールが 400M の場合、FB-OCC は単一モデルで 50% 以上の mIoU 効果を実現します。 InternImage バックボーン ネットワークの助けにより、10 億のパラメータを持つモデルはさらに 52.79% という優れた結果を達成しました。

表2 異なるモデルスケールの影響

最終的に、複数の FB-OCC モデルの統合結果がテスト セットで最高の精度 (54.19%) を達成し、コンテストで優勝し、最優秀イノベーション賞を受賞しました。 FB-OCC は、自動運転における複雑な 3 次元占有予測問題に新しいアイデアをもたらします。

<<:  AI時代が到来。アンドリュー・ン氏はすべての子供に人工知能について教えるべきだと訴える

>>:  すべてのオープンソースモデルを超え、クロードとバードを破り、プログラミングタスク専用の大規模モデルが登場

ブログ    
ブログ    
ブログ    

推薦する

制御核融合における新たなマイルストーン! AIがプラズマの裂け目を予測することに成功し、ネイチャー誌に掲載され、クリーンエネルギーの「聖杯」に一歩近づいた。

制御された核融合に新たな進歩がありました!核融合は長い間、プラズマ不安定性の問題という「幽霊」に悩ま...

子どもたちにこうした能力を育ててこそ、30年後の人工知能の時代に足場を築くことができるのです。

01.子どもの情報理解力・識別力を養う今持っているスキルは将来役に立たないかもしれない今日生まれた...

TensorFlow で発見された脆弱性の背後にあるもの: AI セキュリティに関する私たちの愚かさと無知

AI がインターネット セキュリティに与える影響について議論してきたとき、AI 自体も安全ではないと...

CV モデルが動作しないのはなぜですか?理由がこんなに単純だとは思いませんでした...

コンピューター ビジョン モデルのパフォーマンスが低下する理由は、アーキテクチャ設計上の欠陥、代表的...

2022年にロボット工学の急成長を支える5つの要因

ロボット工学は、ロボットの構想、設計、製造、操作を扱う工学の分野です。ロボット産業はここ数年で驚異的...

Facebookは人々の生活を一人称で分析する新しいAIシステムを開発中

Facebookは、独自のARグラスを開発するためにRay-Banと提携するなど、拡張現実技術に多大...

...

強化学習アルゴリズムの分類をさまざまな観点から理解します

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

...

AIが「迷惑メール」をフィルタリングし、ユーザーが価値あるメールを素早く見つけられるようにする

現在、世界中で毎日送信される 3,000 億通の電子メールのうち、少なくとも半分はスパムです。電子メ...

血みどろの惨劇を突破できるのは誰か?自動運転プレイヤーが腕前を披露!

自動運転は爆発的な成長を遂げている最先端分野です。水平的な視点で見ると、BATを含むインターネット大...

大規模モデル推論の効率が損失なく3倍に向上。ウォータールー大学、北京大学などがEAGLEをリリース

大規模言語モデル (LLM) はさまざまな分野でますます使用されるようになっています。ただし、テキス...

インテリジェント製造業が波に乗る中、産業用ロボットはどのようにして主導権を握ることができるのでしょうか?

インテリジェント製造(IM)は、インテリジェントマシンと人間の専門家で構成された人間と機械の統合イン...

...

...