アリババDAMOアカデミーが自動運転の技術的困難を突破:3D物体検出の精度と速度の両方を実現

アリババDAMOアカデミーが自動運転の技術的困難を突破:3D物体検出の精度と速度の両方を実現

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

最新のニュースとしては、アリババDAMOアカデミーが、今度は自動運転における3D物体検出の分野で新たな研究の進歩を遂げたという。

DAMOアカデミーの研究者らは、汎用性の高い高性能検出器を提案した。自動運転分野で最も重要なテストセットの1つであるKITTI鳥瞰図(BEV)データセットでは、検出速度が25FPSに達し、一気に1位になった。2位のソリューションと比較すると半分以上であり、精度は他の単段検出器をはるかに上回っていた。 3D物体検出において、精度と速度を両立させたのは初めてだと言えます。

DAMOアカデミーの研究チームは、「検出器は自動運転システムの中核部品の一つだが、この分野では革新とブレークスルーが不足していた。今回、3D検出の精度と速度の向上を達成し、自動運転システムの安全性向上に貢献するだろう」と述べた。

実験結果から判断すると、明らかに順調に進んでおり、研究を完了した中心人物(第一著者)はDAMOアカデミーのインターン生です。

同時に、この研究は同業者から認められ、コンピュータービジョン分野のトップカンファレンスであるCVPR 2020にも取り上げられました。彼らはどうやってそれを行うのでしょうか? Alibaba Damo Academyが提供する解釈の助けを借りて、それらを一つずつ見ていきましょう。

精度とスピードの両方を実現するにはどうすればよいでしょうか?

周知のとおり、通常の 2D 画像認識アプリケーションとは異なり、自動運転システムには精度と速度に対する要求が厳しく、周囲の環境にある物体を素早く識別するだけでなく、3 次元空間内で物体の位置を正確に特定する必要もあります。

通常、センサーとアルゴリズム モデルだけでは、視覚認識の精度と速度のバランスをとることはできません。したがって、検出器は自動運転システムの安全性を向上させる重要な要素になります。

長年の研究を経て、現在業界で主流となっている単段検出器は検出速度は優れているものの、検出精度が不十分であることがわかりました。

これが、DAMO アカデミーの研究の出発点です。両方の世界の最良の部分を実現する方法を見つけることです。

彼らが提案したアイデアは、2 段階検出器におけるきめ細かい特徴特性評価のアイデアを、1 段階検出に移植するというものです。

彼らのモデルでは、展開用の検出器、つまり推論ネットワークは、バックボーン ネットワークと検出ヘッドで構成されています。

バックボーン ネットワークは、高いセマンティクスを持つボクセルの特徴を抽出するために 3D スパース ネットワークとして実装されています。検出ヘッドはボクセルの特徴を鳥瞰図の表現に圧縮し、その上で 2D 完全畳み込みネットワークを実行して 3D オブジェクト ボックスを予測します。

トレーニング中、研究者たちは補助ネットワークを使用して、シングルステージ検出器のボクセル特徴をポイントレベル特徴に変換し、特定の監視信号を適用しました。

実装では、畳み込み特徴内の非ゼロ信号を元のポイントクラウド空間にマッピングし、各ポイントで補間して畳み込み特徴のポイントレベルの表現を取得します。これにより、畳み込み特徴には構造認識機能も備わり、検出精度が向上します。

モデル推論を行う際、補助ネットワークは計算に参加せず(切り離され)、単段検出器の検出効率を保証します。

さらに、彼らは、シングルステージ検出器に存在する「ボックス信頼性不一致」問題に対処するために使用される、部品感知ワーピング (PSWarp) というエンジニアリングの改善も提案しました。

基本的な考え方は、サンプラーを使用して、生成されたサンプリング グリッドで対応するローカル感度特徴マップをサンプリングし、位置合わせされた特徴マップを生成することです。最終的に信頼性を反映できる特徴マップは、K 個のアライメントされた特徴マップの平均です。

2段階法と同等の精度を達成できる1段階法

Alibaba DAMO Academy の研究者は、KITTI データセットで自らの方法の有効性を評価しました。下の図(PR 曲線)では、実線が 2 段階方式、点線が 1 段階方式を表しています。

DAMO Academyが提案する1段階法(黒)は、2段階法と同等の精度を達成できることがわかります。

下の図は、KITTI Bird's Eye View (BEV) および 3D テスト セットの結果を示しています。

彼らが提案した方法は、追加計算量を増やすことなく、精度を維持しながら25FPSの検出速度を達成できることがわかります。具体的な検出結果は以下の通りです。

共著者の二人は、どちらもDAMOアカデミーの研究インターンです。

「点群からの構造認識シングルステージ3Dオブジェクト検出」と題されたこの研究論文は、アリババ・ダモ・アカデミーと香港理工大学の5人の研究者によって執筆された。

第一著者は、アリババDAMOアカデミーの研究インターンであるChenhang He氏です。彼は現在、香港理工大学で博士号取得を目指しており、2022年に卒業する予定です。

彼の指導者は、DAMO アカデミーの上級研究員であり、香港理工大学電子計算学部の教授、IEEE フェローであり、本研究の責任著者でもある張磊氏です。

もう一人の筆頭著者である Hui Zeng 氏も Alibaba DAMO Academy の研究インターンであり、Zhang Lei 氏の博士課程の学生でもあり、今年卒業する予定である。

他の著者には、DAMO アカデミーの上級研究員であり IEEE フェローである Hua Xiansheng 氏と、DAMO アカデミーの上級アルゴリズム専門家である Huang Jianqiang 氏が含まれます。

<<:  フォーブス誌の2020年AIに関するトップ10予測: 人工知能はますます「疎外」されつつある

>>:  AIは賢くなり、これらの新しい技術は流行の防止と生産の再開に役立つだろう

ブログ    
ブログ    

推薦する

AI画像拡大ツール、完全無料!ワンクリックで不良ピクセルにさよなら

写真は思い出を保存するための最も便利なツールの一つです。テクノロジーのおかげで、ある意味カメラとも言...

AI プロジェクトの成功を測定するために使用できる KPI は何ですか?

調査会社IDCが2020年6月に発表した調査レポートによると、人工知能の取り組みの約28%が失敗して...

トヨタのAIの旅:車だけにとどまらない

今日の自動車メーカーは、市場での地位を今後も維持したいのであれば、強力な自動運転技術を確立しなければ...

ジェネレーティブAIがファッション業界にもたらす変化

業界ではデザインやスキンケアに AI 技術が活用されています。一部の企業は、生成ツールを超えて、コン...

自動運転の倫理的ジレンマを解決する: 道徳規範を数式に変換する

暴走列車が線路を走っています。5人が線路に縛られており、列車に轢かれそうになっています。この時点で、...

OpenAIの最新の評価額は半年で3倍になり、800億ドルを超える

ウォール・ストリート・ジャーナル紙は、事情に詳しい関係者の話として、OpenAIは同社を800億~9...

インテリジェント交通の時代に踏み出すには、これら 3 つのことをうまく行う必要があります。

[[438413]]都市の生命線であり動脈である交通の発展は極めて重要です。しかし、近年、都市化が...

農業用トラクターと自動運転技術が出会うとき

ラスベガスで開催された2022年コンシューマーエレクトロニクスショー(CES)で、ジョンディアは、ジ...

アルゴリズム学習のための動的プログラミング戦略の紹介

1. コンセプト動的プログラミング戦略、分割統治戦略。貪欲戦略と同様に、通常は最適解問題を解決するた...

DeepMindの強化学習法はAIと人間のより良いコラボレーションを約束する

[[437442]] [51CTO.com クイック翻訳]囲碁からスタークラフト、Dotaまで、多く...

人工知能が製造業に与える4つの影響

人工知能はあらゆるところに存在し、私たちは気づかないうちに日常生活でそれを使用しています。人工知能は...

人工知能と創造性:人間と機械の境界線が曖昧になる

今日の世界では、人工知能(AI)が私たちの日常生活にますます統合されつつあります。 SiriやAle...

機械学習がシステム設計に与える影響: 学習したインデックス構造の簡単な分析

顔認識からチェックイン、さまざまなアプリケーションの「あなたの好きなものを推測」まで、現在の機械学習...

AIと5Gを組み合わせてIoTの収益を最大化する方法

[[402984]]研究によると、人工知能と 5G テクノロジーを組み合わせることで、通信会社は I...

初め!プログラム可能なメモリスタコンピュータが誕生しました!

[[271164]]人類史上初のプログラム可能なメモリスタ コンピュータが誕生しました。音声コマン...