警告！長距離LiDAR認識

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

1. はじめに

昨年ツーソン AI デーを開催して以来、私は長年、近年の遠距離知覚の分野で行われた研究を文章でまとめたいと思っていました。時間ができたので、過去数年間の研究プロセスを記録する記事を書きたいと思います。この記事で言及されている内容はすべてツーソンAIデーのビデオ[0]と公開された論文に掲載されており、特定のエンジニアリングの詳細やその他の技術的な秘密は含まれていません。

周知のとおり、ツーソンはトラックの自動運転に取り組んでいます。トラックの制動距離や車線変更時間は、自動車よりもはるかに長いです。そのため、ツーソンが他の自動運転企業とは異なる独自の技術を持っているとすれば、その1つは長距離認識であるに違いありません。私はツーソンで LiDAR 認識を担当しているので、長距離認識のための LiDAR の使用について具体的にお話しします。

私がこの会社に入社した当時、LiDAR の主流は BEV ソリューションであるという認識が一般的でした。しかし、このBEVは皆さんがよく知っているBEVではありません。私個人としては、テスラのBEV認識は「BEV空間におけるマルチビューカメラ融合技術」と呼ぶべきだと思います。ここでのLiDAR BEVとは、LiDARポイントクラウドをBEV空間に投影し、2D畳み込み+2D検出ヘッドを接続してターゲットを検出することを指します。 BEVソリューションに関して私が見つけることができた最も古い記録は、CVPR17でBaiduが発表したMV3D論文[1]でした。私が知るほとんどの企業が実際に使用しているソリューションを含むその後のほとんどの作業は、最終的に検出のためにBEV空間に投影する必要があり、一般的にBEVソリューションの一部として分類できます。

MV3Dで使用されるBEVビュー機能[1]

BEV ソリューションの大きな利点の 1 つは、成熟した 2D 検出器を直接適用できることですが、認識範囲が制限されるという致命的な欠点もあります。上図からわかるように、2D検出器を使用しているため、2D特徴マップを形成する必要があります。このとき、距離しきい値を設定する必要があります。実際には、上図の範囲外にもLiDARポイントが残っていますが、この切り捨て操作によって破棄されます。ポイント全体をカバーするまで距離しきい値を増やすことはできますか?やむを得ずそうすることは不可能ではありませんが、LiDAR のスキャンモード、反射強度 (距離に応じて 4 乗に減衰)、オクルージョンなどの問題により、遠距離のポイントクラウドは非常に少ないため、そうすることは費用対効果が高くありません。

この BEV ソリューションの問題は、学術界ではあまり注目されていません。これは主にデータセットの問題によるものです。主流のデータセットの注釈範囲は通常 80 m 未満です (nuScenes 50 m、KITTI 70 m、Waymo 80 m)。この距離では、BEV 機能マップをそれほど大きくする必要はありません。しかし、業界で使用されている中距離LiDARは一般的に200mのスキャン範囲を実現でき、近年では500mのスキャン範囲を実現できる長距離LiDARもいくつか導入されています。特徴マップの面積と計算の複雑さは距離の 2 乗に比例して増加することに注意してください。BEV ソリューションでは、500 m どころか 200 m でも計算の複雑さはほとんど耐えられません。

公開データセット内の LIDAR のスキャン範囲。 KITTI (赤い点、70m) vs. Argoverse 2 (青い点、200m)

BEV ソリューションの限界を認識した後、私たちは何年も研究を重ね、ついに実行可能な代替手段を見つけました。研究の過程は順風満帆ではなく、多くの挫折を経験しました。論文やレポートでは、成功についてのみ語られるのが普通で、失敗については語られません。しかし、失敗の経験も貴重なので、ブログはより良い媒体になりました。以下、時系列でその経緯をお話しします。

2. ポイントベースのソリューション

CVPR19では、香港中文大学がポイントベース検出器PointRCNN[2]を発表しました。これは、ポイントクラウド上で直接計算を実行します。BEVの写真を撮るプロセスなしで、ポイントクラウドがスキャンされる場所を計算します。したがって、このタイプのポイントベースのソリューションは、理論的には長距離認識を実現できます。

しかし、試してみると問題が見つかりました。KITTI フレーム内のポイントクラウドの数は、ポイントの損失をあまり出さずに検出するために 16,000 ポイントにダウンサンプリングできますが、当社の LiDAR の組み合わせでは、1 つのフレームに 100,000 ポイント以上あります。10 倍にダウンサンプリングすると、検出精度に明らかに大きな影響が出ます。サンプリングを削減しない場合、PointRCNN のバックボーンでは O(n^2) の演算が行われることになり、ベブショットを取らないとしても計算量は依然として耐えられないほどになります。これらの時間のかかる操作は、主にポイントクラウド自体の無秩序が原因であり、ダウンサンプリングや近傍検索に関係なく、すべてのポイントをトラバースする必要があることを意味します。関係するオペレーションが多数あり、それらはすべて最適化されていない標準的なオペレーションであり、短期的にはリアルタイムに最適化できる見込みがないように思われるため、このルートは放棄されました。

しかし、この研究は無駄ではありませんでした。バックボーンの計算は大きすぎましたが、その第2段階はフォアグラウンドでのみ実行されたため、計算量は比較的少なかったのです。 PointRCNN の第 2 段階を BEV ソリューションの第 1 段階検出器に直接適用すると、検出フレームの精度が大幅に向上します。申請の過程で、小さな問題も見つかりました。それを解決した後、それをまとめてCVPR21で公開した記事[3]に掲載しました。こちらのブログでも読むことができます。

Feng Wang: LiDAR R-CNN: 高速で汎用的な2段階3D検出器

3. レンジビューソリューション

ポイントベースのソリューションが失敗した後、私たちは Range View に注目しました。当時の LiDAR はすべて機械的に回転していました。たとえば、64 ラインの LiDAR は、異なるピッチ角で 64 列のポイントクラウドをスキャンします。各列が 2048 個のポイントをスキャンすると、64 x 2048 の距離画像を形成できます。

RV、BEV、PVの比較

レンジビューでは、ポイントクラウドはまばらではなく、密に配置されます。遠方のターゲットはレンジ画像では小さくなりますが、破棄されるわけではないため、理論的には検出可能です。

画像に似ているためか、RVの研究はBEVよりも早く始まりました。私が見つけた最も古い記録は、Baidu [4]が発表した論文でした。Baiduはまさに自動運転の黄埔軍事アカデミーです。RVとBEVの両方の最も古いアプリケーションは、Baiduから生まれました。

そこで試してみたところ、BEV 方式と比較すると、RV の AP は 30 ～ 40 ポイント低下しました... 2D 距離画像での検出は実際には問題ありませんでしたが、出力された 3D ボックス効果は非常に貧弱であることがわかりました。 RV の特性を分析してみると、物体のスケールが不均一、前景と背景の特徴が混在、遠くの対象物の特徴が不明瞭など、画像の欠点をすべて備えていると感じました。しかし、画像の豊富な意味的特徴という利点はなかったので、当時はこのソリューションに悲観的でした。

結局、正社員は実装作業を行わなければならないので、こうした探索的な課題はインターン生に任せたほうが良いでしょう。その後、私たちは2人のインターンを採用し、この問題に一緒に取り組みました。公開データセットで試してみると、結果も30ポイント低下することがわかりました。幸いなことに、2人のインターンは非常に有能でした。一連の努力と他の論文の参照、いくつかの詳細の修正を経て、彼らは結果を主流のBEV法と同等のレベルまで改善しました。最終的に、この論文はICCV21[5]に掲載されました。

ポイントの数が増えたにもかかわらず、問題は完全に解決されたわけではありませんでした。当時、ライダーでは信号対雑音比を改善するためにマルチフレームの融合が必要であることはコンセンサスとなっていました。遠距離のターゲットではポイントの数が少ないため、情報量を増やすためにフレームを積み重ねる必要がありました。 BEV ソリューションでは、マルチフレームの融合は非常に簡単です。入力ポイントクラウドにタイムスタンプを追加し、複数のフレームを重ね合わせるだけです。ポイントを増やすためにネットワーク全体を変更する必要はありません。ただし、RV では同様の効果を実現するために多くの変更が加えられていません。

この頃、LiDAR もハードウェア技術の面では機械的な回転から固体/半固体へと移行しました。ほとんどの固体/半固体 LiDAR は距離画像を形成できなくなり、無理に距離画像を構築すると情報が失われるため、この道は最終的に断念されました。

4. スパースボクセルソリューション

前述のように、ポイントベースのソリューションの問題は、ポイントクラウドの配置が不規則であるため、ダウンサンプリングや近傍検索などの問題ですべてのポイントクラウドを走査する必要があり、計算が過度に複雑になることです。BEV ソリューションでは、データは規則的ですが、空白領域が多すぎるため、計算が過度に複雑になります。これら 2 つを組み合わせて、ドットをボクセル化して規則的にし、無効な計算を防ぐためにドットを表現しないという方法が実現可能なパスであると思われます。これがスパースボクセルソリューションです。

SECOND[6]の作者であるYan YanがTucsonに加わったため、初期の段階ではsparse convバックボーンを試しました。しかし、spconvは標準のopではないため、独自に実装したspconvはリアルタイム検出を行うにはまだ遅すぎ、場合によってはdense convよりも遅いこともありました。そのため、保留にしていました。

その後、500mをスキャンできる最初のLiDAR、Livox Tele15が登場しました。長距離LiDAR認識アルゴリズムが緊急に必要でした。BEVソリューションを試したところ、高価すぎたため、spconvソリューションを試しました。Tele15のFOVは比較的狭く、遠くの点群は非常にまばらであるため、spconvではリアルタイムを実現するのがやっとでした。

ただし、BEV を使用しない場合、検出ヘッドは 2D 検出でより成熟したアンカーまたは中心割り当てを使用できません。これは主に、LIDAR がオブジェクトの表面をスキャンし、必ずしも中心にポイントがあるわけではないためです (下図を参照)。ポイントがなければ、当然、前景ターゲットを割り当てることはできません。実際、社内ではさまざまな課題解決方法を試してきました。ここでは、実際に会社で使用された方法については詳しく説明しません。その後、インターンが課題解決方法を試し、NIPS2022で発表しました[7]。彼の説明を読むと、次のようになります。

月は分離について何も知らない：完全に疎な3D物体検出器

しかし、このアルゴリズムを前方 500 m、後方 150 m、左右の LiDAR の組み合わせに適用しようとすると、まだ不十分です。たまたま私のインターンが以前、トレンドを追ってSwin Transformerのアイデアを借りてSparse Transformer[8]に関する記事を書いていました。20点以上のデータを復元するのにもかなりの労力がかかりました（インターンの指導に感謝します、tql）。その時、Transformer法は依然として不規則な点群データに非常に適していると感じたので、会社のデータセットでも試してみました。

残念ながら、この方法は同社のデータセット上で常にBEV型方法より遅れており、その差は5ポイント近くあります。今振り返ってみると、まだ習得していないトリックやトレーニング手法があるかもしれません。理論上、Transformerの表現力はconvに劣っていませんが、その後再度試してみませんでした。しかし、この度、assign方式が最適化され、多くの計算が削減されたため、再度spconvを試してみたいと思います。結果は意外なものでした。Transformerをspconvに置き換えるだけで、近距離ではBEV型方式と同等の精度を実現しつつ、遠距離の対象も検出できるようになりました。

Yan Yanがspconv[9]の2番目のバージョンを作成したのもこの頃で、速度が大幅に向上しました。そのため、計算遅延がボトルネックではなくなりました。最終的に、長距離LiDAR認識はすべての障害物をクリアし、車上でリアルタイムに実行できるようになりました。

その後、LiDARの配置を更新し、スキャン範囲を前方500m、後方300m、左右150mに拡大しました。このアルゴリズムもうまく機能しています。今後、コンピューティング能力が継続的に向上すれば、コンピューティングの遅延はますます問題にならなくなると思います。

最終的な長距離検出効果を以下に示します。また、Tucson AI Day のビデオの 01:08:30 あたりを視聴して、動的検出効果を確認することもできます。

これは最終的な融合結果ですが、当日は霧のため画像の視認性が非常に低かったため、結果は基本的に LiDAR 認識から得られたものです。

5. 追記

ポイントベースの方法から距離画像法、そしてスパースボクセルベースのTransformerとスパースconv法に至るまで、長距離知覚の探求は順風満帆とは言えず、むしろ困難に満ちた道と言えます。結局のところ、私たちが今日この地点に到達できたのは、コンピューティング能力の継続的な向上と多くの同僚の懸命な努力のおかげです。ツーソンの主任科学者 Nai’an Wang 氏と、ツーソンの同僚やインターン全員に感謝の意を表したいと思います。ここでのアイデアやエンジニアリングの実装のほとんどは、恥ずかしながら私が考案したものではありません。私は単に、より橋渡し的な役割を果たしただけです。

こんなに長い記事を書くのは久しぶりです。面白い話というよりは日記のような感じです。近年、L4 に取り組むことを主張する同僚はますます少なくなり、L2 の同僚は徐々に純粋な視覚研究に目を向けています。LiDAR 認識は明らかに軽視されています。私は今でも直接測距センサーを追加する方がよい選択であると固く信じていますが、業界の人々はますますそうは考えていないようです。新人の履歴書にBEVやOccupancyが増えていくのを見ると、LiDAR perceptionがいつまで続くのか、自分がいつまで続くのかわかりません。このような記事を書くことで記念になります。

夜遅くに泣いていて、何を言えばいいのか分かりませんでした。どうか許してください。

<<: 人工知能を活用するメリットと課題

>>: データは王様です！データを通じて段階的に効率的な自動運転アルゴリズムを構築するにはどうすればよいでしょうか?