MITチームの最新研究により、LiDARと2Dマップのみでエンドツーエンドの自動運転が実現

自動運転に関して言えば、当然のことながら「視覚アルゴリズム」派と「ライダー」派の論争が思い浮かびます。前者はカメラの純粋な視覚認識に依存し、後者はレーザーレーダー (LiDAR) の正確な測距を重視します。 2021年には23機種にLIDARが搭載される予定だが、そのほとんどは高解像度の画像情報の補足として使われる。

最近、MIT のコンピュータサイエンスおよび人工知能研究所 (CSAIL) のチームが、機械学習に基づく自動運転システムの実証に成功しました。このエンドツーエンドのフレームワークは、LiDAR で取得した生の 3D ポイントクラウドデータと、携帯電話に似た低解像度の GPS マップのみを使用して自動ナビゲーションを実行でき、堅牢性が大幅に向上しています。この研究は、LiDAR を活用した自動運転技術にとって大きな意義を持ちます。

[[402976]]

図: LIDAR に基づくエンドツーエンドのナビゲーション。 (出典: MIT CSAIL)

自動運転には車両のリアルタイム制御が必要であり、そのためには自動制御のために生のセンサーデータから直接リアルタイムの決定を生成できるエンドツーエンドの学習が必要です。さらに、現実世界に導入できる自動運転システムは、正確で効率的であるだけでなく、堅牢性も必要であり、エンドツーエンドのモデルは外乱に対して非常に敏感です。

CSAIL の以前の研究では、カメラからの視覚データと大まかな位置特定から生成されたスパース地形マップのみを使用して、ポイントツーポイントナビゲーションを実行できることが示されました。現在、コンピュータービジョンは照明などの環境変化の影響にうまく対応できません。それに対して、LiDAR センサーはより正確な距離 (深度) 情報を提供できます。

しかし、LiDAR の欠点の 1 つは、3 次元データに必要なデータと計算量が膨大になることです。たとえば、一般的な 64 チャネルセンサーは 1 秒あたり 200 万を超えるデータポイントを生成できますが、3D モデルを推論するには 2D 画像を推論する場合の 14 倍の計算量が必要です。ただし、データを 2D 形式に折りたたむと、情報が大幅に失われます。

そこで、MIT チームは、スパース畳み込みカーネルとハードウェア認識モデルに基づいて、Fast-LiDARNet と呼ばれるニューラルネットワークを設計しました。ポイントクラウドのサンプリングレートを積極的に減らすことで、ニューラルネットワークは完全な LiDAR ポイントクラウドを効率的に学習し、リアルタイムで制御の決定を下すことができます。

現実の世界では、センサーの問題により、瞬時の判断が不可能になる場合があります。この問題に対処するため、MIT チームは「ハイブリッド証拠融合」法を提案しました。これは、証拠のディープラーニングを使用して決定の不確実性を単純かつ直接的に予測し、制御決定を重み付けしてインテリジェントに融合し、信頼性の高いステアリング操作を実現するものです。

図 2: 効率的で堅牢な LiDAR ベースのエンドツーエンドのナビゲーションフレームワーク。（出典：論文）

研究者らは、実物大の車両でLIDARベースのエンドツーエンドの自動運転システムを評価し、優れた車線安定化機能とナビゲーション機能を実証した。このシステムにより堅牢性が大幅に向上し、制御の喪失による人間による操作の引き継ぎ回数が削減されます。

複数のテクノロジーが自動化システムの利点を保証します

効率性の向上により、自動運転の正確な制御が可能になります。「私たちはアルゴリズムとシステムの両方の観点からソリューションを最適化し、既存の3D LIDAR方式と比較して累積9倍の加速を達成しました」と、論文の共同筆頭著者でありMITの博士課程の学生であるZhijian Liu氏は述べています。

高速化は、一方ではエンドツーエンドモデル、他方ではスパース畳み込みカーネルによるものです。このカーネルは、チームが以前に提案した3DポイントクラウドコンピューティングモジュールSparse Point Cloud-Grid Convolution（SPVConv）から派生したものです。3次元スパース畳み込み（3D SparseConvolution）を使用して、スパーステンソル表現の下で隣接ポイント情報を処理することにより、大規模な屋外シーンでも細かいディテールを保持しながら、計算量を大幅に削減し、計算時間を短縮できます。

MIT チームの目標は常に、「新しい環境での運転に堅牢な自律ナビゲーションを実現する」ことでした。 2018年に開発され、3Dマップなしで無人運転車がこれまで見たことのない道路を走行できるようにするMapLiteから、シンプルな地図とカメラの視覚データのみを使用して新しい複雑な環境で自動車が自律走行できるようにする2019年のエンドツーエンドの機械学習システム、そしてLiDARデータに基づく今日のエンドツーエンドの自律走行システムまで、チームは当初の目標を達成しました。

図: 機械学習に基づくエンドツーエンドの自動運転システムのアーキテクチャ図。（出典：論文）

堅牢性の向上により、新しいシステムが現実世界で実現可能になります。研究者らは、新しいハイブリッド証拠融合戦略により、システムによってテスト中にドライバーが車の制御を引き継ぐ頻度が減り、深刻なセンサー故障にも対処できることを示した。「モデルの不確実性に基づく制御予測を融合することで、システムは予期せぬ出来事に対応できる」とMITのダニエラ・ラス教授は語った。

トンネルを運転しているとき、トンネルを出た瞬間に突然太陽の光にさらされ、まぶしさのために一時的に視界が失われる可能性があると想像してください。この新しいシステムは、自動運転車のカメラや悪天候時のライダーセンサーの同様の問題を解決します。意思決定の際にこの予測に重み付けすることで、センサーデータが不正確な状況 (トンネルを出るなど) でも、システムは信頼できない予測を無視できます。

図 1: LiDAR のみを使用したモデルの実際の評価。赤い点は、人間の介入が必要な状況を示しています。（出典：論文）

高度な自動運転の未来

将来の自動運転車には、色データを収集するためのカメラ、高解像度の近距離認識のための LiDAR、悪天候時の長距離認識のための RADAR が搭載される予定です。このセンサーセットの中で、LiDAR が最も価値があり重要になります。

高度な自動運転技術（L3以上）を実現するために最も重要なコンポーネントは、他でもない「LIDAR」です。これは、自動運転エンジニアリングコミュニティでは暗黙の「公理」となっています。 3D 構築機能と正確な奥行き認識により、産業測量と自動運転における LiDAR の揺るぎない重要な位置が決まります。

レーザーは平行光なので、発射後に障害物によって光が遮られても、その伝播は平行のままになります。つまり、目の前にいても 100 メートル離れていても、焦点を合わせることができます。無数のレーザーポイントが、物体の距離に応じて平面上にさまざまな深さの線状の影を投影し、鉛筆スケッチのような 3D ポイントクラウドマップを形成します。

LiDARには未解決の問題がいくつか残っているため、車載LIDARセンサーはまだ十分に活用されていません。しかし、MIT チームによるこの最新の研究は、将来の実用化への希望を与えてくれます。速度、精度、堅牢性のいずれの面でも、複数のテクノロジーを統合することで優れた自動運転機能が実現し、実践者にとってのアプリケーションのヒントにもなると考えています。次に、チームはシステムを拡張し続け、悪天候や他の車両との動的な相互作用など、現実世界の複雑さを追加する予定です。

論文リンク: https://arxiv.org/abs/2105.09932

<<: AIと5Gを組み合わせてIoTの収益を最大化する方法

>>: 自然言語処理（NLP）の歴史と方向性