2024年の最大の落とし穴は?ディープラーニングに基づくエンドツーエンドの自動運転の最新レビュー

2024年の最大の落とし穴は?ディープラーニングに基づくエンドツーエンドの自動運転の最新レビュー

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文

最新のエンドツーエンドの自動運転レビューが発表されました。ちなみに、この論文の筆頭著者であるカーネギーメロン大学の Apoorv Singh 氏は、今年、すべて自動運転に関する 7 つのレビューを発表しており、私はこれを皆さんにお勧めします。一言で言うと、「素晴らしい!」

個人ホームページ: https://www.apoorvsingh.com/research-papers

  1. ディープラーニングを使用したエンドツーエンドの自動運転:体系的レビュー
  2. 目的指向型人工知能に関するレビュー
  3. 物体検出のためのビジョントランスフォーマーのトレーニング戦略
  4. 視覚による軌道予測:調査
  5. 自動運転のためのトランスフォーマーベースのセンサーフュージョン:調査
  6. 自動運転のためのサラウンドビュービジョンベースの 3D 検出: 調査
  7. ロボット工学における BEV 検出のためのビジョンとレーダーの融合: 調査

まとめ

エンドツーエンドの自動運転は、生のセンサー入力データやその他のメタデータを事前情報として受け取り、自車両の制御信号や計画された軌道を直接出力する、完全に微分可能な機械学習システムです。この論文では、物体検出、シーンの意味的理解、物体追跡、軌道予測、軌道計画、車両制御、社会的行動、コミュニケーションなど、エンドツーエンドのタスクを達成するための最新の機械学習ベースの技術をすべて体系的にレビューします。この論文では、最近の完全に微分可能なエンドツーエンドの強化学習とディープラーニングベースの技術に焦点を当てています。私たちの論文では、重要なアプローチをグループ化し、その研究動向を提示することで、重要なアプローチの分類法も確立しています。最後に、この調査では未解決の課題を浮き彫りにし、このテーマに関するさらなる研究を促す将来の方向性を示唆しています。

要約すると、この論文の主な貢献は次のとおりです。

  • エンドツーエンドの自動運転アプローチを理解するための包括的な背景を提供します。まず、自動運転タスクに適用された最初のテクノロジーの概要を説明します。さらに、モジュール式自動運転問題の解決に対する競合する代替アプローチがまとめられています。エンドツーエンドの自動運転タスクの評価とベンチマークについても説明します。
  • 次に、模倣学習、強化学習、補助タスクを備えたエンドツーエンドの自動運転、教師と生徒のパラダイムの 4 つの部分に分けて、エンドツーエンドのアプローチを広範囲に紹介します。さらに、詳細に入る前に、数学的モデリングを使用して読者にいくつかの理論的な知識を紹介します。
  • 取り上げたすべての方法とアプローチに関する主要な課題について議論し、読者に将来の研究アイデアを刺激します。さらに、エンドツーエンドの自動運転研究の次のステップになると予想されるいくつかの未解決の研究課題についても説明します。

自動運転へのモジュール式アプローチ

従来のモジュール式自動運転ソフトウェアは、さまざまなサブモジュールで構成された複雑なシステムであり、各サブモジュールは運転プロセスの特定の側面を担当します。これらのサブモジュールは連携して動作し、人間の介入なしに車両が移動し、環境を認識し、意思決定を行うことを可能にします。自動運転ソフトウェアの主なサブモジュールには次のものがあります。

  • マッピングと HD マッピング: 道路や周囲の環境の詳細で高精度な地図の作成と維持を指します。人間の運転手が使用する従来のナビゲーション マップとは異なり、自動運転マップははるかに詳細で、自動運転システムの特定のニーズに不可欠な情報が含まれています。これらには、車線の境界、道路の曲率、交通標識、交通信号、車線変更ルール、道路の傾斜に関する情報が含まれます。 HD マップはセンチメートルレベルの精度で作成され、自律走行車が下流のローカリゼーション スタックで環境内で正確に位置を特定できるようにします。
  • 知覚: 自律走行車が周囲の状況を理解し、解釈する能力を指します。これには、センサー融合、車両および歩行者の検出、ピクセルレベルのセグメンテーション、信号機やその他の道路標識の検出などのタスクが含まれます。これは主に、複数のカメラ、LIDAR、レーダーなどのセンサーの組み合わせに基づいています。
  • ローカリゼーション: 自律走行車が環境内での位置と向き (姿勢) を正確に判断する能力を指します。一般的に使用される主要コンポーネントは、全地球測位システム (GPS)、慣性計測装置 (IMU)、およびマップ マッチングによる認識センサーです。マップ マッチングでは、センサー データを高解像度のマップと比較して、車両の位置推定を精度よく行います。
  • オブジェクト追跡: 自律走行車が環境内のオブジェクトの過去の動きを監視する機能を指します。これは、過去の状態が重要となる下流のタスクで予測を行うために重要です。追跡は、遮蔽された道路上の物体にとって非常に重要です。なぜなら、物体が知覚的に見えなくても、物体の予測を維持できるからです。追跡には、データの関連付けと感覚出力の運動学的予測が含まれます。
  • 行動計画(軌道予測):歩行者、自転車、他の車、さらには動物など、さまざまな道路利用者の将来の行動や動きを予測する自動運転車の能力を指します。
  • 経路計画: 障害物を回避し、交通規制を遵守し、環境の変化を考慮しながら、自律走行車が現在の位置から目的の目的地まで移動するための安全で最適な経路を決定する自律走行車の能力を指します。経路計画アルゴリズムは、車両の現在の位置、目的の目的地、地図とセンサーの情報に基づいて、障害物を回避しながら車両を目標地点に接続する予備経路を生成します。コスト関数では、距離、快適性、安全性、エネルギー効率、衝突リスク要因が考慮されます。アルゴリズムは、このコストを最小限に抑えるパスを検索します。モジュラー パイプラインにおける最も一般的な計画アプローチでは、複雑なルールベースの設計が使用されますが、これは運転中に発生するさまざまな状況に対処するには効果がないことがよくあります。
  • 意思決定: 安全性、効率性、交通ルールの遵守を優先しながら、さまざまな交通シナリオで適切なアクションと動作を選択する自動運転車の能力を指します。これはルート計画と密接に連携し、リスク評価、シナリオ分析、行動予測、交通規則や規制、倫理的配慮などが含まれます。
  • 制御: 高レベルの決定と計画された軌道を、車両アクチュエータが車両を物理的に操作するための特定のアクションに変換するメカニズムとアルゴリズムを指します。これらの制御により、安定性、安全性、快適性を維持しながら、車両が意図した経路に沿って加速、減速し、さまざまな運転シナリオに対応できるようになります。制御は、意思決定と車両の物理的な動作の間のギャップを埋めます。これには、アクチュエーター、車両ダイナミクス、速度制御、安定性とハンドリング、スムーズな移行、人間の快適性などのサブコンポーネントが含まれます。
  • シミュレーションとテスト: 実際の道路に自動運転システムを導入する前に、そのパフォーマンス、安全性、機能性を評価することが重要です。

これらのシステムとその依存関係を図 2 に示します。

ベンチマーク/評価

ソフトウェアを開発する前に、まずテスト要件を開発する必要があります。主な方法に入る前に、エンドツーエンドのシステムの評価要件を見てみましょう。評価は、クローズドループ評価とオープンループ評価の 2 種類に分けられます。前者はオンライン シミュレーターで定義されますが、後者は人間の運転データセットでオフラインで計算されます。エンドツーエンドのシステムは、CARLA などのオンライン シミュレーターで簡単に評価できます。多くのモジュール認識技術は、より高価なオフライン データセットに依存しています。

閉ループ評価を図 3 に示します。

オープンループ評価を図 4 に示します。

方法

A. 模倣学習

模倣学習では、エージェントは人間の専門家や既存のモデルが示す動作を模倣することでタスクを実行することを学習します。エージェントは、報酬関数を明示的に設計したり、最適なポリシーを定義したりするのではなく、専門家の行動を観察して模倣することで学習します。模倣学習には、エージェントが試行錯誤を通じて学習する強化学習に比べて、人間の専門知識を活用して複雑なタスクを解決する能力や、より安全で説明可能な動作を提供できる可能性など、いくつかの利点があります。しかし、模倣学習には、専門家のデモンストレーションのエラーに敏感であったり、専門家のデモンストレーションの範囲を超えた新しい戦略を常に探求できるわけではないなどの限界もあります。トレーニング中、エージェントの目標は、入力された観察から専門家が示すアクションへのマッピングを学習することです。これは多くの場合、教師あり学習手法を使用して行われ、エージェントのモデルは、予測されたアクションと専門家のデータセット内のアクションとの差を最小限に抑えるようにトレーニングされます。同様に、評価時には、訓練されたエージェントのパフォーマンスが新しい未知のデータに基づいて評価され、専門家の動作を模倣する能力が判断されます。この評価には、エージェントの動作を専門家の動作と比較したり、エージェントがタスクを正常に完了したかどうかを評価したりすることが含まれます。模倣学習はさらに行動クローンと逆強化学習に分けられます。

ただし、IRL と模倣学習にも独自の課題と制限があります。

  • 専門家の行動における曖昧さ: IRL では、観察された専門家の行動が何らかの基礎となる報酬関数に関して最適であるか、最適に近いと想定されます。しかし、現実世界の専門家の行動はノイズが多く、最適ではなかったり、報酬関数で捉えられない要因の影響を受けたりする可能性があり、その結果、推定される報酬関数に曖昧さが生じます。
  • 解決策の非一意性: 複数の報酬関数が、観察された専門家の行動の同じセットを説明できます。この非一意性により、どの報酬関数が「正しい」報酬関数であるかを判断することが困難になり、学習された報酬関数とその後のポリシーに不確実性が生じる可能性があります。
  • 専門家によるデモンストレーションの制限: IRL は専門家によるデモンストレーションの質と量に大きく依存しています。データセットが小さい、偏っている、または幅広いシナリオをカバーしていない場合、学習された報酬関数は、実際の基礎となる報酬構造を正確に表さない可能性があります。
  • 次元の呪い: 状態空間が大きくなり複雑になるにつれて、次元の呪いにより、限られた専門家データから報酬関数を正確に回復することがますます困難になります。高次元状態空間では、報酬関数の複雑さを捉えるために大量のデータが必要です。
  • 計算の複雑さ: 多くの IRL アルゴリズムには、特に大きな状態空間や複雑な報酬関数を扱う場合に、計算コストの高い最適化問題が伴います。
  • 探索の欠如: IRL は専門家のデモンストレーションから学ぶことに重点を置いており、専門家のデモンストレーションを超えて新しいポリシーを探索するメカニズムを本質的に提供していません。これにより、エージェントがより効率的または創造的なソリューションを発見する能力が制限される可能性があります。
  • 新しい環境への移行: 学習された報酬関数は、多くの場合、それが推論された環境に固有のものです。学習した報酬関数を新しい、目に見えない環境に移行することは、ダイナミクス、状態空間、およびその他の要因の違いにより困難な場合があります。

B. 強化学習

強化学習では、エージェントは累積報酬信号を最大化するために環境内で意思決定と行動を行う方法を学習します。自律エージェントのコンテキストでは、RL は、明示的にプログラムされることなく、試行錯誤を通じてタスクの実行方法や意思決定方法をエージェントが学習する方法を提供します。自律エージェントは、RL フレームワークの学習者です。環境と相互作用し、特定の目標を達成するためのアクションを実行します。環境とは、エージェントが対話する外部システムです。エージェントの行動に基づいた報酬を通じてエージェントにフィードバックを提供します。各タイムステップにおいて、環境は特定の状態にあり、これは環境の現在の状態のスナップショットを表します。エージェントは、アクションの現在の状態に基づいてアクションを選択します。アクションは環境に影響を与え、環境を新しい状態に変換し、エージェントに報酬を与えます。環境は、各アクションの後にエージェントに数値報酬信号を提供し、アクションの即時の利益またはコストを示します。エージェントのポリシーは、状態をアクションにマッピングする戦略です。エージェントの目標は、時間の経過とともに累積報酬を最大化する最適なポリシーを学習することです。価値関数は、エージェントが特定のポリシーに従いながら、特定の状態から達成できる期待累積報酬を推定します。エージェントがどのようなアクションを取るべきかについて十分な情報に基づいた決定を下すのに役立ちます。エージェントは RL アルゴリズムを使用して、試行錯誤を通じて最適なポリシーまたは価値関数を学習します。学習プロセスには、環境の探索、報酬の獲得、パフォーマンスを向上させるためのポリシーの調整が含まれます。エージェントは、潜在的に優れた戦略を発見するために新しいアクションを探索すること (探索) と、即時の報酬を最大化するために既知のアクションを活用すること (活用) の間でトレードオフに直面します。しかし、自律エージェント向けの RL は、効率的な探索、長期的な報酬、現実世界の環境での安全な学習などの課題にも直面しています。強化学習手法はさらに以下のサブフィールドに分けられます。

  • 価値ベースのRL;
  • ポリシーベースのRL;
  • 俳優・評論家RL

C. 教師と生徒のパラダイム

エンドツーエンドの自動運転への最先端のアプローチは、教師と生徒のパラダイムに従います。 CARLA などの教師モデルは、特権情報 (周囲のエージェントとマップ要素の基本状態) を使用して運転ポリシーを学習します。生徒モデルは生のセンサー データにのみアクセスでき、教師モデルによって収集されたデータの動作クローンを作成します。

D. 補助タスクを備えたエンドツーエンドの自動運転

軌道計画のために学習した制御出力/ウェイポイントは、センサー データからの数十億のパラメータからマッピングするには複雑すぎると広く考えられています。このため、研究者はエンドツーエンドの学習タスクを監督するための補助タスクを開発するようになりました。 で以前に見たように、知覚モジュールと計画モジュールは 2 段階でトレーニングされます。 Uber ATG の論文で紹介されているもう 1 つのより個別のアプローチでは、LIDAR データとマップを入力として受け取り、エンドツーエンドで解釈可能なモーション プランナーを学習するバックボーンを使用します。まず、将来のタイムステップ(知覚)のための他のアクターの境界ボックスと、T フィルターを使用した計画のためのコスト ボリュームを出力します。次に、サンプラーからの各トラック提案について、そのコストがコスト ボリュームのさまざまなフィルターからインデックス化され、合計されます。図 6 に示すように、コストが最も低い軌道が最終的な計画になります。彼らは、検出、動作予測、人間が運転するエゴカーの軌道からの監視によるマルチタスク トレーニングを使用します。コスト量の監視はありませんのでご了承ください。したがって、最大マージン損失を採用して、ネットワークが良い軌道と悪い軌道を区別することを学習するようにします。

未解決の課題と将来の動向

議論されたアプローチの課題を考慮し、機械学習の学際的な分野からインスピレーションを得て、将来の研究者のための潜在的な研究方向を特定します。

  • エンドツーエンドの共同タスク: 近くの自律走行車からの知覚を共同で実行して、遮蔽を処理し、検出範囲を拡大する共同知覚に関する研究が行われています。エンドツーエンドの自動運転タスクにも同様の概念があります。より多くの自動運転車企業が都市に車両群を展開するにつれて、このエンドツーエンドの共同作業は、この分野における SOTA アプローチの次のパラダイムになる可能性があります。
  • 拡散モデルを使用してテキスト要件に基づいてシナリオを生成する: 自動運転車は一般的なシナリオでうまく動作するようにトレーニングされていますが、未解決の大きな課題はロングテール問題であり、シミュレータでは広範囲にモデル化できません。最近、安定拡散法を使用した画像生成モデルで有望な結果が得られており、将来の研究者がこの技術を活用してより現実的なシミュレーションを構築するのを見るのは楽しみです。自動運転のエンドツーエンドのタスクは、エンドツーエンドのタスクでトレーニングすることができ、拡散モデルは、自動運転車の故障事例の同様のシナリオを自動的に生成します。その後、モデルが現実世界の指標で期待どおりに予測するまで、慎重に選択されたシミュレートされたシナリオでトレーニングを行うことができます。
  • 基本モデル: 最近、コンピューター ビジョンとビッグ ランゲージの基本モデルは、多様で大規模なデータセットでトレーニングされた後、最先端のパフォーマンスを示し、幅広いタスク (運転シナリオ) に適応できます。研究者はこれらのモデルを使用して、シミュレータから実際のデータまで、エンドツーエンドのタスクの機能を一般化できます。

結論は

要約すると、この論文は、急速に進化するエンドツーエンドの自動運転の分野を包括的に調査したものです。従来のモジュール式アプローチからエンドツーエンドの学習へのパラダイムシフトの概念的な道のりが示され、手作りの機能と複雑なパイプラインから、車両が生のセンサー入力から直接学習できるようにするデータ駆動型ソリューションへの移行が示されています。このアプローチの利点と課題について説明し、システム設計を簡素化し、複雑な相互作用を捉え、さまざまな運転シナリオに適応する可能性を強調します。この分野が成熟し続けるにつれて、この論文では、安全性の保証、規制の枠組み、学界、産業界、政策立案者間の協力の必要性の重要性について議論しています。私たちは、極端なシナリオでの安全性、転移学習、説明可能性、人間とのやり取り、効率的な探索など、いくつかの未解決の課題を特定し、研究者や実務者に自動運転の未来を形作るための貢献を呼びかけています。

本質的に、このレビュー論文は、エンドツーエンドの自動運転が単なる技術的な飛躍ではなく、機械学習、ロボット工学、輸送工学の融合を具体化するパラダイムシフトであることを示しています。今後の道のりは刺激的な機会と複雑な課題に満ちており、現代の道路をシームレスに走行できる安全で効率的かつ信頼性の高い自律走行車のビジョンを実現するには、学際的な取り組みが必要になります。

オリジナルリンク: https://mp.weixin.qq.com/s/i1axGn7_szdHqxDqRO9NCw

<<:  大規模自動運転モデル​​に関する研究と論文の簡単な説明

>>:  Ctrip旅行言語モデルシステムの紹介と応用

ブログ    
ブログ    

推薦する

2019 年に注目すべき 10 社のクールなロボット スタートアップ

[51CTO.com クイック翻訳] ロボットは登場しましたが、現在はほとんど世間の注目を浴びていま...

Zhihuのホットトピック:最近AmazonのAIチームから大量の人材が去った?李牧自ら事実を明らかにした!

[[326634]]最近、「アマゾンAI李牧のチームから大量の人材が抜けたことについてどう思います...

...

...

心理測定?犯罪の予感? AIは京都の痛みを軽減できるか?

[[271752]]画像出典: Qilu.com一つの火、二本の涙。 7月18日午前10時半頃(現...

ロボットチャットGPTが登場: ビッグモデルが現実世界に登場、DeepMindの画期的な進歩

インターネット上の言語と画像を習得した後、大きなモデルが最終的に現実世界に入り、「具現化された知能」...

MIUI 10の最後の開発バージョンが間もなくリリースされます。MIUI 11も間もなく登場します。

8月22日、MIUIは、より良い最適化効果を実現し、Miファンに優れたシステム体験をもたらすために...

...

Google:MLの発展を牽引する転移学習とは何でしょうか?丨NeurIPS 2020

機械学習の分野でよく使われる分類学習タスクでは、訓練された分類モデルの精度と高い信頼性を確保するため...

...

...

...

...

AIが狂って縁石にぶつかる! Pony.aiの完全自動運転の路上テストは「失敗」に終わった

近年、中国の「新車製造勢力」のインテリジェント運転分野における宣伝・マーケティング活動とビジネス成果...

人工知能オンライン機能システムのデータアクセス技術

[[198103]] 1. オンライン機能システム主流のインターネット製品では、古典的な計算広告、検...