この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 序文最新のエンドツーエンドの自動運転レビューが発表されました。ちなみに、この論文の筆頭著者であるカーネギーメロン大学の Apoorv Singh 氏は、今年、すべて自動運転に関する 7 つのレビューを発表しており、私はこれを皆さんにお勧めします。一言で言うと、「素晴らしい!」 個人ホームページ: https://www.apoorvsingh.com/research-papers
まとめエンドツーエンドの自動運転は、生のセンサー入力データやその他のメタデータを事前情報として受け取り、自車両の制御信号や計画された軌道を直接出力する、完全に微分可能な機械学習システムです。この論文では、物体検出、シーンの意味的理解、物体追跡、軌道予測、軌道計画、車両制御、社会的行動、コミュニケーションなど、エンドツーエンドのタスクを達成するための最新の機械学習ベースの技術をすべて体系的にレビューします。この論文では、最近の完全に微分可能なエンドツーエンドの強化学習とディープラーニングベースの技術に焦点を当てています。私たちの論文では、重要なアプローチをグループ化し、その研究動向を提示することで、重要なアプローチの分類法も確立しています。最後に、この調査では未解決の課題を浮き彫りにし、このテーマに関するさらなる研究を促す将来の方向性を示唆しています。 要約すると、この論文の主な貢献は次のとおりです。
自動運転へのモジュール式アプローチ従来のモジュール式自動運転ソフトウェアは、さまざまなサブモジュールで構成された複雑なシステムであり、各サブモジュールは運転プロセスの特定の側面を担当します。これらのサブモジュールは連携して動作し、人間の介入なしに車両が移動し、環境を認識し、意思決定を行うことを可能にします。自動運転ソフトウェアの主なサブモジュールには次のものがあります。
これらのシステムとその依存関係を図 2 に示します。 ベンチマーク/評価ソフトウェアを開発する前に、まずテスト要件を開発する必要があります。主な方法に入る前に、エンドツーエンドのシステムの評価要件を見てみましょう。評価は、クローズドループ評価とオープンループ評価の 2 種類に分けられます。前者はオンライン シミュレーターで定義されますが、後者は人間の運転データセットでオフラインで計算されます。エンドツーエンドのシステムは、CARLA などのオンライン シミュレーターで簡単に評価できます。多くのモジュール認識技術は、より高価なオフライン データセットに依存しています。 閉ループ評価を図 3 に示します。 オープンループ評価を図 4 に示します。 方法A. 模倣学習模倣学習では、エージェントは人間の専門家や既存のモデルが示す動作を模倣することでタスクを実行することを学習します。エージェントは、報酬関数を明示的に設計したり、最適なポリシーを定義したりするのではなく、専門家の行動を観察して模倣することで学習します。模倣学習には、エージェントが試行錯誤を通じて学習する強化学習に比べて、人間の専門知識を活用して複雑なタスクを解決する能力や、より安全で説明可能な動作を提供できる可能性など、いくつかの利点があります。しかし、模倣学習には、専門家のデモンストレーションのエラーに敏感であったり、専門家のデモンストレーションの範囲を超えた新しい戦略を常に探求できるわけではないなどの限界もあります。トレーニング中、エージェントの目標は、入力された観察から専門家が示すアクションへのマッピングを学習することです。これは多くの場合、教師あり学習手法を使用して行われ、エージェントのモデルは、予測されたアクションと専門家のデータセット内のアクションとの差を最小限に抑えるようにトレーニングされます。同様に、評価時には、訓練されたエージェントのパフォーマンスが新しい未知のデータに基づいて評価され、専門家の動作を模倣する能力が判断されます。この評価には、エージェントの動作を専門家の動作と比較したり、エージェントがタスクを正常に完了したかどうかを評価したりすることが含まれます。模倣学習はさらに行動クローンと逆強化学習に分けられます。 ただし、IRL と模倣学習にも独自の課題と制限があります。
B. 強化学習強化学習では、エージェントは累積報酬信号を最大化するために環境内で意思決定と行動を行う方法を学習します。自律エージェントのコンテキストでは、RL は、明示的にプログラムされることなく、試行錯誤を通じてタスクの実行方法や意思決定方法をエージェントが学習する方法を提供します。自律エージェントは、RL フレームワークの学習者です。環境と相互作用し、特定の目標を達成するためのアクションを実行します。環境とは、エージェントが対話する外部システムです。エージェントの行動に基づいた報酬を通じてエージェントにフィードバックを提供します。各タイムステップにおいて、環境は特定の状態にあり、これは環境の現在の状態のスナップショットを表します。エージェントは、アクションの現在の状態に基づいてアクションを選択します。アクションは環境に影響を与え、環境を新しい状態に変換し、エージェントに報酬を与えます。環境は、各アクションの後にエージェントに数値報酬信号を提供し、アクションの即時の利益またはコストを示します。エージェントのポリシーは、状態をアクションにマッピングする戦略です。エージェントの目標は、時間の経過とともに累積報酬を最大化する最適なポリシーを学習することです。価値関数は、エージェントが特定のポリシーに従いながら、特定の状態から達成できる期待累積報酬を推定します。エージェントがどのようなアクションを取るべきかについて十分な情報に基づいた決定を下すのに役立ちます。エージェントは RL アルゴリズムを使用して、試行錯誤を通じて最適なポリシーまたは価値関数を学習します。学習プロセスには、環境の探索、報酬の獲得、パフォーマンスを向上させるためのポリシーの調整が含まれます。エージェントは、潜在的に優れた戦略を発見するために新しいアクションを探索すること (探索) と、即時の報酬を最大化するために既知のアクションを活用すること (活用) の間でトレードオフに直面します。しかし、自律エージェント向けの RL は、効率的な探索、長期的な報酬、現実世界の環境での安全な学習などの課題にも直面しています。強化学習手法はさらに以下のサブフィールドに分けられます。
C. 教師と生徒のパラダイムエンドツーエンドの自動運転への最先端のアプローチは、教師と生徒のパラダイムに従います。 CARLA などの教師モデルは、特権情報 (周囲のエージェントとマップ要素の基本状態) を使用して運転ポリシーを学習します。生徒モデルは生のセンサー データにのみアクセスでき、教師モデルによって収集されたデータの動作クローンを作成します。 D. 補助タスクを備えたエンドツーエンドの自動運転軌道計画のために学習した制御出力/ウェイポイントは、センサー データからの数十億のパラメータからマッピングするには複雑すぎると広く考えられています。このため、研究者はエンドツーエンドの学習タスクを監督するための補助タスクを開発するようになりました。 で以前に見たように、知覚モジュールと計画モジュールは 2 段階でトレーニングされます。 Uber ATG の論文で紹介されているもう 1 つのより個別のアプローチでは、LIDAR データとマップを入力として受け取り、エンドツーエンドで解釈可能なモーション プランナーを学習するバックボーンを使用します。まず、将来のタイムステップ(知覚)のための他のアクターの境界ボックスと、T フィルターを使用した計画のためのコスト ボリュームを出力します。次に、サンプラーからの各トラック提案について、そのコストがコスト ボリュームのさまざまなフィルターからインデックス化され、合計されます。図 6 に示すように、コストが最も低い軌道が最終的な計画になります。彼らは、検出、動作予測、人間が運転するエゴカーの軌道からの監視によるマルチタスク トレーニングを使用します。コスト量の監視はありませんのでご了承ください。したがって、最大マージン損失を採用して、ネットワークが良い軌道と悪い軌道を区別することを学習するようにします。 未解決の課題と将来の動向議論されたアプローチの課題を考慮し、機械学習の学際的な分野からインスピレーションを得て、将来の研究者のための潜在的な研究方向を特定します。
結論は要約すると、この論文は、急速に進化するエンドツーエンドの自動運転の分野を包括的に調査したものです。従来のモジュール式アプローチからエンドツーエンドの学習へのパラダイムシフトの概念的な道のりが示され、手作りの機能と複雑なパイプラインから、車両が生のセンサー入力から直接学習できるようにするデータ駆動型ソリューションへの移行が示されています。このアプローチの利点と課題について説明し、システム設計を簡素化し、複雑な相互作用を捉え、さまざまな運転シナリオに適応する可能性を強調します。この分野が成熟し続けるにつれて、この論文では、安全性の保証、規制の枠組み、学界、産業界、政策立案者間の協力の必要性の重要性について議論しています。私たちは、極端なシナリオでの安全性、転移学習、説明可能性、人間とのやり取り、効率的な探索など、いくつかの未解決の課題を特定し、研究者や実務者に自動運転の未来を形作るための貢献を呼びかけています。 本質的に、このレビュー論文は、エンドツーエンドの自動運転が単なる技術的な飛躍ではなく、機械学習、ロボット工学、輸送工学の融合を具体化するパラダイムシフトであることを示しています。今後の道のりは刺激的な機会と複雑な課題に満ちており、現代の道路をシームレスに走行できる安全で効率的かつ信頼性の高い自律走行車のビジョンを実現するには、学際的な取り組みが必要になります。 オリジナルリンク: https://mp.weixin.qq.com/s/i1axGn7_szdHqxDqRO9NCw |
<<: 大規模自動運転モデルに関する研究と論文の簡単な説明
[51CTO.com クイック翻訳] ロボットは登場しましたが、現在はほとんど世間の注目を浴びていま...
[[326634]]最近、「アマゾンAI李牧のチームから大量の人材が抜けたことについてどう思います...
[[271752]]画像出典: Qilu.com一つの火、二本の涙。 7月18日午前10時半頃(現...
インターネット上の言語と画像を習得した後、大きなモデルが最終的に現実世界に入り、「具現化された知能」...
8月22日、MIUIは、より良い最適化効果を実現し、Miファンに優れたシステム体験をもたらすために...
機械学習の分野でよく使われる分類学習タスクでは、訓練された分類モデルの精度と高い信頼性を確保するため...
近年、中国の「新車製造勢力」のインテリジェント運転分野における宣伝・マーケティング活動とビジネス成果...
[[198103]] 1. オンライン機能システム主流のインターネット製品では、古典的な計算広告、検...