2021 年 12 月 21 日に arXiv にアップロードされた自動運転のための説明可能な AI のレビュー「自動運転のための説明可能な人工知能: 将来の研究方向に関する包括的な概要とフィールド ガイド」、著者はカナダのアルバータ大学と Huawei R&D に所属しています。 過去 10 年間で、自動運転は研究開発において大きな進歩を遂げてきました。より安全で環境に優しい交通システムを実現する自律走行車を道路上に導入することに関心が集まっています。強力な計算能力を備えた人工知能 (AI)技術の登場により、自動運転車は環境を高精度で認識し、安全なリアルタイムの判断を下し、人間の介入なしに信頼性の高い運転が可能になります。 しかし、現在の技術レベルでは、自動運転車のインテリジェントな判断は一般に人間には理解できず、この欠点が技術が社会に受け入れられるのを妨げています。したがって、自動運転車の AI システムは、安全でリアルタイムの意思決定を行うことに加えて、複数の政府管轄区域にわたる規制要件に準拠するために、それらの意思決定がどのように構築されたかを説明する必要もあります。 この研究は、自律走行車向けの説明可能な人工知能 (XAI)手法の開発に関する包括的な情報を提供します。まず、自動運転車業界における現在の最先端の説明可能性のギャップについて包括的な概要を示します。次に、この分野における説明可能かつ解釈可能な対象者の分類を示します。第三に、エンドツーエンドの自動運転システムアーキテクチャのフレームワークが提案され、そのようなシステムのデバッグと制御における XAI の役割が実証されます。最後に、将来の研究方向として、運用上の安全性と透明性を向上させ、規制当局、メーカー、およびすべての関係者から公的に承認を得るための、自動運転 XAI アプローチに関する実用的なガイドが提供されます。 説明可能な自動運転の必要性は、さまざまな問題や懸念から生じています。まず、自動運転車が関与する交通事故は、基本的な実際的な問題です。不注意で危険な運転は乗客や傍観者の安全に直接影響を与える可能性があるため、人々は安全な交通システムを確認する必要があることがよくあります。さらに、行動や決定の背後にある理由を理解することは、人間の心の自然な要件です。ある専門家は、「ユーザーがモデルや予測を信頼しなければ、使用しません」と述べています。ケーススタディでは、説明可能で認識可能なシステムを提供することで、システムに対するユーザーの信頼が大幅に高まることが経験的にわかっています。特に、参加者に信頼できる説明が提供されない場合、頻繁な障害により、インテリジェント システムに対する個人および一般の信頼が著しく損なわれる可能性があります。インテリジェント システムへの信頼が一度失われると、それを回復するのは困難な作業になる可能性があります。したがって、人間は当然、車への信頼を築くために、特定のシナリオで車が下した重要な決定を理解したいと考えます。車のインテリジェントな決定の背後に信頼があれば、それは透明性という別のプラスの要素をさらにサポートすることになります。透明性が提供されると、システムの決定と行動が管轄の規制と基準に準拠しているかどうかに関連する説明責任という別の要件が満たされます。最後に、これらの肯定的な要因により、自律システムの決定的な行動の公平性、道徳的分析、サポート、因果関係の正当化が可能になります。これらのコンポーネントとそれらの相互関係は、自動運転車の大量導入を達成するための重要な要素であると考えられます。 自動運転においては、ユーザーのアイデンティティや背景知識に応じて、説明できる内容や種類、表現が異なります。たとえば、自動運転車の動作に関する専門知識を持たないユーザーは、関連する決定や結果の簡単な説明で満足する可能性があります。しかし、自律システムエンジニアは、自動車の現在の操作性を理解し、必要に応じて既存のシステムを適切に「デバッグ」するために、より多くの情報と説明を必要とします。したがって、適切で十分な情報に基づいた、理解しやすい説明を提供するには、聴衆のドメイン知識と知識特性を考慮することが重要です。 解釈可能性に影響を与えるいくつかの要因は次のとおりです。
自動運転の各モジュールの解釈方法は次のとおりです。 1. 認識環境を正確に認識することが自動運転の基本的な要件であるのと同様に、特に重要なシナリオでは、自動運転の動作決定に関する基本的な説明を提供することも、シーンナビゲーションと運転行動を理解するために重要です。したがって、自動運転車の認識タスクにおいて説明可能性の方法を提供する必要があります。 いくつかの研究では、視覚的注意の内省的なテキスト記述を使用して因果的(事後的)説明を求め、いくつかの研究では説明を因果推論を含む人間の行動の記述と見なし、他の研究ではオブジェクト誘発性の行動決定に焦点を当てています。 もう一つの知覚ベースの説明生成アプローチは、畳み込みニューラル ネットワーク (CNN) の結果を理解することです。この方法の背後にある主な考え方は、ニューラル ネットワークの出力層から入力層へのバックプロパゲーション (BP) の勾配を測定して表示することです。勾配ベースの説明方法の例には、クラス アクティベーション マップ (CAM)、その拡張版である Guided Grad-CAM、Grad-CAM、Grad-CAM++、Smooth Grad CAM++、およびバックプロパゲーション ベースの方法であるガイド付きバックプロパゲーション、階層化関連性伝播、VisualBackProp、DeepLift などがあります。さらに、ヒューリスティックベースの Deep Visual Explanations (DVE) は、ディープ CNN の予測に対してもっともらしい根拠を提供します。コンピューター ビジョンに基づく説明可能な自動運転システムのレビューについては、Valeo の記事「ビジョン ベースの自動運転システムの説明可能性: レビューと課題」を参照してください。 2 ポジショニング自動運転車によるリアルタイムの意思決定には道路の位置を正確に認識する必要があるため、さまざまなナビゲーション システムやセンサーから車両の位置がどのように導き出されるかを理解することも重要です。このため、ポジショニングには解釈可能性も必要になります。特に GPS やその他のセンサーからの信号が不正確な場合には、自律走行車の誘導位置を知ることが必要です。したがって、この信頼性の低い通信チャネルにより、自動運転車は誤った、リスクの高い決定を下す可能性があります。したがって、ナビゲーション システムと関連センサーを調整することで、不正確な信号をブロックし、自律走行車の正確な縦方向と横方向の位置決めのための信頼性の高い通信チャネルを提供できるようになります。 3 計画計画決定の説明可能性の概要については、IBM とアリゾナ州立大学の論文「説明可能な自動計画と意思決定の新たな展望」を参照してください。 以前のExplainable AI Planning (XAIP)ワークショップの議題には、「XAI は主にブラックボックス学習に基づく方法に重点を置いてきましたが、モデルベースの方法は解釈可能性に適しており、おそらくより適しています。また、XAIP は、複雑な意思決定プロセスでユーザーが AI 技術と対話するのを支援する上で重要な役割を果たします」と明記されていました。 このレビューから抜粋すると、解釈可能性の方法は次のように分類されます。
解釈可能性の特性には次のものがあります。
4 コントロール車両制御は最終的には運転システムの高レベルの決定を反映するため、ユーザーは自動アクション選択の根拠をリアルタイムでタイムリーに説明する必要がある場合があります。この要件により、自動運転車の制御システムに説明可能性の本質が導入されます。車内のインターフェース、ダッシュボード、その他のユーザーフレンドリーな機能は、ユーザーが「なぜ」という質問(例:「なぜ右側に駐車したのですか?」)、比較の質問(例:「なぜ別のルートではなくこのルートを選んだのですか?」)、反事実の質問(例:「現在のルートではなくこのルートを選択した場合はどうなるでしょうか?」)、説明的な質問(例:「10 分後にどこにいるでしょうか?」)をするのに役立ちます。 さらに、著者らは、自律制御、説明可能性、規制遵守を統合した XAI フレームワークを提案しています。図に示すように、調整可能な自動運転には、エンドツーエンドの自動制御システムコンポーネント (EEC、認識された環境を車両の動作にマッピング)、安全性と規制遵守コンポーネント (SRC、規制機関の機能を表し、その主な責任の 1 つは、EEC と自動車両の動作の任意の組み合わせの安全性を検証することです。主にソフトウェア シミュレーションと実際の運転を通じて検証されます)、およびXAIコンポーネント (XAI ガイド付き自動運転は、学習したソフトウェア アーキテクチャと規制原則を最高レベルで反映する必要があります) の 3 つのコンポーネントが含まれます。 自動運転のための XAI は、1) リアルタイムの車両意思決定の許容可能な安全性を確保し、2) 重要な交通シナリオでの行動決定の説明可能性と透明性を提供し、3) 規制当局によって確立されたすべての交通規則に準拠する、AI 主導のアプローチの概要として定義されます。 最後に、著者は、XAI が自動運転の目標に従うように導くためのフィールド ガイドを提案しています。このガイドには、次の 4 つの部分が含まれます。
履歴を自然言語で記述し、関連するすべてのアクションを実行すると、主要な交通シナリオについて信頼性の高い因果説明を提供できるようになります。さらに、解釈可能なモデルの生成に基づく同時説明は、事故防止に大きく貢献します。たとえば、自動運転車に誰か(バックアップドライバーまたは乗客)が乗っているとします。車両には緊急制御(停止)ボタンがあり、車内のインターフェースには前方に道路を横断する人がいないことが示され、運転が続行されますが、前方の道路に人がいます(視覚システムの障害)。その後、車内の人がこの異常な状況を適時に発見し、緊急ボタンを使用して車を減速または停止させ、事故を防止します。この単純な例は、同時説明の概念が自動運転に潜在的に使用され、車両の安全なナビゲーションの機会を提供することを示しています。
この図は、モデルベース RL とモデルフリー RL の解釈可能性の比較を示しています。模倣学習に加えて、これら 2 種類の RL の比較から、モデルベース RL の利点は、エージェントが最初に環境のモデルを学習し、環境のダイナミクスに基づいて学習戦略を調整することであることがわかります。この対象を絞った探索は、計画とも呼ばれ、本質的には学習プロセスを説明します。 RL における計画の考え方は、正しい決定を下すために重要です。Dynaアーキテクチャを例に挙げてみましょう。Dyna とその派生である線形 Dyna アーキテクチャは、世界と対話しながら世界モデルを学習し、最適な戦略を学習します。 Dyna の計画プロセスは、最初に提供された仮想状態から予測される将来の軌道を作成します。この構造に基づいて、モデルは最適な動作を予測し、予測された状態と予測された報酬の両方を生成します。最後の 2 つのコンポーネントは、エージェントが特定の瞬間に特定のアクションを好む理由を説明する基礎として視覚化および分析できます。自動運転におけるあらゆる(重要な)アクションには直感的な説明が必要になる可能性があるため、Dyna アーキテクチャ、およびモデルベースの RL 全般は、その解釈可能性を通じて大きなメリットを提供できます。
一般価値関数 (GVF) は、予測知識を表現するための予備的な手法です。定義上、GVF は RL エージェントによって行われた実際の観察の長期的な予測要約を取得することを目的としています。たとえば、自動運転の RL エージェントは、GVF を使用して質問をし、対応する回答を表現する場合があります。例としては、「次の交差点で赤信号に遭遇しない確率はどれくらいですか?」や「現在の運転戦略に基づくと目的地に到着するまでの推定時間はどれくらいですか?」などがあります。
階層化ソフトウェア アーキテクチャは、説明可能な自動運転の意思決定システムをサポートするのに適した構造です。このような構造は、運転中の人間のドライバーの考えを直接反映します。たとえば、「信号はもうすぐ緑から黄色に変わるか?」「前方の歩行者は道路を横断するつもりか?」「前方の車はスピードを上げるか?」などです。これらのような代表的な質問は、動作プロセス中の運転に関連する考慮事項を反映しています。この直感に基づくと、自動運転車の階層化ソフトウェア システムは問題主導型であると言えます。 説明可能なソフトウェア システムは、実行された一時的なアクションの一時的な問題を反映する必要があります。このアーキテクチャに対応する適切な RL アプローチは、オプションの概念です。オプションは、RL エージェントが終了状態でアクションを実行するポリシーを持つアクションの一般化です。最近提案されたオプション批評フレームワークは、オプションの概念に基づいています。このアーキテクチャは、オプションの内部ポリシーと終端状態の両方を学習でき、アーケード学習環境 (ALE)でのオプションのエンドツーエンドの学習に効果的であることが実証されています。オプション批評アーキテクチャの固有の構造により、自律走行車学習システムのさらなる開発に適しています。 運転関連の質問は一時的なものであることが多く、数秒以内にフォローアップアクションのための新しい質問が生成されることがあります。運転決定の時間的敏感性はリアルタイムで動的に変化し、車両はさまざまな程度のリスクにさらされます。もちろん、リスクの低いアクションが好まれます。しかし、時間と計算の面では、ある程度のリスクを伴いながら、効果的に探索、評価し、対応するアクションを実行する必要があります。RL 報酬の増加のみに焦点を当てると、長期的には望ましいアクションにつながらない可能性があります。 従来の RL では、リスクを指標として考慮せずに報酬のみを考慮すると、自動化システムの完璧な意思決定に必ずしもつながるわけではなく、RL エージェントはそのような探索を通じて最適な戦略を見つけることができない可能性があります。対照的に、異なるレベルのリスクと対応するアクションを組み合わせると、さまざまな遷移と報酬を通じて、環境内で最適な戦略を動的に発見するのに役立ちます。したがって、適切な質問の階層を構築し、適切なアクションに関連するリスク レベルを評価することで、重要な交通環境におけるインテリジェント車両に対して、タイムリーで直感的、豊富で信頼できる説明を提供できるようになります。 |
<<: アルゴリズム推奨規制が実施されます。ユーザーはプラットフォームに「ノー」と言えるのでしょうか?
>>: ナンバーワンのディープラーニングフレームワークはどれですか? 2022年、PyTorchとTensorFlowが再び競い合う
2023年のコンピュータービジョンの分野では、「 Segment Anything Model」が大...
少し前に、Google はOpenAI の GPT モデルの競合製品であるGemini をリリースし...
適切な技術人材の採用は、企業組織による人工知能 (AI) の導入に対する大きな障壁となっています。最...
[[411985]]ディープラーニングは驚くほど強力ですが、人間が決して犯さないような驚くべき間違い...
人工知能と機械学習はユーザーからますます注目を集めており、AIの応用は徐々に世間の注目を集め始めてい...
アルトマン氏の地位は再び危険にさらされているのか?事情に詳しい人物によると、オープンAIの取締役であ...
「GitHub Copilot のようなコード補完ツールは、100 万人以上の開発者に使用されており...
アメリカは顔認識技術と全面的に戦っている。米ニューヨーク州は最近、2022年まで学校での顔認識やその...
2020年が過ぎました。順調で平和な生活を送ったか、非常に困難な生活を送ったかにかかわらず、私たちは...