ADAPT: エンドツーエンドの自動運転の説明可能性を徹底的に探求する、理解の夜明け!

ADAPT: エンドツーエンドの自動運転の説明可能性を徹底的に探求する、理解の夜明け!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

著者の個人的な考え

エンドツーエンドは今年非常に人気の高いトピックです。今年のCVPR最優秀論文もUniADに授与されました。しかし、エンドツーエンドには、解釈可能性の低さやトレーニングの収束の難しさなど、多くの問題もあります。この分野の一部の学者は、エンドツーエンドの解釈可能性に徐々に注目するようになりました。今日は、エンドツーエンドの解釈可能性に関する最新の研究であるADAPTについてお話ししたいと思います。この方法は、Transformerアーキテクチャに基づいており、マルチタスク共同トレーニングを通じて、エンドツーエンドで車両の動作の説明と各決定の推論を出力します。 ADAPT に関する著者の考えは次のとおりです。

  1. ここでは、ビデオの 2D 特徴を使用して予測を行います。2D 特徴を bev 特徴に変換すると、効果がさらに高まる可能性があります。
  2. LLM と組み合わせると効果がさらに高まる可能性があります。たとえば、テキスト生成部分を LLM に置き換えます。
  3. 現在の研究では、過去のビデオを入力としており、予測される行動とその説明も過去のものとなっている。これを将来の行動と、その行動に対応する理由を予測するように変更すると、より意味のあるものになるかもしれない。
  4. 画像のトークン化  トークンが多すぎて、役に立たない情報が多くある可能性があります。Token-Learner を試してみるといいかもしれません。

出発点は何ですか?

エンドツーエンドの自動運転は輸送業界で大きな可能性を秘めており、この分野の研究は現在非常に盛んに行われています。たとえば、CVPR2023 における UniAD の最優秀論文は、エンドツーエンドの自動運転に関するものです。しかし、自動化された意思決定プロセスの透明性と説明可能性の欠如は、その開発を妨げるでしょう。結局のところ、実際の車が道路を走るとき、安全性が最優先事項です。モデルの解釈可能性を向上させるために、アテンション マップやコスト ボリュームを使用する初期の試みがいくつかありましたが、これらの方法は理解するのが困難です。この作業の出発点は、意思決定をわかりやすく説明する方法を見つけることです。下の図はいくつかの方法を比較したものです。当然ですが、言葉で表現した方が分かりやすいです。

ADAPT の利点は何ですか?

  1. 車両の動作と各決定の理由をエンドツーエンドで記述して出力する機能。
  2. この方法は、トランスフォーマーネットワーク構造に基づいており、マルチタスク方式で共同トレーニングを実行します。
  3. BDD-X (Berkeley DeepDrive eXplanation) データセットで SOTA 結果を達成しました。
  4. 実際のシナリオでシステムの有効性を検証するために、生のビデオを入力し、アクションの説明と推論をリアルタイムで出力できる展開可能なシステムが構築されました。

エフェクト表示

効果はかなり良く、特に夜の3番目のシーンでは、信号機さえも確認できます。

この分野における現在の進歩

ビデオキャプション

ビデオの説明の主な目的は、自然言語を使用して、特定のビデオ内のオブジェクトとそれらの関係を説明することです。初期の研究では、固定されたテンプレートに認識された要素を入力することで、特定の構文構造を持つ文を生成していましたが、これは柔軟性に欠け、豊かさに欠けていました。

いくつかの方法では、シーケンス学習法を利用して、柔軟な構文構造を持つ自然な文章を生成します。具体的には、これらの方法では、ビデオ エンコーダーを使用して特徴を抽出し、言語デコーダーを使用してビジュアルとテキストの配置を学習します。詳細なオブジェクトとアクションで説明を充実させるために、いくつかの方法では、オブジェクト活用表現を利用して、ビデオ内の詳細なオブジェクト認識インタラクション機能をキャプチャします。

既存のアーキテクチャは、ビデオキャプションの一般的な方向性において一定の成果を達成していますが、ビデオの説明を自動運転アクション表現に単純に転送するだけでは、自動運転タスクにとって極めて重要な車両速度などの重要な情報が失われるため、アクション表現に直接適用することはできません。このマルチモーダル情報を効果的に活用して文章を生成する方法については、まだ研究中です。 PaLM-E はマルチモーダル文をうまく処理します。

エンドツーエンドの自動運転

学習ベースの自動運転は活発な研究分野です。最近の CVPR2023 最優秀論文 UniAD とそれに続く FusionAD、Wayve の世界モデルベースの研究 MILE などは、すべてこの方向での取り組みです。出力形式には、UniADのように軌跡点を出力するものと、MILEのように車両の動作を直接出力するものがあります。

さらに、車両、自転車、歩行者などの交通参加者の将来の行動をモデル化して車両のウェイポイントを予測するアプローチもあれば、本研究の制御信号予測サブタスクと同様に、センサー入力に基づいて車両制御信号を直接予測するアプローチもあります。

自動運転の説明可能性

自動運転の分野では、解釈方法のほとんどは視覚に基づいていますが、LiDAR に基づく研究もいくつかあります。いくつかの方法では、注目度マップの視覚化を利用して重要でない画像領域を除外し、自律走行車がもっともらしく説明可能に見えるようにします。ただし、注目マップにはそれほど重要でない領域が簡単に含まれている可能性があります。また、LIDAR と高精度マップを入力として使用して他の交通参加者の境界ボックスを予測し、コスト量を使用して決定の理由を説明する方法もいくつかあります。さらに、オンライン マップは、高解像度マップへの過度の依存を排除​​するために、セグメンテーション手法を通じて構築されます。ビジョンベースまたはライダーベースの方法は有望な結果をもたらしますが、言語による説明がないため、システム全体が複雑で理解しにくいものになっています。 [68]は、制御信号を予測するためにオフラインでビデオの特徴を抽出し、その後ビデオの説明タスクを実行することで、自律走行車のテキスト説明の可能性を最初に検討しました。

自動運転におけるマルチタスク学習

このエンドツーエンドのフレームワークは、マルチタスク学習を使用して、テキスト生成と制御信号の予測という 2 つのタスクを使用してモデルを共同でトレーニングします。マルチタスク学習は自動運転で広く使用されています。異なるタスクを共同でトレーニングすると、データの利用率が向上し、特徴が共有されるため、各タスクのパフォーマンスが向上します。そのため、この研究では、制御信号予測とテキスト生成の2つのタスクの共同トレーニングを採用しています。

ADAPT法

ネットワーク構造図は以下のとおりです。

全体の構造は 2 つのタスクに分かれています。

  1. 運転キャプション生成 (DCG): ビデオを入力し、2 つの文を出力します。最初の文は車両の動作を説明し、2 番目の文は「信号が青に変わったため、車は加速しています」など、この動作を実行する理由を説明します。
  2. 制御信号予測(CSP): 同じビデオを入力し、速度、方向、加速度などの一連の制御信号を出力します。

これらのうち、DCG タスクと CSP タスクはビデオ エンコーダを共有しますが、異なる予測ヘッドを使用して異なる最終出力を生成します。

DCG タスクでは、ビジョン言語変換エンコーダーを使用して 2 つの自然言語文を生成します。

CSP タスクでは、モーション トランスフォーマー エンコーダーを使用して制御信号のシーケンスを予測します。

ビデオエンコーダ

ここでは、Video Swin Transformer を使用して、入力ビデオ フレームをビデオ機能トークンに変換します。

入力  フレーム画像、形状は  、特徴の大きさは  、 ここ  チャネルの寸法です。

予測ヘッド

テキスト生成ヘッド

上記の機能  トークン化によって取得  寸法は  次に、ビデオ トークンは、MLP を通じてテキスト トークンの埋め込みに合わせてサイズ調整され、整列されます。次に、テキスト トークンとビデオ トークンが一緒にビジョン言語変換エンコーダーに送られ、アクションの説明と推論が生成されます。

制御信号予測ヘッド

入力 フレームビデオは制御信号に対応する  、CSPヘッドの出力は ここで、各制御信号は必ずしも 1 次元ではなく、速度、加速度、方向などを含む多次元になる場合があります。ここでのアプローチは、ビデオの特徴をトークン化し、それをモーション トランスフォーマーに渡して一連の出力信号を生成することです。損失関数は MSE です。

ただし、最初のフレームは動的情報が少なすぎるため、ここには含まれていないことに注意してください。

合同訓練

このフレームワークでは、共有ビデオ エンコーダーのため、実際には CSP と DCG の 2 つのタスクがビデオ表現レベルで調整されていると想定されます。出発点は、動作記述と制御信号はどちらも細分化された車両動作の異なる表現であり、動作推論の説明は主に車両動作に影響を与える運転環境に焦点を当てていることです。

トレーニング中にジョイントトレーニングが使用される

注目すべきは、共同訓練サイトであるにもかかわらず、推論中に独立して実行できることです。CSPタスクは理解しやすいです。フローチャートによると、ビデオを直接入力し、制御信号を出力できます。DCGタスクでは、ビデオを直接入力し、説明と推論を出力できます。テキストは自己回帰に基づいて単語ごとに生成され、[CLS]から始まり、[SEP]または長さのしきい値に達したときに終了します。

実験設計と比較

データセット

使用されるデータセットは BDD-X で、7,000 組のビデオと制御信号が含まれています。各動画の長さは約40秒で、画像サイズは  、周波数は  FPS、各ビデオには加速、右折、車線変更などの 1 ~ 5 の車両動作が含まれます。これらのアクションにはすべて、アクションの説明 (「車が止まった」など) や理由 (「信号が赤だったため」など) を含むテキストが注釈として付けられます。合計で約 29,000 の動作注釈ペアがあります。

実装の詳細

  1. ビデオスウィントランスフォーマーはKinetics-600で事前トレーニング済みです
  2. 視覚言語変換器と動作変換器はランダムに初期化される
  3. 固定のビデオスウィンパラメータはないので、トレーニング全体がエンドツーエンドで行われます。
  4. 入力ビデオフレームサイズはサイズ変更され、切り取られ、ネットワークへの最終入力は224x224になります。
  5. 説明と推論には、単語全体の代わりにWordPiece埋め込み[75]が使用され(例:"stops"は"stop"と"#s"に分割される)、各文の最大長は15である。
  6. トレーニング中、マスク言語モデリングのためにトークンの 50% がランダムにマスクされます。マスクされた各トークンは、[MASK] トークンになる確率が 80%、単語がランダムに選択される確率が 10%、残りの 10% の確率は変更されません。
  7. AdamW オプティマイザーが使用され、トレーニング ステップの最初の 10% にウォームアップ メカニズムがあります。
  8. 4つのV100 GPUを使用してトレーニングするには約13時間かかります

合同訓練の影響

ここでは、共同トレーニングの有効性を示すために 3 つの実験を比較します。

シングル

これは、CSP タスクを削除し、DCG タスクのみを保持することを意味し、キャプション モデルのみをトレーニングすることと同じです。

シングル+

CSPタスクはまだありませんが、DCGモジュールを入力する際に​​は、ビデオトークンに加えて、制御信号トークンも入力されます。

効果の比較は以下のとおりです

DCG のみのタスクと比較すると、ADAPT の推論効果がはるかに優れていることがわかります。制御信号入力があると効果は向上しますが、CSPタスクを追加するほどではありません。CSPタスクを追加するのと同等であり、ビデオを表現し理解する能力がより強くなります。

また、次の表からも、共同トレーニングによって CSP の効果が向上することがわかります。

ここ  精度として理解できます。具体的には、予測された制御信号が切り捨てられます。式は次のとおりです。

さまざまな種類の制御信号の効果

実験で使用される基本的な信号は速度と進路ですが、次の表に示すように、どちらか一方だけを使用した場合の効果は、両方を使用した場合ほど良くないことがわかりました。

これは、速度と進路の信号によってネットワークがより優れたアクションの説明と推論を学習できることを示しています。

行動記述と推論の相互作用

一般的な説明タスクと比較して、運転説明タスクでは、アクションの説明と推論の 2 つの文が生成されます。次の表に示します。

  1. 1 行目と 3 行目は、クロス アテンションを使用すると結果が良くなることを示しています。これは簡単に理解できます。説明に基づく推論は、モデルのトレーニングに役立ちます。
  2. 2 行目と 3 行目は、推論と説明の順序を入れ替えてもポイントが下がることを示しています。これは、推論が説明に依存していることを示しています。
  3. 最後の 3 行を比較すると、説明のみ、または推論のみを出力することは、両方を出力することほど良くないことがわかります。

サンプリングレートの影響

結果は予測可能です。フレーム数が多いほど結果は良くなりますが、次の表に示すように、それに応じて速度も遅くなります。

オリジナルリンク: https://mp.weixin.qq.com/s/MSTyr4ksh0TOqTdQ2WnSeQ

<<:  CUDA と TensorRT モデルの展開の最適化: 重要な考慮事項と実践的な戦略

>>:  ドイツ反トラスト長官:AIは大企業の支配を強める可能性がある

ブログ    
ブログ    
ブログ    

推薦する

...

音声認識:将来の人間とコンピュータの相互作用の破壊と変化

Audi A8L を運転しているとき、簡単な言葉を発するだけで、旅に必要なものがすべて手に入ると想像...

Baidu PaddlePaddleは4つの新しい業界アプリケーション開発キットをリリースし、業界インテリジェンスのアップグレードを支援するマスターモードを革新しました

産業社会の急速かつ安定した発展は、完璧なインフラと切り離すことはできません。ディープラーニングフレー...

2019年の中国人工知能産業の競争環境の分析

近年、人工知能の技術と応用は成熟を続けており、人工知能市場の規模は徐々に拡大しています。中国情報通信...

Cloud Pak for Data 3.0は、企業のコスト削減と効率性の向上を支援し、AI導入を加速します。

[[335519]]感染症流行後も実体経済は厳しい状況が続いている。生産停止、収益の急激な減少、資...

インテルが第3四半期の財務報告を発表、人工知能と新ファウンドリ事業が注目を集める

半導体メーカーのインテルは本日第3四半期の業績を発表し、同社の株価は時間外取引で約8%上昇した。一方...

インテリジェント交通の時代に踏み出すには、これら 3 つのことをうまく行う必要があります。

[[438413]]都市の生命線であり動脈である交通の発展は極めて重要です。しかし、近年、都市化が...

人工知能がスマートファクトリーにもたらす力

現在、製造業における人工知能技術の応用が急成長しています。自社にとって適切な人工知能ツールをどのよう...

調査 | AIと機械自動化が社会に与える影響に関する世界の見解

[[358905]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

モザイクでも止められない!これらのAIアルゴリズムはワンクリックで高解像度を実現できます

ぼやけた写真が好きな人はいません。本当の顔を復元したいという衝動にかられたことはありませんか? AI...

DeepMindが乳がん診断AIをリリース:市場に投入するにはまだ多くの課題がある

GoogleのDeepMindチームは最近、「乳がんスクリーニングAIシステムの国際評価」と題した論...

...

人間の脳の視覚処理を模倣し、ニューラルネットワークが敵対的なサンプルに対処できるようにする

ディープラーニングは、小切手や封筒に手書きされた文字しか認識できなかった時代から、長い道のりを歩んで...

2019年人工知能サバイバルガイド

「資本の冬は業界のマシュー効果と適者生存を加速させており、AI分野も例外ではありません。」Infer...