この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 著者の個人的な考えエンドツーエンドは今年非常に人気の高いトピックです。今年のCVPR最優秀論文もUniADに授与されました。しかし、エンドツーエンドには、解釈可能性の低さやトレーニングの収束の難しさなど、多くの問題もあります。この分野の一部の学者は、エンドツーエンドの解釈可能性に徐々に注目するようになりました。今日は、エンドツーエンドの解釈可能性に関する最新の研究であるADAPTについてお話ししたいと思います。この方法は、Transformerアーキテクチャに基づいており、マルチタスク共同トレーニングを通じて、エンドツーエンドで車両の動作の説明と各決定の推論を出力します。 ADAPT に関する著者の考えは次のとおりです。
出発点は何ですか?エンドツーエンドの自動運転は輸送業界で大きな可能性を秘めており、この分野の研究は現在非常に盛んに行われています。たとえば、CVPR2023 における UniAD の最優秀論文は、エンドツーエンドの自動運転に関するものです。しかし、自動化された意思決定プロセスの透明性と説明可能性の欠如は、その開発を妨げるでしょう。結局のところ、実際の車が道路を走るとき、安全性が最優先事項です。モデルの解釈可能性を向上させるために、アテンション マップやコスト ボリュームを使用する初期の試みがいくつかありましたが、これらの方法は理解するのが困難です。この作業の出発点は、意思決定をわかりやすく説明する方法を見つけることです。下の図はいくつかの方法を比較したものです。当然ですが、言葉で表現した方が分かりやすいです。 ADAPT の利点は何ですか?
エフェクト表示効果はかなり良く、特に夜の3番目のシーンでは、信号機さえも確認できます。 この分野における現在の進歩ビデオキャプションビデオの説明の主な目的は、自然言語を使用して、特定のビデオ内のオブジェクトとそれらの関係を説明することです。初期の研究では、固定されたテンプレートに認識された要素を入力することで、特定の構文構造を持つ文を生成していましたが、これは柔軟性に欠け、豊かさに欠けていました。 いくつかの方法では、シーケンス学習法を利用して、柔軟な構文構造を持つ自然な文章を生成します。具体的には、これらの方法では、ビデオ エンコーダーを使用して特徴を抽出し、言語デコーダーを使用してビジュアルとテキストの配置を学習します。詳細なオブジェクトとアクションで説明を充実させるために、いくつかの方法では、オブジェクト活用表現を利用して、ビデオ内の詳細なオブジェクト認識インタラクション機能をキャプチャします。 既存のアーキテクチャは、ビデオキャプションの一般的な方向性において一定の成果を達成していますが、ビデオの説明を自動運転アクション表現に単純に転送するだけでは、自動運転タスクにとって極めて重要な車両速度などの重要な情報が失われるため、アクション表現に直接適用することはできません。このマルチモーダル情報を効果的に活用して文章を生成する方法については、まだ研究中です。 PaLM-E はマルチモーダル文をうまく処理します。 エンドツーエンドの自動運転学習ベースの自動運転は活発な研究分野です。最近の CVPR2023 最優秀論文 UniAD とそれに続く FusionAD、Wayve の世界モデルベースの研究 MILE などは、すべてこの方向での取り組みです。出力形式には、UniADのように軌跡点を出力するものと、MILEのように車両の動作を直接出力するものがあります。 さらに、車両、自転車、歩行者などの交通参加者の将来の行動をモデル化して車両のウェイポイントを予測するアプローチもあれば、本研究の制御信号予測サブタスクと同様に、センサー入力に基づいて車両制御信号を直接予測するアプローチもあります。 自動運転の説明可能性自動運転の分野では、解釈方法のほとんどは視覚に基づいていますが、LiDAR に基づく研究もいくつかあります。いくつかの方法では、注目度マップの視覚化を利用して重要でない画像領域を除外し、自律走行車がもっともらしく説明可能に見えるようにします。ただし、注目マップにはそれほど重要でない領域が簡単に含まれている可能性があります。また、LIDAR と高精度マップを入力として使用して他の交通参加者の境界ボックスを予測し、コスト量を使用して決定の理由を説明する方法もいくつかあります。さらに、オンライン マップは、高解像度マップへの過度の依存を排除するために、セグメンテーション手法を通じて構築されます。ビジョンベースまたはライダーベースの方法は有望な結果をもたらしますが、言語による説明がないため、システム全体が複雑で理解しにくいものになっています。 [68]は、制御信号を予測するためにオフラインでビデオの特徴を抽出し、その後ビデオの説明タスクを実行することで、自律走行車のテキスト説明の可能性を最初に検討しました。 自動運転におけるマルチタスク学習このエンドツーエンドのフレームワークは、マルチタスク学習を使用して、テキスト生成と制御信号の予測という 2 つのタスクを使用してモデルを共同でトレーニングします。マルチタスク学習は自動運転で広く使用されています。異なるタスクを共同でトレーニングすると、データの利用率が向上し、特徴が共有されるため、各タスクのパフォーマンスが向上します。そのため、この研究では、制御信号予測とテキスト生成の2つのタスクの共同トレーニングを採用しています。 ADAPT法ネットワーク構造図は以下のとおりです。 全体の構造は 2 つのタスクに分かれています。
これらのうち、DCG タスクと CSP タスクはビデオ エンコーダを共有しますが、異なる予測ヘッドを使用して異なる最終出力を生成します。 DCG タスクでは、ビジョン言語変換エンコーダーを使用して 2 つの自然言語文を生成します。 CSP タスクでは、モーション トランスフォーマー エンコーダーを使用して制御信号のシーケンスを予測します。 ビデオエンコーダここでは、Video Swin Transformer を使用して、入力ビデオ フレームをビデオ機能トークンに変換します。 入力 フレーム画像、形状は 、特徴の大きさは 、 ここ チャネルの寸法です。 予測ヘッドテキスト生成ヘッド上記の機能 トークン化によって取得 寸法は 次に、ビデオ トークンは、MLP を通じてテキスト トークンの埋め込みに合わせてサイズ調整され、整列されます。次に、テキスト トークンとビデオ トークンが一緒にビジョン言語変換エンコーダーに送られ、アクションの説明と推論が生成されます。 制御信号予測ヘッド入力 フレームビデオは制御信号に対応する 、CSPヘッドの出力は ここで、各制御信号は必ずしも 1 次元ではなく、速度、加速度、方向などを含む多次元になる場合があります。ここでのアプローチは、ビデオの特徴をトークン化し、それをモーション トランスフォーマーに渡して一連の出力信号を生成することです。損失関数は MSE です。 ただし、最初のフレームは動的情報が少なすぎるため、ここには含まれていないことに注意してください。 合同訓練このフレームワークでは、共有ビデオ エンコーダーのため、実際には CSP と DCG の 2 つのタスクがビデオ表現レベルで調整されていると想定されます。出発点は、動作記述と制御信号はどちらも細分化された車両動作の異なる表現であり、動作推論の説明は主に車両動作に影響を与える運転環境に焦点を当てていることです。 トレーニング中にジョイントトレーニングが使用される 注目すべきは、共同訓練サイトであるにもかかわらず、推論中に独立して実行できることです。CSPタスクは理解しやすいです。フローチャートによると、ビデオを直接入力し、制御信号を出力できます。DCGタスクでは、ビデオを直接入力し、説明と推論を出力できます。テキストは自己回帰に基づいて単語ごとに生成され、[CLS]から始まり、[SEP]または長さのしきい値に達したときに終了します。 実験設計と比較データセット使用されるデータセットは BDD-X で、7,000 組のビデオと制御信号が含まれています。各動画の長さは約40秒で、画像サイズは 、周波数は FPS、各ビデオには加速、右折、車線変更などの 1 ~ 5 の車両動作が含まれます。これらのアクションにはすべて、アクションの説明 (「車が止まった」など) や理由 (「信号が赤だったため」など) を含むテキストが注釈として付けられます。合計で約 29,000 の動作注釈ペアがあります。 実装の詳細
合同訓練の影響ここでは、共同トレーニングの有効性を示すために 3 つの実験を比較します。 シングルこれは、CSP タスクを削除し、DCG タスクのみを保持することを意味し、キャプション モデルのみをトレーニングすることと同じです。 シングル+CSPタスクはまだありませんが、DCGモジュールを入力する際には、ビデオトークンに加えて、制御信号トークンも入力されます。 効果の比較は以下のとおりです DCG のみのタスクと比較すると、ADAPT の推論効果がはるかに優れていることがわかります。制御信号入力があると効果は向上しますが、CSPタスクを追加するほどではありません。CSPタスクを追加するのと同等であり、ビデオを表現し理解する能力がより強くなります。 また、次の表からも、共同トレーニングによって CSP の効果が向上することがわかります。 ここ 精度として理解できます。具体的には、予測された制御信号が切り捨てられます。式は次のとおりです。 さまざまな種類の制御信号の効果実験で使用される基本的な信号は速度と進路ですが、次の表に示すように、どちらか一方だけを使用した場合の効果は、両方を使用した場合ほど良くないことがわかりました。 これは、速度と進路の信号によってネットワークがより優れたアクションの説明と推論を学習できることを示しています。 行動記述と推論の相互作用一般的な説明タスクと比較して、運転説明タスクでは、アクションの説明と推論の 2 つの文が生成されます。次の表に示します。
サンプリングレートの影響結果は予測可能です。フレーム数が多いほど結果は良くなりますが、次の表に示すように、それに応じて速度も遅くなります。 オリジナルリンク: https://mp.weixin.qq.com/s/MSTyr4ksh0TOqTdQ2WnSeQ |
<<: CUDA と TensorRT モデルの展開の最適化: 重要な考慮事項と実践的な戦略
>>: ドイツ反トラスト長官:AIは大企業の支配を強める可能性がある
Audi A8L を運転しているとき、簡単な言葉を発するだけで、旅に必要なものがすべて手に入ると想像...
産業社会の急速かつ安定した発展は、完璧なインフラと切り離すことはできません。ディープラーニングフレー...
近年、人工知能の技術と応用は成熟を続けており、人工知能市場の規模は徐々に拡大しています。中国情報通信...
[[335519]]感染症流行後も実体経済は厳しい状況が続いている。生産停止、収益の急激な減少、資...
半導体メーカーのインテルは本日第3四半期の業績を発表し、同社の株価は時間外取引で約8%上昇した。一方...
[[438413]]都市の生命線であり動脈である交通の発展は極めて重要です。しかし、近年、都市化が...
[[411960]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
現在、製造業における人工知能技術の応用が急成長しています。自社にとって適切な人工知能ツールをどのよう...
[[358905]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
ぼやけた写真が好きな人はいません。本当の顔を復元したいという衝動にかられたことはありませんか? AI...
GoogleのDeepMindチームは最近、「乳がんスクリーニングAIシステムの国際評価」と題した論...
ディープラーニングは、小切手や封筒に手書きされた文字しか認識できなかった時代から、長い道のりを歩んで...
「資本の冬は業界のマシュー効果と適者生存を加速させており、AI分野も例外ではありません。」Infer...