Transformer BEV を使用して自動運転の極端な状況を解決するにはどうすればよいでしょうか?

実際のアプリケーションでは、自動運転システムはさまざまな複雑なシナリオ、特にコーナーケース（極端な状況）に直面する必要があり、自動運転の認識および意思決定能力に高い要求が課せられます。コーナーケースとは、交通事故、悪天候、複雑な道路状況など、実際の運転中に発生する可能性のある極端またはまれな状況を指します。 BEV テクノロジーは、自動運転システムの認識能力を高めるためのグローバルな視点を提供することで、こうした極端な状況への対処においてより優れたサポートを提供することが期待されています。この記事では、BEV (Bird's Eye View) テクノロジーが、自動運転システムがコーナーケースに対処し、システムの信頼性と安全性を向上させるためにどのように役立つかについて説明します。

写真

Transformer は、自己注意メカニズムに基づく深層学習モデルとして、最初に自然言語処理タスクに適用されました。中心となるアイデアは、自己注意メカニズムを通じて入力シーケンス内の長距離依存関係をキャプチャし、それによってモデルのシーケンスデータを処理する能力を向上させることです。

上記 2 つの効果的な組み合わせは、自動運転戦略においても非常に人気のある新興技術です。

01 BEVの技術的優位性の分析

BEV は、3 次元の環境情報を 2 次元平面に投影し、環境内の物体や地形を鳥瞰図のように表示する手法です。自動運転の分野では、BEV はシステムが周囲の環境をよりよく理解し、認識と意思決定の精度を向上させるのに役立ちます。環境認識段階では、BEV は LiDAR、レーダー、カメラなどのマルチモーダルデータを同じ平面上で融合できます。この方法により、データ間の遮蔽や重複の問題を排除し、オブジェクトの検出と追跡の精度を向上させることができます。同時に、BEV は、その後の予測および意思決定の段階で環境を明確に表現できるため、システム全体のパフォーマンスの向上に役立ちます。

1. LiDARとBEV技術の比較:

まず、BEV テクノロジーは、地球規模の視点から環境を認識することができるため、複雑なシナリオにおける自動運転システムのパフォーマンスを向上させることができます。ただし、距離と空間情報の点では、LiDAR の方が精度が高くなります。

第二に、BEV技術はカメラを通して画像を撮影し、色や質感の情報を取得できるが、この点ではLIDARのパフォーマンスは劣る。

さらに、BEV 技術のコストは比較的低く、大規模な商業展開に適しています。

2. BEV技術と従来のシングルビューカメラの比較

従来のシングルビューカメラは、車両周囲の環境情報を取得できる、一般的に使用されている車両認識デバイスです。ただし、単眼カメラでは視野と情報取得に一定の制限があります。 BEV テクノロジーは、複数のカメラからの画像を統合して全体的な視点を提供し、車両周囲の環境をより完全に把握できるようにします。

写真

BEV テクノロジーは、さまざまな角度からの画像情報を融合できるため、複雑なシーンや厳しい気象条件でも、単一ビューカメラよりも優れた環境認識機能を備えており、システムの環境認識が向上します。

BEV テクノロジーは、複雑な道路状況、狭い道路や障害物のある道路などの特殊なケースに自動運転システムがより適切に対処するのに役立ちますが、シングルビューカメラではこのような状況でパフォーマンスが低下する可能性があります。

もちろん、コストとリソース使用量の面では、BEV はさまざまな視点から画像の認識、再構築、スティッチングを実行する必要があるため、より多くの計算能力とストレージリソースを消費します。 BEV 技術では複数のカメラの導入が必要ですが、全体的なコストは LiDAR よりも低く、単一ビューカメラに比べてパフォーマンスが大幅に向上します。

要約すると、BEV テクノロジーは、自動運転の分野における他の認識テクノロジーに比べて一定の利点を持っています。特にコーナーケースへの対処において、BEV テクノロジーはグローバルな視点から環境認識を提供し、複雑なシナリオにおける自動運転システムのパフォーマンス向上に役立ちます。しかし、BEV技術の利点を最大限活用するためには、画像処理機能、センサー融合技術、異常行動予測などの分野で性能を向上させるためのさらなる研究開発が必要です。同時に、他の認識技術（LIDARなど）やディープラーニング、機械学習アルゴリズムと組み合わせることで、さまざまなシナリオにおける自動運転システムの安定性と安全性をさらに向上させることができます。

02トランスフォーマーとBEVをベースとした自動運転システム

同時に、鳥瞰図（BEV）は、効果的な環境認識方法として自動運転システムにおいて重要な役割を果たします。 TransformerとBEVの利点を組み合わせることで、高精度な認識、予測、意思決定を実現するエンドツーエンドの自動運転システムを構築できます。この記事では、Transformer と BEV を効果的に組み合わせて自動運転の分野に適用し、システムパフォーマンスを向上させる方法についても説明します。

具体的な手順は次のとおりです。

1. データ前処理:

LIDAR、レーダー、カメラなどのマルチモーダルデータが BEV 形式に統合され、データの拡張や正規化などの必要な前処理操作が実行されます。

まず、LIDAR、レーダー、カメラなどのマルチモーダルデータを BEV 形式に変換する必要があります。 LIDAR ポイントクラウドデータの場合、3D ポイントクラウドを 2D 平面に投影し、その平面をラスタライズして高さマップを生成できます。レーダーデータの場合、距離と角度の情報を直交座標に変換し、BEV 平面にラスタライズできます。カメラデータの場合、画像データを BEV 平面に投影して、色マップまたは強度マップを生成できます。

写真

2. 知覚モジュール:

自動運転の認識段階では、Transformer モデルを使用して、LIDAR ポイントクラウド、画像、レーダーデータなどのマルチモーダルデータから特徴を抽出できます。このデータをエンドツーエンドでトレーニングすることにより、Transformer はデータの固有の構造と関係性を自動的に学習し、環境内の障害物を効果的に識別して特定できるようになります。

Transformer モデルは、BEV データから特徴を抽出し、障害物の検出と位置決めを実現するために使用されます。

これらの BEV 形式のデータは重ね合わされて、マルチチャネル BEV 画像を形成します。ライダーの BEV 高さマップが H(x, y)、レーダーの BEV 距離マップが R(x, y)、カメラの BEV 強度マップが I(x, y) であるとすると、マルチチャネル BEV 画像は次のように表すことができます。

B(x, y) = [H(x, y), R(x, y), I(x, y)]

ここで、B(x, y)は座標(x, y)におけるマルチチャンネルBEV画像のピクセル値を表し、[]はチャンネルの重ね合わせを表します。

3. 予測モジュール:

認識モジュールの出力に基づいて、Transformer モデルを使用して、他の交通参加者の将来の動作と軌道を予測します。 Transformer は、過去の軌跡データから学習することで、交通参加者の移動パターンと相互作用を捉え、自動運転システムにより正確な予測結果を提供できます。

具体的には、まず Transformer を使用して、マルチチャネル BEV 画像から特徴を抽出します。入力BEV画像をB(x, y)と仮定すると、多層自己注意メカニズムと位置エンコーディングを通じて特徴F(x, y)を抽出できます。

F(x, y) = トランスフォーマー(B(x, y))

ここで、F(x, y) は特徴マップ、つまり座標 (x, y) における固有値を表します。

次に、抽出された特徴F(x, y)を使用して、他の交通参加者の行動と軌跡を予測します。 Transformer デコーダーを使用すると、次のように予測を生成できます。

P(t) = デコーダー(F(x, y), t)

ここで、P(t) は時刻 t における予測結果を表し、Decoder は Transformer デコーダーを表します。

上記の手順により、Transformer と BEV に基づくデータ融合と予測を実現できます。実際のアプリケーションシナリオに応じて、特定のトランスフォーマー構造とパラメータ設定を調整し、最高のパフォーマンスを実現できます。

4. 意思決定モジュール:

予測モジュールの結果に応じて、交通ルールと車両ダイナミクスモデルと組み合わせた Transformer モデルを使用して、適切な運転戦略を生成します。

写真

Transformer は、環境情報、交通ルール、車両ダイナミクスモデルをモデルに統合することで、効率的で安全な運転戦略を学習できます。経路計画、速度計画など。さらに、Transformer のマルチヘッド自己注意メカニズムを利用することで、さまざまな情報ソース間の重みを効果的にバランスさせることができ、複雑な環境でもより合理的な決定を下すことができます。

この方法を使用するための具体的な手順は次のとおりです。

1. データの収集と前処理:

まず、車両の状態情報（速度、加速度、ハンドル角など）、道路状況情報（道路種別、交通標識、車線など）、周辺環境情報（他の車両、歩行者、自転車など）、ドライバーの行動など、大量の運転データを収集する必要があります。データは、データのクリーニング、標準化、特徴抽出などの前処理が行われます。

2. データのエンコードとシリアル化:

収集したデータを Transformer モデルの入力に適した形式にエンコードします。これには通常、連続した数値データを離散化し、離散化されたデータをベクトル形式に変換することが含まれます。同時に、Transformer モデルが時系列情報を処理できるように、データをシリアル化する必要があります。

2.1 トランスフォーマーエンコーダ

Transformer エンコーダーは、同一のサブレイヤーの複数のレイヤーで構成され、各レイヤーには、マルチヘッドアテンションとフィードフォワードニューラルネットワークの 2 つの部分が含まれています。

マルチヘッド自己注意: まず、入力シーケンスが h 個の異なるヘッドに分割され、各ヘッドの自己注意が個別に計算され、次にこれらのヘッドの出力が連結されます。これにより、入力シーケンス内のさまざまなスケールでの依存関係をキャプチャできます。

写真

マルチヘッドセルフアテンションの計算式は次のとおりです。

MHA(X) = Concat(head_1, head_2, ..., head_h) * W_O

ここで、MHA(X)はマルチヘッド自己注意の出力を表し、head_iはi番目のヘッドの出力を表し、W_Oは出力重み行列を表します。

フィードフォワードニューラルネットワーク: 次に、マルチヘッドセルフアテンションの出力がフィードフォワードニューラルネットワークに渡されます。フィードフォワードニューラルネットワークは通常、2 つの完全接続層と 1 つのアクティベーション関数 (ReLU など) で構成されます。フィードフォワードニューラルネットワークの計算式は次のとおりです。

FFN(x) = 最大(0, xW_1 + b_1) * W_2 + b_2

ここで、FFN(x) はフィードフォワードニューラルネットワークの出力を表し、W_1 と W_2 は重み行列、b_1 と b_2 はバイアスベクトル、max(0, x) は ReLU 活性化関数を表します。

さらに、エンコーダーの各サブレイヤーには残差接続とレイヤー正規化が含まれており、モデルのトレーニングの安定性と収束速度の向上に役立ちます。

2.2 トランスデコーダ

エンコーダーと同様に、Transformer デコーダーも同一のサブレイヤーの複数のレイヤーで構成されており、各サブレイヤーには、マルチヘッド自己注意、エンコーダーデコーダー注意、およびフィードフォワードニューラルネットワークの 3 つの部分が含まれています。

マルチヘッドセルフアテンション: エンコーダーのマルチヘッドセルフアテンションと同じで、デコーダー入力シーケンス内の各要素間の相関度を計算するために使用されます。

エンコーダー-デコーダーアテンション: デコーダー入力シーケンスとエンコーダー出力シーケンス間の相関度を計算するために使用されます。これは、クエリベクトルがデコーダーの入力シーケンスから取得され、キーベクトルと値のベクトルがエンコーダーの出力シーケンスから取得されることを除いて、自己注意と同様に計算されます。

フィードフォワードニューラルネットワーク: エンコーダーのフィードフォワードニューラルネットワークと同じです。デコーダーの各サブレイヤーには、残差接続とレイヤーの正規化も含まれます。 Transformer は、エンコーダーとデコーダーの複数のレイヤーを積み重ねることで、複雑な依存関係を持つシーケンスデータを処理できます。

3. Transformer モデルを構築します。

適切なレイヤー数、ヘッド、隠しレイヤーサイズの設定など、自動運転シナリオに適した Transformer モデルを構築します。さらに、運転ポリシー生成タスクの損失関数を使用するなど、タスクの要件に応じてモデルを微調整する必要があります。

まず、特徴ベクトルを MLP に渡して低次元ベクトルを取得し、これを GRU によって実装された自己回帰パスポイントネットワークに渡して、GRU の隠し状態を初期化するために使用されます。さらに、現在の位置とターゲット位置も入力されるため、ネットワークは隠れ状態の関連するコンテキストに集中できます。

写真

単層 GRU では、線形層を使用して、隠れ状態からウェイポイントのオフセットを予測し、予測されたウェイポイントを取得します。 GRU への入力は origin です。

コントローラは 2 つの PID コントローラを使用して、予測された経路ポイントに従ってそれぞれ横方向と縦方向の制御を実行し、ステアリング、ブレーキ、スロットルの値を取得します。連続するフレームのパスポイントベクトルは加重平均されるため、縦方向コントローラの入力はその係数となり、横方向コントローラの入力はその方向となります。

現在のフレームの自車両座標系におけるエキスパート軌道パスポイントと予測軌道パスポイントのL1損失を計算する。

4. トレーニングと検証:

Transformer モデルは、収集されたデータセットを使用してトレーニングされます。トレーニングプロセス中に、モデルの一般化能力を確認するためにモデルを検証する必要があります。データセットは、モデルを評価するためにトレーニングセット、検証セット、テストセットに分割できます。

5. 戦略立案の推進:

実際のアプリケーションでは、現在の車両の状態、道路状況、周囲の環境情報に応じて、事前にトレーニングされた Transformer モデルが入力されます。モデルは、これらの入力に基づいて加速、減速、ステアリングなどの運転戦略を生成します。

6. 戦略の実行と最適化を推進する:

生成された運転ポリシーは自動運転システムに渡され、車両を制御します。同時に、実際の実行プロセスからのデータが収集され、モデルのさらなる最適化と反復が行われます。

上記の手順により、Transformer モデルベースの方法を使用して、自動運転の意思決定段階で適切な運転戦略を生成することができます。自動運転の分野では安全性に対する要求が高いため、実際の展開時にはさまざまなシナリオにおけるモデルのパフォーマンスと安全性を確保する必要があることに留意する必要があります。

03 変圧器+BEV技術によるコーナーケースの解決例

このセクションでは、複雑な道路状況、厳しい気象条件、異常な動作の予測など、コーナーケースを解決する BEV テクノロジーの 3 つの例を詳しく紹介します。次の図は、自動運転におけるいくつかのコーナーケースのシナリオを示しています。 Transformer + BEV テクノロジーは、現在識別可能なほとんどのエッジシナリオを効果的に識別し、対処できます。

写真

1. 複雑な道路状況への対処

交通渋滞、複雑な交差点、不規則な路面などの複雑な道路状況では、Transformer + BEV テクノロジーはより包括的な環境認識を提供できます。 BEV は、車両周囲の複数のカメラからの画像を統合することで、連続した俯瞰ビューを生成し、自動運転システムが車線、障害物、歩行者、その他の交通参加者を明確に識別できるようにします。たとえば、複雑な交差点では、BEV テクノロジーにより、自動運転システムが各交通参加者の位置と移動方向を正確に識別できるため、経路計画と意思決定のための信頼できる基盤を提供できます。

2. 悪天候への対処

雨、雪、霧などの厳しい気象条件では、従来のカメラやライダーが影響を受け、自動運転システムの認識能力が低下する可能性があります。 Transformer + BEV テクノロジーは、さまざまな角度からの画像情報を融合してシステムの環境認識を向上させることができるため、このような状況でも一定の利点があります。悪天候下でもトランスフォーマー+BEV技術の性能をさらに高めるためには、このような状況での可視光カメラの欠点を補う赤外線カメラや熱画像カメラなどの補助装置を検討することができます。

3. 異常な行動を予測する

実際の道路環境では、歩行者、自転車、その他の交通参加者が突然道路を横断したり、交通ルールに違反したりするなど、異常な行動をとることがあります。 BEV テクノロジーは、自動運転システムがこれらの異常な動作をより正確に予測するのに役立ちます。 BEV は地球規模の視点から完全な環境情報を提供できるため、自動運転システムは歩行者やその他の交通参加者の動きをより正確に追跡し、予測することができます。さらに、Transformer + BEVテクノロジーは、機械学習やディープラーニングアルゴリズムと組み合わせることで、異常な動作を予測する精度をさらに向上させ、複雑なシナリオでも自動運転システムがより合理的な判断を下せるようになります。

4. 狭い道路や障害物のある道路

狭い道路や障害物のある道路環境では、従来のカメラやライダーでは、効果的な環境認識に十分な情報を取得することが難しい場合があります。ただし、Transformer + BEV テクノロジーは、複数のカメラで撮影した画像を統合して、より包括的なビューを生成できるため、このような状況で役立ちます。これにより、自動運転システムは車両の周囲の環境をよりよく理解し、狭い通路内の障害物を識別して、これらのシナリオを安全に移動できるようになります。

5. 合併と合併

高速道路などのシナリオでは、自動運転システムは車両の合流や交通の流れなどの複雑なタスクを処理する必要があります。これらのタスクでは、安全な合流と交通渋滞を確保するために、システムが周囲の車両の位置と速度をリアルタイムで評価する必要があるため、自動運転システムの認識能力に高い要求が課せられます。 Transformer+BEV テクノロジーの助けにより、自動運転システムは全体的な視点を獲得し、車両周辺の交通状況を明確に把握できるようになります。これにより、自動運転システムは、車両が交通の流れに安全に統合されるように適切な合流戦略を開発できるようになります。

6. 緊急対応

交通事故、道路閉鎖、緊急事態などの緊急事態では、自動運転システムは運転の安全を確保するために迅速な判断を行う必要があります。このような状況では、Transformer + BEV テクノロジーは、自動運転システムにリアルタイムで包括的な環境認識を提供し、システムが現在の道路状況を迅速に評価するのに役立ちます。リアルタイムデータと高度な経路計画アルゴリズムを組み合わせることで、自動運転システムは潜在的なリスクを回避するための適切な緊急戦略を策定できます。

これらの例から、Transformer + BEV テクノロジーはコーナーケースに対処する上で大きな可能性を秘めていることがわかります。しかし、Transformer+BEV技術の利点を最大限に活用するためには、画像処理機能、センサー融合技術、異常行動予測などの性能を向上させるためのさらなる研究開発が必要です。

04 結論

この記事では、自動運転におけるトランスフォーマーと BEV 技術の原理と応用、特にコーナーケース問題を解決する方法についてまとめています。 Transformer+BEV技術は、地球規模の視点と正確な環境認識を提供することで、極限状況における自動運転システムの信頼性と安全性を向上させることが期待されています。しかし、現在の技術には、悪天候時の性能低下など、依然として一定の限界があります。今後の研究では、BEV 技術の改善と他の認識技術との統合に引き続き重点を置き、より高いレベルの自動運転の安全性を実現する必要があります。

<<: MetaはAIアルゴリズムアプリケーションの透明性を高め、ユーザーに詳細な説明とより多くの選択肢を提供します。

>>: 独占インタビュー | 独立系開発者 Li Xiaoyu: AI ツールを使用して作業効率を向上