自動運転におけるトランスフォーマーベースのモデルとハードウェアアクセラレーションの分析

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

タイトル: 自動運転におけるトランスフォーマーベースのモデルとハードウェアアクセラレーション分析: 調査

タイトル: 自動運転におけるトランスフォーマーベースモデルとハードウェアアクセラレーションの分析: 調査

論文: https://arxiv.org/abs/2304.10891

0. 要約

近年、Transformer アーキテクチャは、さまざまな自動運転アプリケーションで有望なパフォーマンスを示しています。一方、ポータブルコンピューティングプラットフォーム上の専用ハードウェアアクセラレーションは、真の自律走行車の実用化に向けた次の重要なステップとなっています。この調査論文では、車線検出、セグメンテーション、追跡、計画、意思決定などの自動運転タスク向けに特別に調整された Transformer ベースのモデルの包括的な概要、ベンチマーク、分析を提供します。エンコーダー-デコーダーやエンコーダーのみの構造など、Transformer の入力と出力を整理するためのさまざまなアーキテクチャを確認し、それぞれの利点と欠点を探ります。さらに、量子化や実行時間などの重要な要素を考慮して、Transformer 関連の演算子とそのハードウェアアクセラレーションソリューションについて詳細に議論しました。具体的には、畳み込みニューラルネットワーク、Swin-Transformer、および 4D エンコーダーを備えた Transformer のレイヤー間の演算子レベルの比較を示します。このホワイトペーパーでは、Transformer ベースのモデルの課題、傾向、現在の洞察についても取り上げ、長期的な自動運転アプリケーションのコンテキストにおけるハードウェアの展開と加速についても説明します。

索引用語: Transformer、ハードウェアアクセラレーション、自動運転、ディープラーニング

1. はじめに

近年、自動運転は、自動化されたインテリジェントなシステムを通じて人間の運転手を支援することを目指した、急速に発展している分野となっています。自動運転技術の導入が成功すれば、交通システムの安全性と効率性が大幅に向上する可能性があります。過去20年間にわたり、従来のルールベースのアプローチ[1]、[2]から高度な機械学習手法[3]に至るまで、自動運転のためのさまざまなデータ駆動型技術が開発されてきました。従来の自動運転方法は、主に表現式とバイナリエンコードされた交通ルールを解析するアルゴリズムに依存して、環境を認識し、軌道を計画し、車両を制御します。2010年代前半から中頃のレビュー記事を参照してください。たとえば、都市シナリオの方法[4]、動作計画と制御[5]、[6]、同時位置推定とマッピング（SLAM）タスク[7]などです。

しかし、これらの従来の方法では、動的なオブジェクト、オクルージョン、不確実な環境など、複雑な現実世界のシーンを扱う際に課題に直面することがよくあります。対照的に、ディープラーニング手法[8]、特にディープニューラルネットワーク（DNN）は、データから複雑なパターンを学習し、予測を行うことに優れています。例えば、畳み込みニューラルネットワーク（CNN）[9]は、畳み込み層を使用して局所的な空間特徴を検出し、それらを階層的に組み合わせて複雑なパターンを認識するDNNの一種であり、自動運転アプリケーションで広く使用されています。これまでの調査では、さまざまな自動運転タスクに対するディープラーニングの手法がレビューされ、議論されてきました。これには、一般的な議論 [3]、[10]、[11]、[12]、[13]、強化学習を使用したモデル [14]、物体検出モデル [15]、軌道と行動の予測モデル [16]、[17]、マルチモーダル融合モデル [18]、計画と意思決定モデル [19]、[20]、[21]、説明可能なAIモデル [22]、シーン生成モデル [23] が含まれます。

最近、Transformerアーキテクチャ[24]は、さまざまな自動運転タスクにおいて従来のCNNモデルと比較して優れたパフォーマンスを示しています。その結果、ポータブルハードウェアに Transformer モデルを導入し、オペレーターレベルのアクセラレーションスキームを開発することへの関心が高まっています。この記事の目的は、Transformer ベースのモデルに関する最新の研究について包括的かつ詳細な概要を提供することであり、特に自動運転のためのオペレーターレベルの加速技術に重点を置いています。

自動運転におけるCNNベースの手法の性能をさらに向上させるために、注意メカニズムが導入された[25]。注意メカニズムの背後にある主な考え方は、モデルが現在のコンテキストとの関連性に基づいて入力のさまざまな部分に重み付けできるようにすることです。たとえば、シーケンスツーシーケンスモデルの場合、アテンションメカニズムにより、デコーダーはターゲットシーケンスを生成するときにソースシーケンスの特定の部分に焦点を当てることができます。この選択的なフォーカスにより、モデルは従来の再帰型ニューラルネットワークよりも長期的な依存関係と関係をより効果的に捉えることができます。図 1 に示すように、アテンションメカニズムは、指定されたクエリ (Q) との互換性に応じて、入力値のセット (「値」とも呼ばれます) (V) の加重合計を計算する関数として説明できます。注意メカニズムは、注意スコアリング関数を使用して各キーとクエリのペアの注意スコアを計算し、Softmax 関数を使用してこれらのスコアを正規化し、注意の重みを生成します。これらの重みは、アテンションメカニズムの出力を表す値の加重合計を計算するために使用されます。注意メカニズムは、関連する情報に選択的に焦点を合わせることで、学習プロセスの効率と堅牢性を向上させます。

図1：左の画像はSelf-Attention（またはスケールされたドット積注意）を示しており、右の画像は[24]に示されているように、複数の注意層で構成されるMulti-Head-Attentionを示しています。

トランスフォーマーアーキテクチャ[24]はもともと自然言語処理（NLP）タスクのための注意メカニズムに基づいて開発されましたが、長期的な依存関係をモデル化し、グローバルなコンテキストをキャプチャする能力により、自動運転における知覚タスクにも魅力的になっています。入力データ内の依存関係を処理およびキャプチャするように設計されており、再帰層や畳み込み層の必要性を排除し、高度な並列計算を可能にします。典型的なトランスフォーマーは、エンコーダーとデコーダーの構造で構成されます。エンコーダーは同一のレイヤーのスタックで構成され、各レイヤーには、マルチヘッドアテンションメカニズム (図 1 を参照) と位置エンコードフィードフォワードニューラルネットワークという 2 つの主要コンポーネントが含まれています。 Multi-Head-Attentionモジュールにより、モデルは入力シーケンスのさまざまな部分の重要度を相互に同時に重み付けし、長期的な依存関係を捉えることができます。 Transformer アーキテクチャには位置エンコーディングが含まれており、Attention メカニズム自体は位置情報をキャプチャしないため、入力要素の相対位置または絶対位置に関する情報が挿入されます。

したがって、Transformer アーキテクチャのハードウェアアクセラレーションは、実際の自動運転シナリオモデルを実現するための重要な領域になります。 AI チップのハードウェアアクセラレーションでは、特殊なプロセッサまたは専用のハードウェアユニットを使用して、汎用 CPU や GPU よりも効率的に特定の操作を実行します。一方、Transformer 演算子は、Transformer アーキテクチャの基本的な構成要素であり、行列乗算、アテンション計算、フィードフォワードニューラルネットワーク計算などの基本的な数学演算を実行するために使用されます。 Transformer オペレーターの最適化は、ハードウェアアクセラレータのパワーを最大限に活用し、Transformer ベースのモデルを迅速かつ効率的に展開および実行するために不可欠です。これらの演算子をカスタマイズして、並列処理、低精度演算、特殊な機能ユニットなどの AI チップの利点を活用することで、Transformer モデルの全体的なパフォーマンスを大幅に向上させることができます。 AI アクセラレータは通常、低精度演算、データ圧縮、並列処理などの技術を使用して計算を高速化し、消費電力を削減します。

この論文の残りの部分は次のように構成されています。セクション 2 では、基本的な Transformer モデルと、さまざまな自動運転タスクに対応するさまざまな Transformer バリアントを紹介します。セクション 3 では、さまざまな Transformer エンコーダー/デコーダー構造、演算子、およびポータブル AI デバイスにおけるハードウェアアクセラレーションの進歩について説明します。第 4 章では、Transformer ベースのディープラーニング実装における課題と傾向について説明し、結論を述べます。

2. Transformer モデルとタスク

注意メカニズムと Transformer アーキテクチャの開発の歴史は、図 2 に示すように、一連の重要な開発とマイルストーン論文を通じて追跡できます。 [25]は、ニューラル機械翻訳の文脈で初めて注意メカニズムを導入し、ソースシーケンスとターゲットシーケンス間の動的アライメント方法を提案した。このアプローチは、初期のシーケンス間モデルにおける固定長コンテキストベクトルの制限を克服します。 Luongら[26]は、ローカルアテンションとグローバルアテンションを提案することでアテンションメカニズムをさらに改良しました。ローカルアテンションはソースシーケンスの小さなサブセットに焦点を当て、グローバルアテンションは可変長アライメントコンテキストの計算のためにすべてのソースワードを考慮します。

図 2: Attention メカニズムと Transformer アーキテクチャの研究の歴史と主要なマイルストーンを示すタイムライン図。

この方向に沿ったマイルストーンは、Transformer アーキテクチャを初めて導入した Vaswani らによって提案されました。この革新により、さまざまな NLP タスクのパフォーマンスが大幅に向上します。その後、Devlinらは、Transformerアーキテクチャを使用した双方向表現の事前トレーニング済みモデルであるBERT（Bidirectional Encoder Representations from Transformers）を提案しました。下流のタスクを微調整すると、BERT は NLP タスクで前例のないパフォーマンスを実現します。

別の研究では、Radfordらは、言語モデルの事前トレーニングに単方向Transformerアーキテクチャを使用するGPT（Generative Pre-trained Transformer）モデルを提案しました。特定のタスクで GPT を微調整することで、パフォーマンスが大幅に向上し、その後の反復 (GPT-2、GPT-3、GPT-4) では最先端の技術がさらに進歩し続けました。

最近、Dosovitskiy らは、Vision Transformer (ViT) モデルを使用して、Transformer アーキテクチャをコンピュータービジョンタスクに適用できることを実証しました。著者らは、画像を重複しない小さなパッチに分割し、線形埋め込みを使用することで、画像分類タスクにおいて従来の CNN モデルと比較して競争力のある結果を達成しました。 ViT は、後続の画像処理タスクにおけるトランスフォーマーベースのモデルの基本アーキテクチャの 1 つでもあります。

2.1 画像処理の基本モデル

Transformerベースの画像処理モデルの先駆的なアーキテクチャであるViT[29]は、従来のCNNの畳み込み層を自己注意に置き換えます。図 3 に示すように、画像を一連の重複しないパッチに分割し、それらを Transformer エンコーダーに送り込んで画像の表現を学習します。 Transformer エンコーダーは、複数の自己注意層とそれに続くフィードフォワード層で構成されています。自己注意メカニズムにより、ネットワークは画像内の関連するパッチに焦点を合わせ、無関係なパッチを無視することができます。 ViT をより大きな画像に適用できるようにするために、著者らは畳み込み層と自己注意層を組み合わせたハイブリッドアプローチを導入しました。畳み込み層は画像の空間解像度を下げるために使用され、自己注意層はパッチ間の長距離依存関係をキャプチャするために使用されます。

図3: ViTアーキテクチャ。左の図は画像分割と位置埋め込みプロセスを示し、右の図は[29]に示されているマルチヘッドアテンションレイヤーを含む標準的なエンコーダーアーキテクチャを示しています。

ViTに触発されて、 Swin-Transformer[30]は、自己注意メカニズムを多段階の階層に編成する新しい階層化アーキテクチャを導入しました。各層は重複しないパッチの集合で構成されています。このアプローチは、自己注意の二次複雑性により、視覚トランスフォーマーのスケーラビリティが制限されるという観察に基づいています。 Swin-Transformer の主な革新は、可動ウィンドウの使用です。これにより、パッチは隣接するパッチとの重なりを避けながら、隣接するパッチに注意を払うことができます。これにより、自己注意を計算するために必要な計算回数が削減され、アーキテクチャをより大きな画像サイズに拡張できるようになります。また、画像を固定サイズの重複しないパッチに分割し、階層の各レベルでパッチを再帰的にグループ化してより大きな「マクロパッチ」にする新しいトークン化スキームも導入されています。このアプローチは空間情報を保存するのに役立ち、モデルがローカルとグローバルの両方のコンテキストをキャプチャできるようにします。多くの知覚モデルは、BEVFusion[31]、[32]、BEVerse[33]など、画像特徴を取得するためにSwinTransformerをバックボーンとして使用しています。

自動運転アプリケーションでは、Transformer ベースのアーキテクチャが、物体検出、車線検出とセグメンテーション、追跡と位置特定、経路計画、意思決定などのさまざまなサブタスクで広く使用されています。さらに、最近の研究では、自動運転のためのエンドツーエンドのディープラーニングモデルの構築における Transformer の使用も検討されています。これらのモデルは、注意メカニズムを利用して、関連情報に焦点を合わせる能力をさらに向上させ、複雑な現実世界の運転シナリオで効果的に機能します。このセクションの残りの部分では、表 1 に示すように、Transformer ベースのモデルをタスクに応じて確認します。タスクは主に、 3D および一般的な認識タスク (オブジェクトの検出、追跡、3D セグメンテーションを含む)、2D および平面タスク (車線検出、セグメンテーション、HD マップ生成を含む)、その他のタスク (軌道予測、動作予測、エンドツーエンドのタスクを含む) の 3 つのカテゴリに分類されます。

表 1: 標準 NVIDIA GTX3090 GPU 上のさまざまな Transformer クラスのベンチマークパフォーマンス。 backbone は各モデルのバックボーンアーキテクチャを記述し、parameter はモデルパラメータのサイズを示します。 Glops は 1 秒あたりのギガ浮動小数点演算、fps は 1 秒あたりのフレーム、map はモデルの平均精度を表します。最後の列は、各モデルで使用されるベンチマークデータセットを示します。

2.2 3D一般知覚タスク

最初のカテゴリのタスクは、オブジェクトの検出、追跡、3D セグメンテーションタスクを含む 3D および一般的な認識です。これは、近年の Transformer ベースのモデルに関する研究で注目されている分野の 1 つです。このタイプのタスクは、車両、歩行者、環境内のその他の要素などのオブジェクトをセグメント化、認識、追跡することを目的としています。様々なトランスフォーマーベースのモデルの中で、DETR[67]は元々2D検出用に設計されたものの、その後の多くの研究に影響を与えた初期の重要なモデルです。

DETR は、オブジェクトの検出を事前に生成されたボックスを使用した予測問題と見なし、従来のアンカーを排除します。ハンガリーアルゴリズムに基づく二部マッチング法を使用して、1対1のターゲットセットを直接予測します。変形DETR[68]などの変形モデルは、変形注意を導入することでモデルの収束速度を改善し、クエリの曖昧さの問題を解決するために提案されている。 DETRアーキテクチャを基盤として、 DETR3D [34]はTransformerを複数のカメラに適用し、鳥瞰図（BEV）空間での3D物体検出を実現します。まず、ポイントクラウドデータ (LiDAR から) を 3D ボクセル表現に変換し、次に、マルチスケール機能融合を使用してグローバルおよびローカルのコンテキスト情報を取得する修正された DETR アーキテクチャに送り込みます。

FUTR[69]もアーキテクチャ的にはDETRに似ていますが、複数のセンサー（画像+ライダー+レーダー）を使用します。マルチモーダル入力は BEV 機能に融合され、その後リフトされて 3D BBOX が実現されます。 FUTR3D[35]はFUTRに基づいて、3D物体検出をマルチモーダル融合に拡張します。構造は DETR3D に似ていますが、さまざまなセンサー構成を処理し、2D カメラ、3D LIDAR、3D レーダー、4D イメージングレーダーなどのさまざまなモダリティを融合できる、モダリティに依存しない機能サンプラー (maffs) が追加されています。

PETR[36]、[37]は、位置埋め込み変換を使用してマルチビュー3Dオブジェクト検出を行う最近の開発である。 3D 座標位置情報は画像特徴にエンコードされ、3D 位置認識特徴が生成されます。推論中に、3D 位置座標をオフラインで生成し、追加の入力位置埋め込みとして使用できます。

CrossDTR[38]はPETRとDETR3Dの長所を組み合わせて、他の方法と同等の精度を達成しながら、デコーダー層の数が少ないため処理時間が短いクロスビューと深度ガイドのフレームワークを作成します。

BEVFormer[39]、[40]は異なるアプローチを採用し、時空間Transformerアーキテクチャを採用して統一されたBEV表現を実現し、マルチモーダル入力に依存せずにパフォーマンスを向上させます。空間と時間の融合を組み合わせ、履歴情報を活用してパフォーマンスを向上させます。 BEVFormer は、時間的自己注意モジュールを利用して、移動物体の速度推定と遮蔽物体の検出のために履歴 BEV 特徴から特徴を抽出し、BEV Z 方向の列クエリのために空間クロス注意を垂直方向に拡張します。

対照的に、 UVTR[41]は、画像とLiDAR入力間のクロスモーダル相互作用を活用して深度推論を強化し、高圧縮なしでBEV内の各モダリティごとに個別のボクセル空間を生成し、知識移転とモダリティ融合を通じてマルチモーダル情報を融合することに重点を置いています。この方法は、3 次元空間占有研究を拡大するための有望な方向性を提供します。

3Dセグメンテーションタスクでは、 TPVFormer[42]はボリュームを3つのBEV平面に変換することでTransformerベースの方法の効率性の問題を解決し、計算負荷を大幅に軽減しながら、空間内のすべてのボクセルの意味的占有率を効果的に予測します。 VoxFormer[43]は2D画像を利用して深度予測により3Dボクセルクエリ提案を生成し、提案された2D画像特徴の3Dボクセルクエリに基づいて変形可能なクロスアテンションクエリを実行します。次に、マスクされたオートエンコーダーを使用して情報を自己注意的に伝播し、アップサンプリングネットワークを使用してボクセルを精製し、意味的占有結果を生成します。

SurroundOcc[44]は、マルチビューおよびマルチスケールの2D画像特徴から3D BEV特徴クエリを実行し、それに3D畳み込みを追加しました。トランスフォーマーレイヤーと段階的にアップサンプリングされたボリューム機能。マルチレベルの BEV 機能を生成する場合、3D 畳み込みネットワークはこれらの機能を組み合わせて高密度の空間占有を生成できます。

3D オブジェクト追跡のタスクでは、既存の方法のほとんどは、空間と外観の類似性を活用するヒューリスティック戦略に依存しています。しかし、多くの場合、時間情報を効果的にモデル化することはできません。最近の Transformer ベースのモデルは、この問題を軽減することを目的としています。例えば、MOTR[45]はDETRモデルを拡張し、マルチオブジェクトトラッキング（MOT）フレームワークを構築した。これは、ビデオ全体の追跡インスタンスをモデル化するための「追跡クエリ」を導入し、ビデオシーケンスの時間的変化を活用し、ターゲットの長期的な時間的変化を暗黙的に学習して、明示的なヒューリスティック戦略の必要性を回避することを目的としています。モーションベースおよび外観ベースの類似性ヒューリスティックスと後処理技術に依存する従来の方法とは異なり、 MOTR は追跡 NMS または IoU マッチングを必要とせずにオブジェクト追跡を処理します。

MUTR3D[46]は、空間的および外観的類似性に基づいてカメラとフレーム間でオブジェクトを関連付けることで、同時検出と追跡を実行します。このアプローチでは、3D 軌跡クエリを利用して、時間の経過や複数のカメラにわたるオブジェクトの 3D 状態と外観特性を直接モデル化します。各フレームでは、3D 軌跡クエリがすべての可視カメラから特徴をサンプリングし、軌跡の開始、追跡、または終了を学習します。

トランスフォーマーベースの方法は、3D と一般的な認識タスクの両方で目覚ましい進歩を遂げており、より複雑で現実的な自動運転シナリオのためのより広範囲の認識タスクに特化した注意メカニズムを開発する可能性を浮き彫りにしています。

2.3 2Dおよび平面タスク

3D タスクカテゴリとは対照的に、2 番目のタスクカテゴリは 2D および平面タスクとして分類され、モデルは主に車線検出、セグメンテーション、HD マップ生成などのタスクを処理します。車線検出タスクでは、モデルをさらに 2 つのグループに分けます。最初のモデルセットは BEV 機能を生成し、その後に CNN セマンティックセグメンテーションと検出ヘッドが続きます。

例えば、 BEVSegFormer[47]はクロスアテンションメカニズムを使用してマルチビュー2D画像の特徴を照会します。トランスフォーマーの後にセマンティックデコーダーが追加され、クエリを BEV 道路セマンティックセグメンテーション結果にデコードします。

PersFormer[48]はCNNを使用して画像の特徴を抽出し、それを2つのパスに分割します。最初のパスは CNN ベースの 2D 車線検出ヘッドに接続され、2 番目のパスは逆遠近法マッピング (IPM) メソッドを使用して遠近法ビュー (PV) 機能を BEV ビュー機能に変換し、BEV 機能のクエリと強化のための Transformer ネットワークに接続されます。 2 番目のモデルグループは、多項式、キーポイント、ベクトル、ポリラインなどのさまざまな表現を使用して道路構造を直接照会および生成します。

例えば、 LSTR[49]は2次または3次の多項式を使用して平坦な単車線の道路標示を近似します。 Transformer クエリを使用して多項式のパラメータを更新し、ハンガリアンマッチング損失によってパス依存の回帰損失が最適化されます。 LSTR は、より効率的なクエリを実現するために軽量の Transformer アーキテクチャを採用しています。

CurveFormer[50]は、特徴ビュー変換を必要とせずに2D画像から直接車線を生成することで推論を高速化します。 Transformer デコーダーは、曲線クエリを使用して 3D 車線検出式を曲線伝播問題に変換するために採用され、曲線交差点注意モジュールは、曲線クエリと画像特徴間の類似度を計算するために使用されます。

車線検出に加えて、Transformer アーキテクチャはセグメンテーションタスクにも使用されます。例えば、 TIiM[51]は、画像や動画をコストマップやBEV表現に変換する時間マッピングのためのシーケンスツーシーケンスモデルを提供します。画像内の垂直走査線とオーバーヘッドマップ内の光線が 1 対 1 で対応していると仮定することにより、TIiM はデータ効率が高く空間を意識したアプローチとして提案されています。

Panoptic SegFormer[52]は、セマンティックセグメンテーションとインスタンスセグメンテーションを組み合わせたPanopticセグメンテーションフレームワークを提案した。効果的なセグメンテーションを実現するために、教師ありマスクデコーダーとクエリ分離戦略が提案されています。

HDマップ生成タスクでは、 STSU[53]は車線をBEV座標の有向グラフとして表現し、単純な多層パーセプトロン（MLP）に基づいてベジェ制御点とグラフの接続性を学習します。前方カメラ画像をBEV道路構造に変換するために、DETRタイプのクエリ方式が採用されています。

VectorMapNet[54]は、BEVビューでスパースポリラインプリミティブを使用してジオメトリをモデリングし、高精度マップのエンドツーエンドのベクトル化を実現した最初のTransformerネットワークです[70]。セット予測（粗いキーポイントを検出するため）とシーケンス生成（マッピング要素の次のポイントを予測するため）で構成される 2 段階パイプラインを採用しています。

MapTR[55]は、地図要素を等価なエンベロープのセットを持つ点の集合としてモデル化する、オンラインでベクトル化された高精度の地図生成のためのフレームワークを開発した。インスタンスレベルおよびポイントレベルの情報を柔軟にエンコードし、マッピング要素の構造化された二部マッチングを学習するために、階層的なクエリ埋め込みスキームが導入されています。

これらのモデルは、マルチビュー機能を統合された BEV ビューに効果的に統合し、エンドツーエンドのオンライン高精度マップ構築を容易にすることが示されており、これは他の下流タスクにとって非常に重要です。

2.4 予測と意思決定

Transformer アーキテクチャは、2D/3D 認識タスクに加えて、予測、計画、意思決定などの他のタスクにも使用されます。さらに、最近の研究では、トランスフォーマーを使用して、認識、計画、制御を統合システムに統合することを目指して、自動運転用のエンドツーエンドのディープニューラルネットワークモデル全体を構築することが検討されています。軌道や動作の予測では、標準的な CNN モデルの特徴抽出、特に長距離の相互作用をモデル化する能力が限られていることが実用的な課題となります。次に、この問題を解決するために、Transformer ベースのモデルが開発されます。

VectorNet[56]は、これらのジオメトリ（道路標示や車両の軌跡）をベクトル形式の入力に変換するために開発されました。これは、ベクトル表現を使用して HD マップとエージェントの軌跡をエンコードし、個々の道路コンポーネントの空間的局所性を活用してそれらの相互作用をモデル化する階層型グラフニューラルネットワークを導入します。

TNT[78]は、各軌道の終点に応じて車両モードを定義し、軌道予測を終点予測問題に変換することで、軌道予測を簡素化します。ただし、アンカーベースの技術である TNT では、エンドポイントを予測する前にヒューリスティックなアンカー定義が必要です。

DenseTNT[57]はエンドポイントの確率分布を直接予測することでこの制限を克服し、アンカーフリー予測を実現します。 mmTransformer[58]は、独立した提案の固定セットを通じて機能レベルでマルチモーダル性をモデル化するためのスタックされたTransformerアーキテクチャを提案した。次に、結果として得られる提案に多様性をもたらすために、地域ベースのトレーニング戦略が開発されました。この戦略により、マルチモーダルな動作出力が保証されながら、動作予測の複雑さが軽減されます。

AgentFormer[59]は、特定の時点でのエージェントの状態が別のエージェントの将来の状態に直接影響を与えることを可能にし、単一次元でエンコードされた中間特徴の必要性を排除します。この方法では、時間情報と相互作用関係を同時に学習できます。また、エージェントの現在の関係が異なる時間の関係を通じて反映されることが保証されるため、同じ入力要素の状態に対する従来の Transformer アテンションメカニズムで通常発生する時間情報とエージェント情報の損失が軽減されます。入力に静的データと動的データの両方が含まれるより複雑なケース（道路の形状、車線の接続、信号など）では、自己注意と高価な位置フィードフォワードネットワークが入力シーケンスの長さに二次依存するため、標準的なトランスフォーマーでは広範な多次元シーケンスをモデル化することが困難です。

WayFormer[60]は、融合前、融合後、レイヤーごとに入力を分析することでこの問題を軽減し、効率と品質のバランスを維持します。このアプローチにより、モダリティ固有のモジュールを設計する複雑なプロセスが回避され、モデルの拡張とスケーリングが容易になります。

最後に、エンドツーエンドのタスクの最終的な目標は意思決定信号を出力することであるため、エンドツーエンドモデルは計画および意思決定タスクとして広く分類されます。過去数年でいくつかの研究が登場しており、例えばTransferuser[61]はデータ処理、中間データの融合、特徴マップ生成に複数のTransformerモジュールを使用しています。複数の解像度 (64×64、32×32、16×16、8×8) でのデータ融合が特徴抽出器全体に適用され、画像と LiDAR BEV ストリームから 512 次元の特徴ベクトルが出力され、要素ごとの合計によって結合されます。このアプローチでは、AV の前方 32 m 以内、両側 16 m 以内の検知エリアを考慮し、32 m × 32 m の BEV グリッドを網羅します。グリッドは 0.125m × 0.125m のブロックに分割され、解像度は 256 × 256 ピクセルになりました。

NEAT[62]は、シーンの意味的、空間的、時間的構造を効率的に推論する表現を提案した。これは、中間注意マップを使用して高次元の 2D 画像機能をコンパクトな表現に反復的に圧縮し、BEV シーン座標内の位置をウェイポイントとセマンティクスにマッピングする連続関数を構築します。

Interuser[63]はTransferuserアーキテクチャに基づいて、マルチモーダルおよびマルチビューセンサーからの情報を融合し、より優れたパフォーマンスを実現するシングルステージアーキテクチャを提案しました。このフレームワークは、Transformer 出力操作を制限するセキュリティ制御フィルターを開発することで、エンドツーエンドモデルのセキュリティを強化します。モデルの安全性を考慮した出力には 10 個のウェイポイントパスが含まれ、安全性を考慮した出力には交通ルール情報と、車両、歩行者、自転車などの 7 つの特徴を持つオブジェクト密度マップが含まれます。これらの出力は、マルチビュー画像入力と、自律走行車の前方 28 メートルと側面 14 メートルの領域をカバーする LIDAR ポイントクラウドデータを融合することによって生成されます。分析対象エリアのサイズは 20m × 20m で、1m × 1m のグリッドに分割されています。 MMFN[64]は、カメラとLiDAR信号に加えて、エンドツーエンドのタスクでベクトル化されたHDマップとレーダーも使用します。ネットワーク入力としての HD マップのさまざまな表現が検討され、4 種類のデータを融合するためのフレームワークが提案されています。 STP3[65]と呼ばれる別の研究では、2Dを3Dに変換し、ターゲットの特徴を整列させる自己中心的アライメント蓄積方式が提案された。予測モジュールは、時刻 t における障害物情報と時刻 tn における障害物位置情報を統合します。

主にエンドツーエンドのタスク向けに設計された上記の研究とは異なり、UniAD[66]は計画指向のフレームワークを提案しました。

この論文では、これまでの研究では計画に必要な特定の要素が考慮されておらず、新しい設計では以前のタスクを適切に整理して計画を容易にできると主張しています。

2.5 トランスフォーマーモデルベンチマーク

入力サイズ、実行時間、精度、データセットなどの指標を考慮して、主に NVIDIA GPU 3090 上の Transformer ベースのモデルをベンチマークします。表2に示すように、Nuscenesデータセット[73]を使用した3Dオブジェクト検出タスクでは、DETR3DとFUTR3Dは構造が似ているため、同等のパフォーマンスを示しています。 BEVFormer は、BEV 機能を生成し、これらの機能から 3D オブジェクトを照会することで、DETR3D よりも優れたパフォーマンスを発揮します。

PETR と CrossDTR は CNN ネットワークを使用して 2D 機能を 3D 機能に変換します。これにより、クエリプロセスが高速化され、DETR3D よりも優れたパフォーマンスが得られます。 ResNet101のResNet50に対する精度の高さは、実行速度が遅くなるという犠牲はあるものの、変形可能な畳み込み機構と畳み込みの深さの増加に起因すると考えられる[79]。一方、トランスフォーマーベースの道路特徴検出に関する研究は、2D 車線 (TuSimple)、3D 車線 (OpenLane)、ローカルマップ (Nuscenes) などのタスクごとに異なるモデルと評価基準を備えており、多様性に富んでいます。

レーンとローカルマップトランスのクエリは、キーポイントクエリが少なく、CNNバックボーンが小さく、より浅い層機能を活用するため、オブジェクトの検出よりも高速です。テーブルの下部に示されているように、エンドツーエンドの変圧器は新興の研究分野です。ただし、主に、Carla [77]などの非現実的なシミュレータープラットフォームのシミュレーションデータに依存しており、実際のシナリオと実際の実装での適用性を制限しています。

3。トランスアーキテクチャ、演算子、およびハードウェアアクセラレーション

このセクションでは、トランスコンポーネント、演算子、およびハードウェア加速分析に焦点を当てています。最初にエンコーダーデコーダー構造を分析し、入力データの処理と出力予測の生成におけるその役割を強調しました。レイヤー正規化、マトリックス乗算、ソフトマックスなどの主要なコンポーネントについて説明します。次に、トランスモデルの計算効率を改善する方法を検討し、ソフトマックス、層の正規化、活性化関数、マトリックス増殖などの演算子に適用される固定点算術のハードウェアアクセラレーション技術を詳述しました。

3.1エンコーダーデコーダー設計

トランスモデルは、自律運転アプリケーションで最先端のパフォーマンスを実現しますが、ポータブルまたはエッジデバイスの展開と効率的な推論の課題をもたらすかなりのストレージと計算オーバーヘッドが生じます。

知覚タスクのトランスモデルは主にBEV機能を利用していますが、エンコーダーはこれらの機能を生成する責任があります（図4（b）および（d））。エンコーダは、変圧器のクエリとしてBEV機能を長さチャネルのh*wマトリックスに展開します。これらの機能は、カメラ外因性マトリックスを使用したマルチビューカメラの2D機能から派生しています。 2次元空間情報を保存するために、埋め込みはクエリに追加され、エンコーダーの入力として使用されます（図4（b））。より速い収束のために、エンコーダーは以前のBEV機能を反復し、現在のクエリを自己関節の入力として取得します。さらに、車両の位置と姿勢情報は、ピクセルレベルの前のフレームと次のフレームの間で一致します（図4（d））。

知覚タスクでは、CNNヘッドはトランスブロックに置き換えられ、障害物の3D境界ボックス、およびクエリを使用した2D/3Dレーンラインとローカルマップを生成します（図4（a）、（c）、（e）、（f））。 3D障害認識タスクには、明示的で暗黙的な2種類のクエリがあります。明示的なクエリはBEV機能（図4（e））に依存していますが、暗黙のクエリはマルチビューカメラの2D機能を直接使用します（図4（a））。暗黙的なクエリは、エンコーダーの計算要件を削減します。トランスの計算負荷をさらに削減するために、CNNアーキテクチャを使用してカメラビューを2D/3D BEVに変換し、変換されたBEV機能を照会できます（図4（c））。

レーンおよびローカルマップタスクは、主にクエリにBEV関数を使用し、レーンの物理キーポイントとローカルマップをクエリオブジェクトとして、およびその機能（XYZ属性）をベクトルとして取得します。障害物タスクと比較して、Road InformationクエリにはBEV機能のグリッドの洗練が高くなります。車両は、周囲の道路情報（通常は60メートル×30メートル）、障害物（通常は100メートル×100メートル）、および高速で走行するときの遠くの障害物に注意を払う必要があります。道路情報は静的であるため、履歴情報を備えた前向きなカメラを使用して道路情報を構築できますが、動的な障害物にはサイドカメラの参加が必要です。したがって、変圧器の横断的メカニズムは、これらの要件に応じて、さまざまなアプリケーション向けに柔軟に設計および最適化できます。

3.2さまざまなアーキテクチャのオペレーター

前のセクションでは、最も複雑なコンポーネントがエンコーダー構造です（図4（d））ために、知覚タスクのトランスエンコーダーとデコーダーの一般的なフレームワークを分析しました。 Bevformerは、この構造を採用して、それぞれ空間と時間でマルチビューカメラと履歴情報を融合し、自律運転アプリケーション向けの洗練されたオープンソーストランスとなっています。これで、オペレーターに従ってエンコーダーを分解して、後続のハードウェアアクセラレーションリファレンスの詳細なモデルを取得します。

このセクションでは、演算子レベルの3つの主要なアーキテクチャレイヤー、ResNet [80]、Swintransformer、およびBevformerの3つの主要なアーキテクチャレイヤーを特に比較します。図5（a）に示すように、ResNetにはBottleneckと呼ばれる基本ユニットがあります。これは、ボトルネックのようなネットワークを含む複数の段階で構成されています。これらのネットワークには、3x3畳み込み、1x1畳み込み、バッチ正規化（BN）、および活性化関数（Relu、Rectified Linearユニット）が含まれ、中程度の計算並列性とオンチップメモリが必要です。自律運転タスクでは、バックボーンネットワークとしての2Dカメラ画像機能抽出にresNetがよく使用されます。

図5：ResNetおよびSwintransformerのレイヤー：（a）ボトルネックと呼ばれるResNet Basicユニットは、1x1および3x3の畳み込み、バッチ正規化（BN）、およびReluアクティベーション関数で構成されています。（b）Swintransformerの最初の段階には、レイヤー正規化、マルチヘッドの自己触媒、およびフィードフォワードネットワーク（FFN）が含まれます。自己関節メカニズムは、マトリックスの乗算、ソフトマキシミング、転置、連結、および再変動操作で構成されています。 FFNは、完全に接続された層とGELUの活性化関数で構成されています。さらに、Swintransformerには、ウィンドウパーティションや拡張などの追加のデータ再編成操作が含まれ、その構造がResNetよりも複雑になります。

図5（b）は、データのシャッフル、層の正規化（LN）、マトリックス乗算（32x32）、ソフトマックス、完全に接続された（FC）層、および活性化関数（Gelu、Gaussian Errer線形ユニット）を含む複数のレベルユニットで構成されるSwintransformerを示しています。 ResNetと比較して、Swintransformerは、オペレーターの多様性が高く、マトリックスの乗算寸法が大きくなります。 CNNネットワークでは、通常、各Swintransformer段階の最後のレイヤーとしてSoftMaxおよびFC層が表示されるため、ユニット内で加速する必要があります。 Swintransformerは、自律運転タスクのバックボーンコンポーネントとしてResNetを置き換えることができますが、CNNネットワークは、ゲインと加速パフォーマンスのトレードオフにより、展開された製品の主流です。基本的な変圧器ネットワークとして、SWIN-Transformerは、さまざまなNPUメーカーによるハードウェアアクセラレーションの初期リファレンスとして機能し、3 FPS/TOP以上のパフォーマンスレベルを達成しています。

自律運転のための加速変圧器の主な課題は、自己触媒およびクロスアテナンスモジュールを含むエンコーダーモデルとデコーダーモデルからのものです。

相互出席とは、ベクトルをある空間（PV）から別のスペース（BEV）に変換するプロセスであり、自己能力よりも複雑です。

図7に示すように、Bevformerのエンコーダーを例として取ります。これは、時間的自己触たち、空間的交差攻撃、LNおよびFFNで構成されています。 LNおよびFFN構造はSWINTRANSFORMERに似ていますが、入力と出力の特徴サイズが大きく、より多くの計算能力が必要です。変形可能な自己関節モジュールの変形可能な注意は、データキャッシュの対応する場所からデータを取得する必要がある学習可能な注意ピクセルアドレスを採用しています。このプロセスには、大規模なマトリックス乗算（512*128）と多数のマトリックスでの操作が含まれているため、SWINTRANSFORFORの自己関節よりも複雑になります。

図7：Transformer4Dエンコーダー構造：bevformerエンコーダー構造エンコーダーレイヤー、swintransformerと同じ、bevformerエンコーダーにはレイヤー正規化、ffnがあります。

一時的な自己関節と空間的相互参加は、2つの複雑な注意メカニズムです。時間の自己関節は、以前のBEV機能と現在のBEV機能によって初期化されたBEVクエリを変形させ、自己情報キャリブレーションを実行します。 Swintransformerとは異なり、機能とマトリックス変換から学習できる関連場所から機能を収集するグリッドサンプルがあります。空間的なクロスの注意は、2Dサラウンドカメラ機能からBEV機能を照会し、変形可能な注意メカニズムを採用するのに役立ちます。クエリはマルチレベルのマルチカメラクエリであるため、2つのモジュールが追加されます。1つはカメラマスクモジュールで、BEVスペースで各カメラマスクを生成し、1つはマルチレベルのオフセットモジュールで、4レベルの参照ポイントオフセットを取得します。層の正規化、アクティベーション、ソフトマックス、およびマトリックスの乗算に加えて、BevformReエンコーダーには、再形成、セグメンテーション、接続、配置など、多くのデータ再編成プロセスもあります。 bevformerの構造は、Swintransformerよりも複雑で加速がより困難です。

Time Self-Focusモジュールは、セルフフォーカスメカニズムを使用して、現在および履歴のBEV特性を統合します。空間クロス注意モジュールとタイムクロス注意モジュールには類似点がありますが、大規模なデータ操作と大きなマトリックス乗算ディメンション（512*256）により、マルチカメラとマルチスケール機能の注意ピクセルアドレスの検索がより複雑になります。自律運転における知覚タスクのモデルの複雑さは、Swintransformerおよび従来のCNNバックボーンネットワークのモデルの複雑さよりも大幅に高く、その結果、オペレーターの加速とオンチップストレージの需要が増加します。

さらに、図6では、ポータブルハードウェアのトランスアーキテクチャを実装する演算子リストの例を示します。プロセス全体が26の操作ステップに分割され、各ステップには、操作タイプ、マルチヘッド数、繰り返し数、操作時間（マイクロ秒）などのさまざまなインジケータレポートがあります。用語2-5（Q、K、V、および注意マトリックスの計算）、用語11（ソリューションヘッドマトリックス計算に注意）、用語21（FFNマトリックス計算を解く）、および用語23（線形行列計算）が操作数のほとんどを占めることがわかります。

図6：テーブルには、サンプルトランスモデルをポータブルハードウェアに展開する主な演算子を示します。パラメーターカテゴリ：

nは、画像内の特徴マップのHXWを表すトークン長とも呼ばれる入力シーケンス長を表し、Cはチャネル寸法を表し、HはHヘッドに分割されたマルチヘッドを表し、nエンコードはエンコードの繰り返しの数を表し、nデコードはデコードの繰り返しの数を表します。プロセスを26のオペレーターごとの手順に分割し、操作タイプ、長い頭の数、繰り返しカウント、オペレーター時間（マイクロ秒）などのメトリックを報告します。右側の小さなテーブルは、メインテーブルの概要を示しています。

3.3オペレーターの加速分析

トランスアーキテクチャには、多数のマトリックス乗算演算子と、対応するデータベアラーオペレーター、ソフトマックスオペレーター、アクティベーション機能、およびLN演算子が含まれます。定量的な重みと入力は、浮動小数点操作を整数に調整することにより、推論を高速化できます[81]、[82]、[83]。これらの演算子に固定点ハードウェアアクセラレーションを設計しました。

3.3.1ソフトマックス

SoftMax関数は、深い学習で広く使用されており、出力層によく表示されます。以前の研究[84]、[85]、[86]は、DNNアプリケーションにおけるソフトマックスのハードウェア加速度を研究し、いくつかの研究では、視覚変圧器[87]、[81]に基づくソフトマックスの量子化と加速も調査されています。 x = [x0; x1; :::; xn 1]が与えられた場合、標準のソフトマックスの活性化は次のように定義できます。

分母の多項式合計オーバーフローを防ぐために、ハードウェア加速度を実行するときに数値の安定性処理が必要です。M= max（x）を定義し、低精度処理を実行し、底Eを2に置き換えて取得します。

オンライン操作中に、並列化とストレージの最適化に焦点を当て、プロセス全体の時間の複雑さは30（n）であり、空間の複雑さはs（n + 1）であることを観察しました。この方法には、3つのループとn+1の中間結果が必要です。プロセスをさらに最適化するために、グローバルな最大値がローカルの最大値に置き換えられ、計算が2つのサイクルで完了します[87]。これにより、時間の複雑さが20（n）に減少し、中間結果の保存が減少します。

固定点テストでは、入力は署名されたS6.9およびS5.2を使用し、出力は符号なしのU1.15およびU1.7を使用します。中間蓄積結果∑J = 0、n-1：2（xj-m）、U10.10を使用します。テスト結果を表3に示します。 16ビットの入力と出力の精度は約1％であることがわかります。ただし、8ビット入力の精度は大幅に低く、8ビット出力は大量の量子化エラーにつながります。したがって、著者は、16ビットの量子化入力と出力を使用して、SoftMax機能ハードウェアの加速の精度を確保することを推奨しています。

3.3.2層の正規化

レイヤー正規化（LN）[88]と[89]の違いは、バッチではなくチャネル全体で正規化され、チャネル方向のトランスモデルの多数の計算を解くことです。正規化技術は、変圧器モデルのトレーニングプロセス中の勾配消失と爆発の問題を効果的に軽減します。さらに、層の正規化には、分割、平方、平方根などの操作が含まれます。整数トランスの層の正規化と注意の置換は、INT8推論を完全にサポートします[90]。

レイヤー正規化のための元の計算式[91]は次のとおりです。

定量式によると：

式では、XQは量子化された固定点アクティベーション値、Sはスケール係数、ZPは入力ゼロポイントです。 bとyは入力パラメーター（浮動小数点数）です。

導出後、レイヤー正規化の計算式は次のとおりです。

固定点ハードウェアアクセラレータが設計および特定の式についてテストされました。このテストでは、8ビットU8およびS7入力、16ビットS8：7出力、および異なる量子化精度で中間結果を使用します。平均はS8：7で、標準偏差はU8：6です。 2つの異なるテストデータセット（Case1およびCase2と呼ばれる）のパフォーマンスを評価し、表III（行4〜5）で結果を報告しました。テスト結果は、S7とU8の出力結果が同等であることを示しています。最大エラー率は、主にシーケンスの最小値で発生します。絶対誤差値は小さいままですが、ゴールデンは比較的小さいため、誤差の割合は大きな価値があるように見えます。レイヤー正規化演算子を評価することは、8ビット入力を使用するとリスクをもたらす可能性があることを個別に示しています。ただし、モデル全体への影響を包括的に評価して、その全体的な効果を決定する必要があります。

3.3.3アクティベーション関数

活性化関数は、線形関数（x = f（x）など）や非線形関数（Sigmoid、Tanh、reluなど）を含むニューラルネットワーク内のニューロン間のシグナル伝達を調節します。個々の線形関数は入力の線形組み合わせのみを生成するため、非線形関数は複雑な問題を解決するために重要です。したがって、ニューラルネットワークは非線形関数を採用して、複雑な非線形問題をより効果的にモデル化して解決します。この研究は、Gelu [92]、Relu [93]、Leaky Relu [94]、Elu [95]、Selu [96]、Sigmoid [97]、Tanhなど、さまざまな活性化関数の固定点表現を開発しました。 Geluは、アクティベーション機能を議論するハードウェア固定点設計の例として機能します。

元のGelu計算式[98]は、次のように定義されています。

同様に、逆量子化式を使用して、GELUの計算を次のように変換できます。

SoftMaxと同様の方法で、分母で低精度の交換を実行し、baseをeでbase 2に変更します。

おおよその式に基づいて、GELU関数の固定点実装を開発しました。署名済みのS6：9およびS3：4を入力として使用して、出力として署名されたS5：10およびS3：4を使用して、実装をテストしました。

テスト結果を表III（最後の3行）に示します。 16ビットの入力と出力の場合、平均エラーは1％未満です。ただし、一部の値はゼロに近いため、最大誤差は適用されません。

入力を8ビットに変更すると、平均エラーは5％に増加します。出力を8ビットにさらに減らすと、平均誤差は約28％になり、出力ビット幅が結果の精度に大きく影響することが示されます。

表3：異なる量子化固定点は、ソフトマックス、層の正規化（LN）およびGELU演算子にそれぞれ使用され、8ビットおよび16ビット幅I/Oの組み合わせが使用されます。 32ビットFP32 I/Oの結果と比較して、平均および最大誤差を分析します。

3.3.4マトリックス乗算

マトリックスの乗算は、変圧器の重要な部分であり、計算負荷の80％以上を占めています。さまざまな公的に利用可能な知覚アルゴリズムモデルを分析し、この割合が非常に高い[99]、[100]、[101]、[102]、[103]、[104]、[105]、[106]が非常に高いことを発見しました。

トランスでは、乗算および蓄積操作がチャネル方向で発生し、各チャネルを完了する必要があります。チャネルの長さは256に達する可能性があり、設計中に固定点の計算とオーバーフローの問題を考慮する必要があります。私たちの回路設計は、INT4乗算蓄積を基本単位として使用して、INT4、INT8、およびINT16の固定点アルゴリズムに適しています。 Shift操作を使用することにより、INT8に2つのINT4ユニットを使用し、INT16実装には4つのINT4ユニットを使用します。さらに、 2つのINT4ユニットとバイパス設計を使用して、E4M3およびE5M2形式での乗算および蓄積操作を含むFP8を実装します。 FP8は、16ビットの精度に匹敵するトレーニング精度が実証されていることが証明されたIEEEフローティングポイント形式でありながら、変圧器およびコンピュータービジョンアプリケーションに大幅な加速を提供します。中間結果は、FP16/FP32またはINT32形式、組み合わせたスケール係数を使用した部分的およびフロート形式です。

マトリックス乗算の加速には、固定点設計が必要であるだけでなく、正確な定量的設計も必要です。この問題を解決するために、対応する量子化された値には異なる範囲と範囲があるため、量子化された設計を特定のデータとモデルにトリミングしようとします。このアプローチは、乗算蓄積操作の大きな寸法のために簡単に発生するオーバーフローを防ぐのに役立ちます。

3.3.5章の概要

トランスベースのモデルを改善するために、さまざまな最適化手法が使用されています。再形成、配置、セグメント化、接続、転置などのデータ組換え演算子は、不規則なデータを処理し、中間の結果としてオンチップメモリに依存して保存するために使用されます。オペレーションの適合性やオペレーターマッピングなどのソフトウェアコンパイルの最適化により、これらの演算子が最適化されます。モデル量子化は、モデル推論を加速するための重要な技術であり、整数多項式近似法または関数近似法を使用して、トランスネットワークの非線形演算子を置き換えます。量子化を参照するなどの代替量子化方法は、マトリックスの乗算加速も検討します。効果的な注意メカニズムの使用[107]、[108]、または軽量構造**などのモデル構造の改善は、さらなる最適化に役立ちます。

剪定や知識の蒸留などのモデル圧縮方法が研究されました。剪定には、十分に訓練されたモデル[109]、[110]、[111]から重要でないパラメーターまたは接続を削除し、多面的な自己触たち（MHSA）、チャネル、トークン、または変圧器構造全体に焦点を当てています[112]、[113]、[114]、[115]、[116]が含まれます。知識の蒸留は、知識を大規模な教師モデルから小学生モデル[117]、[118]、[119]に伝達します。モデルの量子化と知識の蒸留を組み合わせることで、記憶オーバーヘッドを減らし、パフォーマンスを向上させることができます[120]、[121]、[122]。 Vision Transformer蒸留技術は、特徴マップと注意を調べます。**特徴マップ蒸留は、マップを小さな部分に分割し、注意蒸留のために知識移転のために追加の蒸留トークンを使用します[** 123]、[124]、[122]。

トランスハードウェアアクセラレーションに関する研究は、BERTなどの視覚変圧器モデルなどのNLPモデルに焦点を当てています。自律運転の分野でのトランスの適用は2022年に急速に成長し、その実装への関心が高まっています。ただし、自律変圧器モデルのハードウェアアクセラレーションはまだ初期段階にあります。

NPUメーカーの既存のベンチマークは、SwintransformerおよびVision Transformerモデルの加速性能を示していますが、Detr3D、PetR、Bevformerなどの最新モデルの加速パフォーマンスに関する公開情報は限られています。変圧器モデルが自律運転の分野で成長し続けるにつれて、主要なNPUメーカーと研究機関は、これらのモデルの加速技術を積極的に調査し、大量生産された車両に展開することを目指しています。この作業では、典型的な自律運転モデルを分析し、結果の演算子の固定点実装を開発します。

4。課題と傾向

変圧器ベースの深い学習方法は、自律運転システムを改善する可能性を示していますが、高品質のトレーニングデータを収集し、安全性を確保し、解釈可能性を提供するなどの課題に直面しています。マルチモーダルの融合と解釈可能性は、この分野の開発動向であり、トランスベースのモデルは認識と予測タスクを正常に完了しました。見込み客には、リアルタイム処理の最適化とエンドツーエンドの学習モデルの開発が含まれます。ただし、課題に対処し、傾向と見通しを活用するには、継続的な研究努力が必要です。

トランスモデルは、元の3D障害認識タスクから、今日のさまざまな知覚タスクに進化しています。将来の自律運転には、システムの安全性と確実性が高くなり、単一モーダルの視覚的知覚が限界ゲインで飽和に達しました。限界ゲインを改善するには、マルチモーダル融合が必要です。これは、高度な自律運転に不可欠です。このニーズを満たすために、より大きなサイズ、マルチモーダル、マルチタスク、4D時空間入力、出力を備えたトランスモデルが将来生成される場合があります。これは、トレーニングと加速をモデル化するための新しい課題を提示し、アルゴリズムの設計、ハードウェアアーキテクチャ、システム統合の進捗を必要とします。

自律運転における追跡、計画、意思決定タスクも、従来のDNNモデルから変圧器ベースのモデルへの移行を開始しました。変圧器モデルの複雑さが増加することを考えると、これにはハードウェアの展開のモデル推論効率を改善するために、より良いハードウェアアクセラレーションソリューションが必要になる場合があります。有望なアプローチは、複数のレベルとタイプのトランスモデルをエンドツーエンドのシステムにカスケードすることです。ただし、各モデルには一意のハードウェア要件がある可能性があるため、これは一連のモデル全体を加速する上での課題を提示します。

知覚ベースのモデルでは、主な入力は画像またはレーダーデータであり、CNNによって機能を処理して機能を抽出します。これらの機能は、BEV角度から障害物と静的グランドマーカーを検出するためのBEVアウェア変圧器モデルに入力されます。 BEVの知覚結果を高精度マップと組み合わせ、さらにグリッド形式にエンコードし、NLPと同様のトランスモデルに入力して、予測と計画のタスクを完了します。

アクティベーション関数、LN、ソフトマックス、および基本モデルの大規模なマトリックス乗算加速に加えて、自律運転タスクの変圧器モデルには、特別な変形可能な注意オペレーターもあります。学習された位置パラメーターは、クエリするたびに関連データの特定の不規則性につながり、ハードウェア上の画像データのキャッシュ圧力を上げ、並列加速を困難にします。ソフトウェアコンパイラのスケジューリングを最適化することに加えて、これらのモデル向けに特別に設計するためにハードウェアも必要です。

トランスモデルのハイブリッド精度の量子化は、モデルに直接影響を与える重要なタスクであり、将来の主要な研究方向の1つです。高ビット量子化により高精度が保証されますが、より多くのメモリとコンピューティングのリソースが必要です。

固定ビット量子化は、精度とコンピューティング能力の間のきめ細かなトレードオフを達成できないため、効率的なモデル圧縮を達成するには、ハイブリッド精度の量子化（MPQ）が必要です。 MPQは、8ビット、16ビット、32ビット、さらには4ビットおよび2ビットなど、さまざまな量子化されたビット幅を採用しています。成熟した線形量子化法に加えて、 FP8ベースのペア量子化などの代替方法も考慮されます。その中で、FP8ベースの量子化と加速は顕著な研究分野です。

トランスの注意メカニズムは、ある空間シーケンスを別の空間に変換することに利点があります。空間変換の後、情報関係のクエリが容易になります。

以下のグリッドサンプルは、関連するピクセルから必要な機能を収集できることに注意してください。グリッドサンプルの位置も学習できます。マトリックス変換とグリッドサンプリングにより、トランスは、マルチビューデータをBEV形式に変換する必要がある自律運転タスクに最適です。トランスモデルのパラメーターとコンピューティングパワーは、CNNネットワークのパラメーターをはるかに上回り、さまざまなコーナーケースをよりよく一般化し、大規模なデータセットをオーバーフィットできます。ただし、これによりモデルの複雑さも向上し、効率的なパフォーマンスを確保するために慎重に最適化する必要があります。したがって、安全性とシステムの信頼を確保するためにはこれらが重要であるため、自律運転におけるトランスモデルのためのより良い解釈可能な解釈可能な技術を開発する必要があります。たとえば、注意ベースの有意マッピングを使用して、運転の決定にモデルを使用するカメラやLIDARフィードなど、入力データの最も重要な領域を視覚的に強調することができます。これにより、モデルの決定プロセスに関する洞察が得られ、エンジニアとユーザーがシステムをよりよく理解し、信頼できるようになります。

5. まとめ

この記事では、自律運転タスクに合わせたトランスベースのモデルの包括的な概要を説明します。トランスの入力と出力を整理し、それぞれの利点と短所を評価するために使用されるさまざまなアーキテクチャを調べます。トランス関連の演算子とそのハードウェア加速分析の徹底的な議論は、定量的操作や固定点操作などの重要な要因を考慮に入れています。タスクレベルとオペレーターレベルの固定点テストに対してベンチマーク比較が実施されました。最後に、変圧器ベースのモデルにおける課題、傾向、現在の洞察を強調し、実際のアプリケーションでの長期変圧器の展開のコンテキストでのハードウェアの展開と加速の問題について議論します。

オリジナルリンク：https：//mp.weixin.qq.com/s/qibo0zyuqkjoarghj1rymg

<<: 大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる

>>: 最近人気の大型モデルや自動運転コンセプトについてお話ししましょう。