この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 著者の個人的な考え最近、学術界では大規模モデルが人気になっていると言わざるを得ません。画像とテキストのマッチングに基づく CLIP 事前トレーニング モデルは、近年、マルチモーダル研究の分野で定番となっています。さらに、大規模言語モデルの積極的な開発により、マルチモーダル性のパフォーマンスがさらに向上しました。同様のデータ(画像/動画+キャプション)は、BDD-Xなどの車両挙動解析用の自動運転分野でも利用可能です。最近では、DQAやDRIVEGPT4のchatgptで拡張されたBDD-Xデータセットなど、自動運転シナリオで直接QAを構築する新しい研究も行われています。これらの研究により、エンドツーエンドの自動運転技術が可能になりましたが、既存のマルチモーダルパラダイムの入力スケールは小さく(224×224)、認識精度には限界があります。そのため、マルチモーダル性に基づく高解像度の分岐強化ターゲット、特に危険ターゲットの位置特定や自車両の意図と提案予測(ROLISP)のための危険ターゲットの認識能力を提案することが重要です。どのように実装されているかを見てみましょう。 HiLM-Dはどのように機能しますか?自動運転システムでは通常、タスクごとに別々のモデルが使用されるため、設計が複雑になります。 HiLM-D は、単一のマルチモーダル大規模言語モデル (MLLM) を使用して、ビデオからの複数の自動運転タスク、つまり「リスク オブジェクトの位置特定と意図および提案の予測 (ROLISP)」タスクを統合する最初のモデルです。 ROLISP は自然言語を使用して、危険なオブジェクトを同時に識別および解釈し、自律走行車の意図を理解し、動作の推奨事項を提供するため、タスク固有のアーキテクチャが不要になります。しかし、高解像度(HR)情報が不足しているため、既存のMLLMをROLISPに適用すると、小さな物体(交通コーンなど)を見逃したり、目立つ物体(大型トラックなど)に過度に焦点を当てたりすることがよくあります。この論文では、ROLISP タスクの MLLM に HR 情報を組み込む効果的な方法である HiLM-D (「自動運転のための MLLM の高解像度理解に向けて」) を提案します。特に、HiLM-D は 2 つのブランチを統合します: (i) 低解像度推論ブランチ (任意の MLLM に可能) は、低解像度のビデオを処理して危険なオブジェクトにキャプションを追加し、自動運転車の意図/提案を識別します。 (ii) HiLM-D の主要部分である高解像度認識ブランチ (HR-PB) は、高解像度画像を取り込み、視覚的に特定の HR 特徴マップを使用して高解像度の特徴マップをキャプチャすることで検出を強化し、目立つオブジェクトだけでなくすべての潜在的なリスクを優先します。 HiLM-D の HR-PB はプラグアンドプレイ モジュールとして機能し、既存の MLLM にシームレスに適応できます。 ROLISP ベンチマークの実験では、HiLM-D はキャプション生成時に BLEU-4 スコアを 4.8% 向上させ、検出時に mIoU を 17.2% 向上させ、主要な MLLM に対して大きな優位性があることが実証されています。 HiLM-D の利点は何ですか?• MLLM を活用して、自然言語の例 (ROLISP) を介して複数の自動運転タスクを解決します。 • 一般的な MLLM は通常、単一の小さなサイズ (つまり、224×224) の入力画像を使用してトレーニングされます。 HiLM-D (400x400) は、視覚特有の事前知識が豊富で、高リスク領域を強調表示する高解像度の特徴マップを生成するために導入されており、既存の MLLM とシームレスに統合して強化することができます。 • ROLISP ベンチマークで実験が行われ、HiLM-D の優れたパフォーマンスが実証されました。たとえば、BLEU-4 キャプション生成において最先端の MLLM よりも 4.8% の改善が達成されました。 この分野での現在の仕事マルチモーダル大規模言語モデル自然言語処理は、GPT シリーズ、T5、LLaMA などの大規模言語モデル (LLM) の出現により大きな進歩を遂げました。 LLM の可能性に触発されて、LLaVA、MiniGPT-4、Video-LLaMA、InstructBLIP などの多くのマルチモーダル大規模言語モデル (MLLM) が、LLM をマルチモーダル領域、つまり画像/ビデオ入力を認識し、マルチターンの会話でユーザーとコミュニケーションするために提案されてきました。これらのモデルは、大規模な画像/ビデオとテキストのペアで事前トレーニングされていますが、画像のキャプション作成や質問への回答などの画像レベルのタスクしか処理できません。そのため、境界ボックスを生成する MLLM の基本的な機能を実現するために、ContextDET、KOSMOS-2、Shikra などのいくつかの研究が提案されています。しかし、現在のすべての MLLM は低解像度の画像とテキストのペアでモデルをトレーニングするため、高解像度の自動運転シナリオでの認識結果が制限されます。 自動運転自動運転の分野では、従来の自動運転アルゴリズムは通常、検出、追跡、推論、予測などのさまざまなタスクを個別に処理します。より豊富なクロスタスク情報を抽出するために、研究者は複数のタスクをエンドツーエンドのトレーニング フレームワークに統合することを検討し始めました。たとえば、D&T などのいくつかの研究では、検出と追跡の共同トレーニングが実証され、FaF では検出器と軌道予測器をさらに統合して、顕著な結果を達成しました。 UniAD は、各タスクごとに異なるサブネットワークに依存しながらも、フルスタックの自動運転タスクを統一されたフレームワークに融合することで際立っています。この分野の新たな方向性は、タスク間で統一された出力として自然言語を使用することです。たとえば、ADAPT は単一のキャプションを使用して意図を予測し、説明を提供しますが、DRAMA は危険なオブジェクトを検出して説明することを目的としています。 HiLM-D では、Drama や ADAPT よりも一歩進んだ ROLISP を採用し、危険なターゲットを識別、説明、特定しながら、その意図を予測し、推奨事項を提供することを目指しています。 HiLM-D法の設計低解像度推論ブランチ低解像度推論ブランチ (LR-RB) は、MLLM を使用して低解像度 (LR) ビデオ入力を受信し、識別されたリスク オブジェクト (理由を含む) と、ビジュアル エンコーダーと大規模な言語モジュールを含む自然言語での自車両の意図と推奨事項を生成します。 ビジュアル エンコーダー。(トレーニング対象の凍結された ViT および Q-former + ST-Adapter)ビジュアル エンコーダーは、大規模言語モデル (LLM) が理解できるように、ビデオ入力をビジュアル トークンに変換する役割を担います。これは、BLIP2 (Li et al. 2023) で初期化され、トレーニング中は固定されたままの、事前トレーニング済みの Visual Image Transformer (ViT) と Q-former を基盤としています。画像の時間的性質を処理するために、エンコーダーには時空間アダプター (ST-Adapter) も含まれています (Pan et al. 2022)。具体的には、フレームを含むビデオの場合、ViT は各フレームをそのレイヤー 番目の特徴にマッピングして、 を生成します。ここで、 はフレーム 番目の特徴、 はパッチの数、 は緯度です。これらの特徴は、ST-Adapter と変換ブロックによってさらに処理され、 を生成します。最終的なビデオ表現は であり、これは ViT と -former の最後のレイヤーの特徴を平均プーリングすることで得られます。次に、トレーニング可能な線形レイヤーが LLM の次元に投影され、 が生成されます。 大規模言語モデル (LLM)。視覚タグを使用すると、事前トレーニング済みの LLM を使用して、リスクターゲットの識別、説明、意図、自律走行車での使用に関する推奨事項などのキャプションを生成できます。 LLM への入力は、マルチモーダル トークンの連結で構成されます。ここで、はテキスト プロンプトからのトークン化されたテキスト埋め込みを表します (例: 「最も危険なオブジェクトはどれですか? 次に、エゴ ビークルのアクションと提案を予測します。」)。事前トレーニング済みの LLM は、これらのマルチモーダル トークンを受信して、言語を自動的に生成します。 ここで、はトレーニング可能なパラメータであり、は生成された回答です。 高解像度知覚部門高解像度知覚ブランチ (HR-PB) は、高解像度画像からの視覚固有の情報と、LR-RB で使用するための潜在的に高リスクのオブジェクトに関連する特徴を統合するように特別に設計されています。 このブランチは 4 つの部分で構成されています。 • HR空間抽出器(HRSE)。HRフレームのHR特徴を取得するために使用されます。 HR空間抽出器(トレーニング対象のResNet) オブジェクト検出のための視覚固有の情報を取得するために、HRSE は従来の畳み込みネットワーク (CNN) ResNet から適応されています。現在の MLLM の単純な ViT と比較して、CNN には、メモリと計算リソースの削減、視覚固有の事前知識 (ローカル接続性や空間不変性など) を検出タスクにもたらすなど、多くの利点があります。 HiLM-D は抽出された高解像度の空間特徴マップを として表します。ここで、 はそれぞれ次元、幅、高さを表します。 列挙モジュール (Frozen GradCAM) 自動運転では、歩行者や交通コーンなどの危険な物体は、画像全体のごく一部しか占めず、通常は端の領域に配置されます。しかし、HiLM-D の実験では、既存の MLLM は大型車両などの目立つターゲットを優先する傾向があり、危険なターゲットを誤認する可能性があることがわかりました。この問題に対処するために、列挙モジュールが導入され、モデルが主要なターゲットだけでなく、すべての潜在的な高リスク ターゲット領域に焦点を合わせるようになります。このモジュールは、事前トレーニング済みの MLLM を活用して、「車両、信号/コーン、人はどこにいるか」などの画像と位置の手がかりとの類似性を測定します。その後、GradCAM (Selvaraju et al., 2017) を使用して、これらの高リスク対象領域を強調表示するマップを生成しました。生成された強調マップは として表されます。ここで、 と はそれぞれ強調マップの幅と高さを表し、その値の範囲は 0 から 1 です。次に、 と同じサイズにアップサンプリングして を取得します。最後に、強調表示された高解像度の画像特徴が得られ、ここで表現は要素ごとに乗算されます。 統合モジュール(トレーニング対象のクロスアテンション) 統合モジュールの目的は、LR-RB から学習したセマンティクスをすべての潜在的なリスク ターゲットの空間的特徴と融合し、LLM が比較して最も注意が必要なターゲットを決定できるようにすることです。これは、LR-RB レイヤーの機能をクエリとして受け取り、強調表示された HR 機能マップを値とキーとして受け取る、交差アテンション モジュールを通じて実現されます。効率的な計算のために、 の cls タグのみがクエリとして使用されます。すると、交差注意は と表現できます。元の に追加すると、 番目の ST-Adapter ブロックと Transformer ブロックの新しい cls タグ、つまり が得られます。は、重要度を適応的に制御するために使用される学習可能なゲーティング係数であり、トレーニングの初期段階で元の ViT に干渉しないように、初期値はゼロになっています。最後に、統合されたビジュアル マークアップは によって取得されます。 検出ヘッド(クロスアテンション + トレーニングが必要な MLP)をクエリします。 正確な境界ボックスを取得するために、HiLM-D は、HR 機能 I で境界ボックスを見つけるための事前知識として、見つかった危険なオブジェクトの表現を考慮するクエリ検出ヘッドを設計します。これを実現するために、リスクターゲットの隠し状態をクエリとして使用し、強調表示された HR 空間の特徴を値とキーとして使用してクロスアテンションが計算されます。これは と表現できます。ここで、 は回答に関連付けられた言語トークン、つまり見つかったターゲットの隠し状態です。最後に、MLP に入力されて境界ボックスが生成されます。予測された境界ボックスは、GT によって監視されます。 総損失は次のように定義されます。 ここで、はハイパーパラメータです。 実験のセットアップと分析実装の詳細。提案された方法は PyTorch で実装され、8 個の NVIDIA V100 GPU を搭載した単一のマシンを使用してトレーニングされます。入力ビデオ フレームは、224×224 のスペース サイズに合わせてサイズ変更およびトリミングされます。ビデオ全体からL = 5フレームを均一にサンプリングし、最後のフレームが境界ボックスの生成に使用されるようにします。 2 に設定します。オプティマイザーとして AdamW (Loshchilov and Hutter、2017)、学習率スケジューラとしてコサインアニーリングスケジューラ (Loshchilov and Hutter、2016) を使用し、低解像度推論ブランチの初期学習率は 1e-4、高解像度知覚ブランチの初期学習率は 4e-4、グローバルバッチサイズは 64 です。 データセット。 DRAMA(Malla et al.、2023)は、運転シナリオにおける視覚的推論を評価するためのベンチマークであり、17,785 個の 2 秒間のインタラクティブ シーンで構成されています。しかし、これは危険なターゲットに関する見出しのみを提供し、ROLISP にとって非常に重要な、エゴ ビークルの意図や推奨事項に関する情報は提供しません。この問題に対処するために、注釈が強化され、DRAMA のキャプションが拡張されて、エゴカーの意図と推奨事項が含まれるようになり、DRAMA-ROLISP データセットが作成されました。 評価指標。 ROLISPは、(1)自車両の意図と行動を予測しながら危険な物体を識別して解釈するためのキャプション作成、および(2)危険な物体の検出という2つのタスクで構成されています。タイトルのパフォーマンスは、BLEU-4 (B4)、METEOR (M)、CIDER (C)、および SPICE (S) という標準メトリック (Malla et al.、2023) に従います。検出評価には、平均交差和集合 (mIoU) が使用されます。さらに、オブジェクトのサイズ別に分類された IoU スコア(小 (IoUS)、中 (IoUM)、大 (IoUL))が提供されます。 最先端の方法との比較DRAMA-ROLISP で実験が行われ、BLIP-2、LLaVA、InstrutBLIP、Shikra、eP-ALM、Video-LLaMA などの画像ベースおよびビデオベースの MLLM と比較されます。Shikra を除き、他のモデルではオブジェクトを検出できないことに注意してください。そのため、検出ヘッド(MLP ベース)が統合され、境界ボックスが生成されます。 主な結果最後にまとめましょうHiLM-D は、リスクのある物体の位置特定と自我の意図および提案の予測 (ROLISP) と呼ばれる、マルチモーダル大規模言語モデル (MLLM) を使用して複数の運転タスクを統合する新しいアプローチを導入します。 HiLM-D はさらに、視覚固有の事前情報を組み込み、高リスク領域を強調表示する豊富な高解像度の特徴マップを生成することが提案されており、既存の MLLM とシームレスに統合してパフォーマンスを向上させることができます。 制限。 HiLM-D データセットには固有の制限があり、各ビデオにはリスクターゲットが 1 つしか含まれていないため、現実世界のシーンの複雑さを捉えられない可能性があることに注意する必要があります。さらに、データセットには、総合的な自動運転評価に不可欠な雨、雪、霧などの悪天候条件が含まれていません。さらに、提供されるアドバイスは「止まれ」や「譲れ」など簡潔なものが多く、可能な行動の範囲が単純化しすぎる可能性があります。今後の課題は、この分野をさらに前進させるために、より多様で挑戦的なデータセットを作成することです。 参照: 論文: https://arxiv.org/pdf/2309.05186.pdf 著者所属部署: 香港科技大学、Huawei Noah's Ark Lab。 オリジナルリンク: https://mp.weixin.qq.com/s/OFGH64lO88sRuRou5K9HFA |
>>: クラウド セキュリティにおける生成 AI: アクションよりもノイズが多い? !
学生だった頃、私はよく自分の個人ウェブサイトをいじっていました。最も気になった問題の 1 つは、オリ...
[51CTO.comより引用] 近年、コンピュータ技術は急速に発展しており、人工知能はその操作性と...
ロイター通信は現地時間12月24日、インドが天気予報の精度向上のため、気候モデルの構築にAIの使用を...
IT自動化と人工知能技術の進歩と発展により、IT担当者の働き方は大きく変化しました。今年に入って新...
Appleの技術と製品は現在、製造業で広く利用されています。同社は最近、アジア太平洋地域の製造チェ...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
来年、AI テクノロジーと市場はどのように進化するのでしょうか? 主要な AI トレンドとしては、エ...
[[412592]] 2021年、北京では初めて規制に従って無人配送車両の公道走行が許可された。写...
[[235932]] 「疑似AI」の台頭:テクノロジー企業がボットの仕事を人間にひそかに任せる方法...
人工知能という学問分野が1956年に正式に提唱されて以来、会議やフォーラムでの華やかな「ホットワード...
CyberArk の 2023 年アイデンティティ セキュリティ脅威ランドスケープ レポートでは...