データは王様です!データを通じて段階的に効率的な自動運転アルゴリズムを構築するにはどうすればよいでしょうか?

データは王様です!データを通じて段階的に効率的な自動運転アルゴリズムを構築するにはどうすればよいでしょうか?

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

序文と著者の個人的な理解

次世代の自動運転技術は、インテリジェントな認識、予測、計画、および低レベルの制御間の専用の統合と相互作用に依存することが期待されています。自動運転アルゴリズムの性能の上限には、常に大きなボトルネックがありました。学界と産業界は、ボトルネックを克服する鍵はデータ中心の自動運転技術にあることに同意しています。 AD シミュレーション、クローズドループ モデル トレーニング、AD ビッグ データ エンジンは最近、貴重な経験を積んでいます。しかし、AD アルゴリズムの自己進化とより優れた AD ビッグデータの蓄積を実現するために、効率的なデータ中心の AD テクノロジーを構築する方法については、体系的な知識と深い理解が不足しています。この研究のギャップを埋めるために、ここでは、主にマイルストーン、主要な機能、データ収集設定などを含む自動運転データセットの包括的な分類に焦点を当て、最新のデータ駆動型自動運転技術を詳しく見ていきます。さらに、クローズドループ フレームワークのプロセス、主要技術、実証研究など、業界の最先端にある既存のベンチマーク クローズドループ AD ビッグ データ パイプラインを体系的にレビューします。最後に、自動運転のさらなる発展を促進するために学界と産業界の共同の取り組みを刺激するために、将来の方向性、潜在的な用途、制限、懸念事項について議論します。

要約すると、主な貢献は次のとおりです。

  • マイルストーン世代、モジュールタスク、センサースイート、主要機能別に分類された自動運転データセットの初の包括的な分類法を導入しました。
  • ディープラーニングと生成 AI モデルに基づく最先端のクローズドループ データ駆動型自動運転パイプラインと関連する主要技術の体系的なレビュー。
  • 自動運転産業アプリケーションにおいて閉ループのビッグデータ駆動型パイプラインがどのように機能するかについての実証的研究が行われます。
  • 現在のパイプラインとソリューションの利点と欠点、およびデータ中心の自動運転の将来の研究方向について説明します。

SOTA 自動運転データセット: 分類と開発

自動運転データセットの進化は、技術の進歩とこの分野における野心の高まりの両方を反映しています。 20 世紀後半の航空宇宙研究所の AVT 研究やカリフォルニア大学バークレー校の PATH プログラムなどの初期の進歩は、基本的なセンサー データの基礎を築きましたが、当時の技術によって制限されていました。過去 20 年間は、センサー技術、コンピューティング能力、高度な機械学習アルゴリズムの進歩によって大きな飛躍が見られました。 2014年に米国自動車技術会(SAE)は体系的な6段階(L0~L5)の自動運転システムを公表し、自動運転の研究開発の進歩として広く認知されました。ディープラーニングによって推進されたコンピュータービジョンベースの手法が、インテリジェントな認識を支配してきました。深層強化学習とその派生型は、インテリジェントな計画と意思決定に重要な改善をもたらしました。最近、大規模言語モデル (LLM) とビジョン言語モデル (VLM) は、シーン理解、運転行動の推論と予測、インテリジェントな意思決定において強力な能力を発揮し、将来の自動運転開発に新たな可能性をもたらしています。

自動運転データセットの画期的な開発

図 2 は、オープンソースの自動運転データセットの重要な開発を時系列で示しています。目覚ましい進歩により、主流のデータセットは 3 つの世代に分類されるようになりました。データセットの複雑さ、量、シーンの多様性、注釈の粒度が大幅に向上し、この分野は技術的成熟の新たな境地に達しました。具体的には、横軸は開発のタイムラインを表します。各行のヘッダーには、データセット名、センサー モダリティ、適切なタスク、データ収集場所、関連する課題が含まれます。異なる世代のデータセットをさらに比較するために、色分けされたバーを使用して、認識と予測/計画のデータセットのサイズを視覚化します。初期段階、つまり 2012 年に始まった第 1 世代は、KITTI と Cityscapes が主導し、認識タスク用の高解像度画像を提供し、視覚アルゴリズムのベンチマークの進歩の基礎となりました。第 2 世代に移行すると、NuScenes、Waymo、Argoverse 1 などのデータセットでは、車載カメラ、高精度マップ (HD マップ)、LIDAR、レーダー、GPS、IMU、軌道、周囲の物体からのデータを統合するマルチセンサー アプローチが導入されました。これは、包括的な運転環境のモデリングと意思決定プロセスに不可欠です。最近、NuPlan、Argoverse 2、Lyft L5 は、前例のないデータ規模を提供し、最先端の研究につながるエコシステムを育成することで、影響力の基準を大幅に引き上げました。これらのデータセットは、その大規模なサイズとマルチモーダルセンサーの統合を特徴としており、認識、予測、計画タスクのアルゴリズムの開発において重要な役割を果たし、高度な End2End またはハイブリッド自動運転モデル​​への道を開いています。 2024 年には、第 3 世代の自動運転データセットが登場しました。 VLM、LLM、およびその他の第 3 世代 AI テクノロジーによってサポートされている第 3 世代データセットは、ロングテール データ分布の問題、分布外検出、コーナー ケース分析など、自動運転のますます複雑化する課題に対処するという業界の取り組みを強調しています。

データセットの収集、セットアップ、および主要な機能

表 1 は、運転シナリオ、センサー スイート、注釈など、非常に影響力のある認識データセットのデータ収集と注釈設定をまとめたものです。データセット シナリオの天気/時間/運転状況カテゴリの総数を報告します。天気には通常、晴れ/曇り/霧/雨/雪/その他 (極端な状況) が含まれます。時間帯には通常、朝、午後、夕方が含まれます。運転状況には通常、市街地の道路、幹線道路、脇道、田舎、高速道路、トンネル、駐車場などが含まれます。シナリオが多様であればあるほど、データセットは強力になります。また、データセットが収集された地域も報告します。地域は、AS (アジア)、EU (ヨーロッパ)、NA (北米)、SA (南米)、AU (オーストラリア)、AF (アフリカ) として示されます。 Mapillary は AS/EU/NA/SA/AF/AF を通じて収集され、DAWN は Google および Bing の画像検索エンジンから収集されることに注意してください。センサー スイートについては、カメラ、LIDAR、GPS、IMU などを検討しました。表1のFVとSVは、それぞれフロントビューカメラとストリートビューカメラの略語です。 360° パノラマ カメラ セットアップ。通常は、複数の前面カメラ、側面カメラ、サイドビュー カメラで構成されます。 AD 技術の発展に伴い、データセットに含まれるセンサーの種類と数が増加し、データ パターンがより多様化していることがわかります。データセットのアノテーションに関しては、初期のデータセットでは通常、手動のアノテーション方法が採用されていましたが、最近の NuPlan、Argoverse 2、DriveLM では、AD ビッグデータに自動アノテーション技術が採用されています。従来の手動ラベリングから自動ラベリングへの移行は、将来のデータ中心の自動運転における大きなトレンドになると考えています。

予測と計画のタスクについては、メインストリーム データセットの入力/出力コンポーネント、センサー スイート、シーンの長さ、予測の長さを表 2 にまとめます。動作予測/予報タスクの場合、入力コンポーネントには通常、自車両の過去の軌跡、周囲のエージェントの過去の軌跡、高精度マップ、交通状況情報(交通信号の状態、道路 ID、一時停止標識など)が含まれます。ターゲット出力は、短時間内での自車両および/または周囲のエージェントの最も可能性の高い軌道(上位 5 つまたは上位 10 つの軌道など)です。モーション予測タスクでは通常、スライディング タイム ウィンドウ設定を採用して、シーン全体をいくつかの短いタイム ウィンドウに分割します。たとえば、NuScenes は過去 2 秒間の地上データと HD マップを使用して次の 6 秒間の軌道を予測しますが、Argoverse 2 は過去 5 秒間の地上データと HD マップを使用して次の 6 秒間の軌道を予測します。 NuPlan、CARLA、ApoloScape は、計画タスクに最もよく使用されるデータセットです。入力コンポーネントには、自車/周囲車両の履歴軌跡、自車の動きの状態、運転シーンの表現が含まれます。 NuPlan と ApoloScape は現実世界で取得されたものです。CARLA はシミュレートされたデータセットです。 CARLA には、さまざまな町でのシミュレーション運転中に撮影された道路画像が含まれています。各道路画像には、車両を軌道上に維持するために必要な調整を表すステアリング角度が付いています。計画された予測の長さは、さまざまなアルゴリズムの要件に応じて異なる場合があります。

閉ループデータ駆動型自動運転システム

私たちは現在、ソフトウェアとアルゴリズムによって定義される従来の自動運転の時代から、ビッグデータによって駆動され、インテリジェント モデルによって共同で実装される、新しい刺激的な自動運転の時代へと移行しています。クローズドループ データ駆動型システムは、AD アルゴリズムのトレーニングと実際のアプリケーション/展開との間のギャップを埋めることを目的としています。従来のオープンループ アプローチでは、人間の顧客による運転や路上テストから収集されたデータセットを使用してモデルが受動的にトレーニングされますが、クローズドループ システムは実際の環境と動的に相互作用します。このアプローチは、分布シフトの課題に対処します。静的なデータセットから学習された動作は、実際の運転シナリオの動的な性質に翻訳されない可能性があります。クローズドループ システムにより、AV はインタラクションから学習し、新しい状況に適応して、アクションとフィードバックの反復サイクルを通じて改善することができます。

しかし、現実世界のデータ中心のクローズドループ AD システムの構築は、いくつかの重要な問題により依然として困難です。最初の問題は、AD データの収集に関連しています。実際のデータ収集では、ほとんどのデータ サンプルは一般的な/通常の運転シナリオですが、カーブや異常な運転シナリオに関するデータを収集することはほぼ不可能です。第二に、AD データの自動ラベル付けのための正確かつ効率的な方法を探求するためのさらなる努力が必要です。第三に、都市環境の特定のシナリオで AD モデルのパフォーマンスが低下するという問題を軽減するために、シーン データ マイニングとシーン理解を重視する必要があります。

SOTA 閉ループ自動運転パイプライン

自動運転業界では、大量のADデータの蓄積によってもたらされる課題に対応するために、統合ビッグデータプラットフォームの構築を積極的に進めています。これはまさに、データ駆動型自動運転時代の新たなインフラと言えるでしょう。トップクラスの AD 企業/研究機関が開発したデータ駆動型クローズドループ システムを調査したところ、いくつかの共通点が見つかりました。

  • これらのパイプラインは通常、(I) データの取得、(II) データの保存、(III) データの選択と前処理、(IV) データの注釈、(V) AD モデルのトレーニング、(VI) シミュレーション/テストの検証、および (VII) 実際の展開を含むワークフロー サイクルに従います。
  • システム内のクローズドループの設計については、既存のソリューションでは、「データ クローズドループ」と「モデル クローズドループ」を別々に設定するか、「R&D ステージ クローズドループ」と「展開ステージ クローズドループ」という異なるステージのサイクルを別々に設定することを選択します。
  • さらに、業界では、現実世界の AD データセットの長期的な配布の問題と、コーナーケースに対処する際の課題も強調されました。 Tesla と Nvidia はこの分野における業界の先駆者であり、両社のデータ システム アーキテクチャはこの分野の発展にとって重要な参考資料となります。

NVIDIA MagLev AV プラットフォームの図 3 (左) は、「収集 → 選択 → ラベル付け → ドラゴンのトレーニング」という手順になっており、ループ内で SDC のアクティブ ラーニングとインテリジェントなラベル付けを可能にする再現可能なワークフローです。 MagLev は主に 2 つの閉ループ パイプラインで構成されています。最初のループは自動運転データを中心に展開され、データの取り込みとインテリジェントな選択から始まり、注釈とラベル付けを経て、モデルの検索とトレーニングが行われます。トレーニングされたモデルは評価、デバッグされ、最終的に現実世界に展開されます。 2 番目のクローズド ループは、データ センター バックボーンやハードウェア インフラストラクチャを含む、プラットフォームのインフラストラクチャ サポート システムです。このループには、安全なデータ処理、スケーラブルな DNN とシステム KPI、トレースおよびデバッグ用のダッシュボードが含まれます。 AV 開発の全サイクルをサポートし、開発プロセス中の実際のデータとシミュレーション フィードバックの継続的な改善と統合を保証します。

テスラの自動運転データ プラットフォーム (図 3 (右)) は、ビッグ データ駆動型のクローズド ループパイプラインの使用を重視し、自動運転モデル​​のパフォーマンスを大幅に向上させるもう 1 つの代表的な AD プラットフォームです。パイプラインは、通常、Tesla のフリート学習、イベントトリガーの車両側データ収集、およびシャドウ モデルからのソース データ収集から始まります。収集されたデータは、データ プラットフォーム アルゴリズムまたは人間の専門家によって保存、管理、チェックされます。コーナーケース/不正確さが見つかると、データ エンジンは既存のデータベースからコーナーケース/不正確さに非常に類似したデータ サンプルを取得して照合します。並行して、シナリオを再現し、システムの応答を厳密にテストするためのユニット テストが開発されます。その後、取得されたデータ サンプルは、自動注釈アルゴリズムまたは人間の専門家によって注釈が付けられます。適切に注釈が付けられたデータは AD データベースにフィードバックされ、更新されて AD 認識/予測/計画/制御モデルのトレーニング データセットの新しいバージョンが生成されます。モデルのトレーニング、検証、シミュレーション、実際のテストを経て、より高性能な新しい AD モデルがリリースされ、展開されます。

ジェネレーティブAIに基づく高精度ADデータ生成とシミュレーション

現実世界から収集された AD データ サンプルのほとんどは、一般的な/通常の運転シナリオであり、データベースにはすでに多数の類似サンプルが存在します。しかし、実際の取得から何らかのタイプの AD データ サンプルを収集するには、指数関数的に長い時間駆動する必要があり、これは産業用アプリケーションでは実現可能ではありません。そのため、高精度の自動運転データ生成およびシミュレーション手法は、学界で大きな注目を集めています。 CARLA は、ユーザーが指定したさまざまな設定で自動運転データを生成できる、自動運転研究用のオープンソース シミュレーターです。 CARLA の強みはその柔軟性にあり、ユーザーはさまざまな道路状況、交通シナリオ、気象ダイナミクスを作成できるため、包括的なモデルのトレーニングとテストが容易になります。しかし、シミュレーターとしての主な欠点はドメインギャップです。 CARLA によって生成された AD データは、現実世界の物理的および視覚的効果を完全にシミュレートすることはできません。実際の運転環境の動的で複雑な特性は表現されません。

最近では、より高度な固有の概念と有望なパフォーマンスを備えたワールド モデルが、高忠実度の AD データ生成に使用されています。世界モデルは、認識した環境の内部表現を構築し、学習した表現を使用して環境内のデータやイベントをシミュレートする AI システムとして定義できます。一般世界モデルの目標は、成熟した人間が現実世界で遭遇するような、さまざまな状況や相互作用を表現し、シミュレートすることです。自動運転の分野では、GAIA-1やDriveDreamerが世界モデルに基づくデータ生成の代表的な研究です。 GAIA-1 は、生の画像/ビデオだけでなく、テキストやアクションの手がかりも入力として受け取り、画像/ビデオから画像/ビデオを生成する生成 AI モデルです。 GAIA-1 の入力モダリティは、トークンの均一なシーケンスにエンコードされます。これらの注釈は、ワールド モデル内の自己回帰トランスフォーマーによって処理され、後続の画像注釈を予測します。ビデオ デコーダーは、これらの注釈を、時間解像度が向上した一貫したビデオ出力に再構築し、動的でコンテキストが豊富なビジュアル コンテンツの生成を可能にします。 DriveDreamer は、実際の運転環境の複雑さを捉えることに重点を置いて、アーキテクチャに革新的な拡散モデルを採用しています。 2 段階のトレーニングパイプラインにより、モデルはまず構造化された交通制約を学習し、次に将来の状態を予測して、自動運転アプリケーションに合わせた強力な環境理解を実現します。

自動運転データセットの自動ラベル付け手法

成功と信頼性には、高品質のデータ注釈が不可欠です。これまでのところ、データ注釈パイプラインは、図 4 に示すように、従来の手動注釈から半自動注釈、最も高度な完全自動注釈方法まで、3 つのタイプに分類できます。AD データ注釈は通常、タスク/モデル固有のものと見なされます。ワークフローは、注釈タスクと元のデータセットの要件を慎重に準備することから始まります。次のステップは、人間の専門家、自動注釈アルゴリズム、または End2End 大規模モデルを使用して、初期の注釈結果を生成することです。その後、注釈の品質は、事前に定義された要件に基づいて、人間の専門家または自動品質チェック アルゴリズムによってチェックされます。このラウンドの注釈結果が品質チェックに合格しなかった場合、注釈結果は再び注釈サイクルに送り返され、事前定義された要件を満たすまでこの注釈ジョブが繰り返されます。最後に、既製の注釈付き AD データセットを入手できます。

自動ラベリング方式は、クローズドループ自動運転ビッグデータプラットフォームにとって、手動ラベリングの労働集約性を軽減し、ADデータのクローズドループ循環の効率を高め、関連コストを削減する鍵となります。従来の自動ラベリング タスクには、シーンの分類と理解が含まれます。最近、BEV 方式の普及に伴い、AD データ注釈の業界標準が継続的に改善され、自動注釈タスクはより複雑になっています。今日の最先端の産業シナリオでは、自動 3D 動的ターゲット ラベリングと自動 3D 静的シーン ラベリングの 2 つが、一般的に使用されている高レベルの自動ラベリング タスクです。

シーンの分類と理解は、自動運転ビッグデータ プラットフォームの基礎です。システムは、ビデオ フレームを、運転場所 (道路、高速道路、都市高架、幹線道路など) やシーンの天候 (晴れ、雨、雪、霧、雷雨など) などの定義済みのシーンに分類します。 CNN ベースの方法は、シーン分類によく使用されます。これには、事前トレーニング済み + 微調整済みの CNN モデル、マルチビューおよびマルチレイヤー CNN モデル、シーン表現を改善するためのさまざまな CNN ベースのモデルが含まれます。シーンの理解は単なる分類を超えています。周囲の車両エージェント、歩行者、信号機など、シーン内の動的要素を解釈する必要があります。画像ベースのシーン理解に加えて、SemanticKITTI などの LIDAR ベースのデータ ソースも、きめ細かい幾何学情報を提供することから広く採用されています。

3D 動的オブジェクトの自動注釈と 3D 静的シーンの自動注釈の出現は、広く採用されている純粋な電気自動車認識技術の要件を満たすためです。 Waymo は、3D 検出器を使用してフレームごとにオブジェクトを特定する、LIDAR ポイント クラウド シーケンス データに基づく 3D 自動ラベリング パイプラインを提案しました。次に、フレーム間で識別されたオブジェクトの境界ボックスが、マルチオブジェクト トラッカーによってリンクされます。各ターゲットの軌跡データ(各フレームの対応するポイントクラウド + 3D 境界ボックス)が抽出され、分割統治アーキテクチャを使用してターゲット中心の自動ラベリングが実行され、最終的な洗練された 3D 境界ボックスがラベルとして生成されます。 Uber が提案した Auto4Dパイプラインは、時空間スケールで AD 対応マーカーを探索する最初のパイプラインです。自動運転の分野では、空間スケールでの 3D ターゲット境界ボックスのラベリングと時間スケールでの 1D 対応タイムスタンプのラベリングを 4D ラベリングと呼びます。 Auto4Dパイプラインは、連続的な LiDAR ポイント クラウドから開始して、初期のオブジェクト軌跡を構築します。軌道はターゲット サイズ ブランチによって調整され、ターゲット観測を使用してターゲット サイズをエンコードおよびデコードします。一方、モーション パス ブランチはパスの観測とモーションをエンコードし、パス デコーダーが一定のターゲット サイズで軌道を調整できるようにします。

3D 静的シーンの自動ラベル付けは HDMap 生成と見なすことができ、運転シーン内の車線、道路境界、横断歩道、信号機、その他の関連要素にラベルを付けることになります。このトピックには、MVMap、NeMO などのビジョンベースの方法、VMA などの LIDAR ベースの方法、OccBEV、OccNet/ADPT、ALO などの事前トレーニング済みの 3D シーン再構築方法など、魅力的な研究がいくつかあります。 VMA は、3D 静的シーンの自動ラベル付けのために提案された最近の研究です。 VMA フレームワークは、クラウドソーシングされたマルチパス集約 LiDAR ポイント クラウドを利用して静的シーンを再構築し、処理用にユニットに分割します。 MapTR ベースのユニット アノテーターは、クエリとデコードを通じて生の入力を特徴マップ内にエンコードし、セマンティック タイプのポイント シーケンスを生成します。 VMA の出力はベクトル化されたマップであり、閉ループ注釈と手動検証を通じて改良され、自動運転に十分な高精度マップが提供されます。

実証研究

本論文で提案されている高度なクローズドループ AD データ プラットフォームをよりわかりやすく説明するために、実証的な研究を提供します。全体のプロセス図を図 5 に示します。この場合、研究者は、Generative AI とさまざまなディープラーニングベースのアルゴリズムに基づく AD ビッグデータ閉ループパイプラインを開発し、自動運転アルゴリズムの研究開発段階と OTA アップグレード段階 (実世界への展開後) でのデータのクローズド化を実現することを目指しています。具体的には、生成AIモデルは、(1)エンジニアが提供するテキストプロンプトに基づいて、特定のシナリオに対して高忠実度のADデータを生成するために使用されます。 (2)ADビッグデータの自動ラベリングにより、グラウンドトゥルースラベルを効果的に作成する。

図には 2 つの閉じたループが示されています。大きなフェーズの 1 つは、自動運転アルゴリズムの開発フェーズです。このフェーズは、AI モデルを生成するための合成自動運転データと、実際の運転から取得したデータ サンプルのデータ収集から始まります。これら 2 つのデータ ソースは自動運転データセットに統合され、クラウドでマイニングされて貴重な洞察が得られます。その後、データセットは、ディープラーニングに基づく自動ラベリングと手動ラベリングの 2 つのラベリング パスに移行し、注釈の速度と精度が確保されました。ラベル付けされたデータは、大容量の自動運転スーパーコンピューティング プラットフォーム上でモデルをトレーニングするために使用されます。これらのモデルはシミュレーションと実際の道路でテストされ、その有効性が評価され、自動運転モデル​​のリリースとその後の展開につながります。小さいほうは、実際の導入後の OTA アップグレード フェーズ用で、AD アルゴリズムの不正確さやコーナー ケースを収集するための大規模なクラウドベースのシミュレーションと実際のテストが含まれます。特定された不正確さ/コーナーケースは、モデルのテストと更新の次の反復を通知するために使用されます。たとえば、AD アルゴリズムがトンネル内の運転シナリオではパフォーマンスが低いことがわかったとします。識別されたトンネル走行曲線状況はすぐにループに通知され、次の反復で更新されます。生成 AI モデルは、トンネル運転シナリオの関連説明をテキストプロンプトとして使用し、大規模なトンネル運転データ サンプルを生成します。生成されたデータと生のデータセットは、シミュレーション、テスト、モデルの更新に使用されます。これらのプロセスの反復的な性質は、モデルを最適化して困難な環境や新しいデータに適応し、自動運転機能の高精度と信頼性を維持するために重要です。

話し合う

第 3 世代以降の新しい自動運転データセット。 LLM/VLM などの基本モデルは言語理解やコンピューター ビジョンの分野では成功を収めていますが、それを自動運転に直接適用するのは依然として困難です。これには 2 つの理由があります。一方では、これらの LLM/VLM には、マルチソースの AD ビッグ データ (FOV 画像/ビデオ、LIDAR クラウド ポイント、高解像度マップ、GPS/IMU データなど) を完全に統合して理解する機能が必要ですが、これは日常生活で目にする画像を理解するよりも困難です。一方、自動運転分野における既存データの規模や品質は他分野(金融やヘルスケアなど)と比較できず、より大容量のLLM/VLMの学習や最適化をサポートすることは困難です。自動運転ビッグデータの規模と品質は、規制、プライバシーの問題、コストなどの理由で現在制限されています。各関係者の共同の努力により、次世代の AD ビッグデータは規模と品質の面で大幅に向上すると信じています。

自動運転アルゴリズムのハードウェアサポート。現在のハードウェア プラットフォームは、特にディープラーニング タスクに不可欠な超並列コンピューティング能力を提供する GPU や TPU などの専用プロセッサの登場により、大きな進歩を遂げています。車両センサーによって生成される膨大なデータ ストリームをリアルタイムで処理するには、車両に搭載された高性能コンピューティング リソースとクラウド インフラストラクチャの両方における高性能コンピューティング リソースが不可欠です。こうした進歩にもかかわらず、自動運転アルゴリズムの複雑さが増す中で、スケーラビリティ、エネルギー効率、処理速度には依然として限界が残っています。 VLM/LLM ガイドによるユーザーと車両の相互作用は、非常に有望な応用例です。このアプリケーションに基づいて、ユーザー固有の行動ビッグデータを収集できます。ただし、車両側の VLM/LLM デバイスには高水準のハードウェア コンピューティング リソースが必要となり、インタラクティブ アプリケーションには低レイテンシが求められます。そのため、将来的には軽量で大規模な自動運転モデル​​が登場したり、LLM/VLMの圧縮技術がさらに研究されたりするかもしれません。

ユーザーの行動データに基づいたパーソナライズされた自動運転の推奨事項。スマートカーは、単なる交通手段から、スマート端末シナリオの最新のアプリケーション拡張へと進化しました。したがって、高度な自動運転機能を搭載した車両には、過去の運転データ記録から運転スタイルやルートの好みなど、ドライバーの行動の好みを学習できるようになることが期待されています。これにより、将来的にはスマートカーが、ドライバーの車両制御、運転判断、ルート計画を支援する際に、ユーザーの好みの車両とよりよく連携できるようになります。上記のコンセプトを、パーソナライズされた自動運転推奨アルゴリズムと呼びます。レコメンデーション システムは、電子商取引、オンライン ショッピング、食品配達、ソーシャル メディア、ライブ ストリーミング プラットフォームで広く使用されています。しかし、自動運転の分野では、パーソナライズされた推奨事項はまだ初期段階にあります。近い将来、ユーザーの許可と関連規制の遵守のもと、ユーザーの運転行動の好みに関するビッグデータを収集するためのより適切なデータシステムとデータ収集メカニズムが設計され、ユーザー向けにカスタマイズされた自動運転推奨システムが実現されると考えています。

データセキュリティと信頼できる自動運転。膨大な量の自動運転ビッグデータは、データセキュリティとユーザーのプライバシー保護に大きな課題をもたらします。コネクテッド自動運転車(CAV)や車両のインターネット(IoV)技術が発達し、車両の接続が進むにつれて、運転習慣からよく利用するルートに至るまでの詳細なユーザーデータの収集により、個人情報の悪用の可能性に対する懸念が生じています。収集されるデータの種類、保持ポリシー、サードパーティとの共有に関する透明性の必要性を推奨します。同社は、「追跡拒否」の要求を尊重し、個人データを削除するオプションを提供することなど、ユーザーの同意と制御の重要性を強調した。自動運転業界では、イノベーションを促進しながらこのデータを保護するには、これらのガイドラインを厳守し、ユーザーの信頼を確保し、進化するプライバシー法に準拠する必要があります。

データのセキュリティとプライバシーに加えて、信頼できる自動運転をいかに実現するかという課題もあります。 AD テクノロジーの驚異的な発展により、インテリジェント アルゴリズムと生成 AI モデル (LLM、VLM など) が、ますます複雑化する運転の決定とタスクを実行する際の「運転要因として機能」するようになります。このような状況では、当然次のような疑問が生じます。人間は自動運転モデル​​を信頼できるのでしょうか?私たちの見解では、信頼性の鍵は自動運転モデル​​の説明可能性にあります。単に運転行為を実行するだけでなく、なぜその決定を下したのかを人間の運転手に説明できなければなりません。 LLM/VLMは、高度な推論とわかりやすい説明をリアルタイムで提供することで、信頼性の高い自動運転を強化することが期待されています。

結論は

この調査は、ビッグデータ システム、データ マイニング、クローズド ループ テクノロジーなど、自動運転におけるデータ中心の進化を体系的にレビューした初めての調査です。この調査では、まずマイルストーン世代別に分類されたデータセットの分類法を開発し、歴史的タイムライン全体にわたる AD データセットの発展をレビューし、データセットの取得、設定、および主な機能を紹介します。さらに、クローズドループデータ駆動型自動運転システムを学術的および産業的観点から解説します。データ中心のクローズドループ システムのワークフローパイプライン、プロセス、および主要なテクノロジについて詳しく説明します。実証的研究を通じて、アルゴリズム開発と OTA アップグレードにおけるデータ中心のクローズドループ AD プラットフォームの活用と利点が実証されています。最後に、既存のデータ駆動型自動運転技術の利点と欠点、および将来の研究の方向性について包括的に議論します。焦点は、第 3 世代以降の新しいデータ セット、ハードウェア サポート、パーソナライズされた AD 推奨、説明可能な自動運転にあります。また、生成AIモデルの信頼性、データセキュリティ、自動運転の将来的な発展についても懸念を表明しました。

オリジナルリンク: https://mp.weixin.qq.com/s/YEjWSvKk6f-TDAR91Ow2rA

<<:  警告!長距離LiDAR認識

>>:  月間 30 万個の H100 チップ、Nvidia は Intel にチップの製造を依頼しているのでしょうか? CoWosの生産能力が低すぎるからといって

ブログ    
ブログ    
ブログ    

推薦する

6つの主要なソートアルゴリズム

6 つの一般的なソート アルゴリズムの GIF アニメーションがあり、ソートの考え方をより簡単に理解...

時間変換に基づく初のビデオ移行攻撃アルゴリズム、復旦大学の研究がAAAI 2022に選出

[[441526]]近年、ディープラーニングは一連のタスク(画像認識、物体認識、セマンティックセグメ...

AIが不動産業界をどう変えるのか

デジタル化が進むにつれ、人工知能は不動産経済の成長を促進する上で重要な役割を果たします。有名なソフト...

...

...

GitHub のスター数は 10 万近くに達しています。インド人男性がすべての AI アルゴリズムを Python と Java で実装しました。

[[326676]]今日、アルゴリズムを実装した 2 つのプロジェクトが GitHub のホット ...

...

...

...

ChatGPTのメタバージョンが登場: Llama 2がサポートされ、Bing検索に接続され、ザッカーバーグがライブでデモを実施

今朝早く、毎年恒例の Meta Connect カンファレンスで、AI に焦点を当てた一連の発表が行...

新しい機械学習アプローチによりエネルギー消費を20%削減

エンジニアは、エネルギー消費を20%以上削減できる新しい機械学習手法を開発した。このアプローチにより...

IBMは機械学習に大きな飛躍をもたらす量子アルゴリズムを開発したと主張している

IBMの研究者らは、量子コンピューター上で高度な機械学習を可能にする新しい量子アルゴリズムを開発した...

一言で女の子がN着の服を着替えてくれた。Googleが動画生成を新たな高みへ。ネットユーザー「競争が激化」

Google はたった 1 つの動きで、AI ビデオ生成を新たなレベルに引き上げました。文章からビ...

貪欲アルゴリズム: K回の反転後の配列の合計を最大化する

[[355496]]多くのレコーディング仲間が、昨日のトピック「貪欲アルゴリズム:ジャンピングゲーム...

人工知能とビッグデータの隠れた危険性とは何でしょうか?

データの不足からデータの豊富さへと、近年利用可能なデータの量は飛躍的に増加し、ビッグデータはどこにで...