約 200 以上の自動運転データセットの包括的な調査!データクローズドループプロセス全体の概要

序文と個人的な理解

自動運転技術は、最新のハードウェアとディープラーニング手法の進歩により急速に発展し、有望なパフォーマンスを示しています。信頼性の高い自動運転アルゴリズムを開発するには、高品質のデータセットが不可欠です。これまでのデータセット調査では、これらのデータセットのレビューが試みられましたが、限られた数のデータセットに焦点が当てられていたか、データセットの特性に関する詳細な調査が欠けていました。この目的のために、ここでは、センサーのモダリティ、データサイズ、タスク、コンテキスト条件など、さまざまな観点から 200 を超える自動運転データセットを徹底的に研究します。各データセットの影響を評価するための新しいメトリックを導入します。これは、新しいデータセットを構築するためのガイドとしても役立ちます。注釈付けプロセスとデータセットの品質がさらに分析されます。さらに、いくつかの重要なデータセットのデータ分布が詳細に分析されます。最後に、今後の自動運転データセットの開発動向について説明します。

現在の業界の概要

自動運転（AD）は、人間の介入なしに環境を正確に認識し、インテリジェントな判断を下し、安全に運転できる車両を開発することで、輸送システムに革命を起こすことを目指しています。画期的な技術開発のおかげで、無人タクシーなど、さまざまな自動運転製品が複数の分野で導入されています。自動運転の急速な進歩は、複雑な運転環境において自動運転システムが堅牢で信頼性の高いものとなるために役立つ大規模なデータセットに大きく依存しています。

近年、自動運転データセットの品質と多様性は大幅に向上しています。データセット開発における最初の注目すべき現象は、シミュレーターによって生成された合成データセットや現実世界から記録されたデータセットなど、さまざまなデータ収集戦略があることです。第二に、データセットの構成も多様であり、複数の種類の知覚データ（カメラ画像や LiDAR ポイントクラウドなど）や、さまざまな自動運転タスク用のさまざまな注釈タイプなどが含まれますが、これらに限定されません。下の図 1 は、6 つの現実世界のデータセット (Argoverse 2、KITTI、nuScenes、ONCE、Waymo、ZOD) の 3D オブジェクト境界ボックス分布の統計を鳥瞰図で示しており、各データセットの固有の注釈特性を示しています。

センサーのデバイスの位置に応じて、車載、V2X、ドローンなど、データセットの多様性も認識分野に反映されます。さらに、幾何学的な多様性と気象条件の変化により、自動運転データセットの一般化能力が向上します。

なぜ勉強するのですか?動機は何ですか?

下の図 2 は、自動運転データセットの傾向を 1 つの観点から反映するために、毎年リリースされる認識データセットの数を示しています。公開されているデータセットの数は膨大で増加しているため、自動運転データセットの包括的な調査は、学術研究や産業研究を進める上で非常に価値があります。以前の研究で、Yin らは公道で収集されたデータの公開データセット 27 個を要約しました。 [35] 既存のデータセットの説明に加えて、合成データと実データ間のドメイン適応や自動注釈方法についても議論されています。 [36]は既存のデータセットを要約し、次世代データセットの特徴について詳細な分析を行った。しかし、これらの調査では少数のデータセットのみが要約されており、広範囲に及ぶものではありませんでした。 AD-Dataset は多数のデータセットを収集しますが、これらのデータセットのプロパティの詳細な分析が欠けています。あらゆる種類のデータセットに関する研究を実施するのとは対照的に、一部の研究者は、異常検出、合成データセット、3D セマンティックセグメンテーション、意思決定など、特定の種類の自動運転データセットを調査しています。

したがって、本論文の目的は、自動運転における多数のデータセット、認識から制御までのすべてのタスクを網羅し、実世界のデータと合成データの両方を考慮し、いくつかの主要なデータセットのデータ様式と品質に関する洞察を得る包括的かつ体系的な研究を提示することです。他のデータセット調査と私たちの調査の比較を以下の表 I に示します。

主な貢献

この論文の主な貢献は次のように要約できます。

自動運転データセットに関する包括的な調査を実施します。公開されているデータセットは、リリース年、データサイズ、センサーモダリティ、センシングドメイン、幾何学的条件と環境条件、サポートされているタスクなどの重要な特性を文書化し、可能な限り包括的に検討されました。私たちの知る限り、この研究は、これまでに文書化された自動運転データセットの最も広範な概要を提供します。
自動運転データを収集するためのセンサーと知覚の領域を体系的に説明します。さらに、タスクの目的、必要なデータモダリティ、評価基準など、自動運転の主なタスクについても説明します。
データセットは、認識ドメインとサポートタスクに応じて要約および分割されており、研究者がターゲットデータセットに関する情報を効率的に選択して収集するのに役立ちます。これにより、より的を絞った効果的な研究開発活動が可能になります。
さらに、コミュニティで公開された認識データセットの影響を評価するための影響スコアメトリックが導入されています。このメトリックは、将来のデータセット開発のガイドとしても役立ちます。最高スコアを獲得したデータセットは詳細に分析され、その強みと有用性が強調されます。
データセットの注釈品質と、さまざまな自動運転タスクの既存の注釈手順が調査されます。
詳細なデータ統計を実行して、さまざまなデータセットのデータ分布をさまざまな観点から表示し、それらの固有の制限と適用可能性を実証します。
最近の技術動向を分析し、次世代データセットの方向性を示します。また、大規模言語モデルが将来の自動運転のさらなる推進にどのような影響を与えるかにも期待しています。

範囲と制限

この論文の目的は、既存の自動運転データセットを徹底的に調査し、この分野における将来のアルゴリズムとデータセットの開発を支援することです。私たちは、認識、予測、計画、制御という 4 つの基本的な自動運転タスクに焦点を当てたデータセットを収集しました。複数のタスクをサポートする汎用的なデータセットが複数存在するため、紹介の重複を避けるため、主にサポートする主な範囲についてのみ説明します。さらに、多数のデータセットが収集され、その主な特性とともに表形式で提示されます。ただし、収集されたすべてのデータセットの詳細な説明では、最も人気のあるデータセットが強調されない可能性があり、研究者がこの調査を通じて貴重なデータセットを見つけることを妨げる可能性があります。したがって、最も影響力のあるデータセットのみが詳細に説明されます。

記事の構成

この論文の残りの部分は次のように構成されています。第 2 章では、公開データセットを取得するために使用される方法と、データセットの評価基準について説明します。セクション III では、自動運転で使用される主なセンサーとそのモダリティについて説明します。セクション IV では、自動運転のタスク、関連する課題、必要なデータについて説明します。いくつかの重要なデータセットについては、セクション V でさらに詳しく説明します。第 6 章では、注釈付けのプロセスと注釈付けの品質に影響を与える要因について説明します。さらに、いくつかのデータセットのデータ分布統計がセクション7で示されています。第8章では、自動運転データセットの開発動向と今後の取り組みについて調査します。最後に、第 9 章で結論を述べます。この調査の分類構造を以下の図3に示します。

方法論の紹介

このセクションでは、1) データセットの収集とスクリーニングの方法 (II-A)、および 2) データセットが自動運転分野に与える影響を評価する方法 (II-B) について説明します。

データセットの収集

著者らは[42]のアプローチに従って、公開されている自動運転データセットを網羅的に収集するための体系的なレビューを実施した。ソースの多様性を確保するために、著者は Google、Google Scholar、Baidu などのよく知られた検索エンジンを使用してデータセットを検索しました。さまざまな国や地域のデータセットを包括的に収集するために、「自動運転データセット」、「インテリジェント車両データセット」などのキーワードや、物体検出、分類、追跡、セグメンテーション、予測、計画、制御に関連する用語を使用して、英語、中国語、ドイツ語で検索を実施しました。

さらに、IEEE Xplore や自動運転およびインテリジェント交通システムの分野における関連会議を検索し、ジャーナルや会議議事録からデータセットを収集しました。これらのソースからのデータセットは、キーワード検索と手動のタイトルレビューを通じて検証されました。

最後に、専門的なデータセットやあまり知られていないデータセットが含まれていることを確認するために、著者らは Github リポジトリと Paperwithcodes を検索しました。データベースと同様に、データセットに対して手動およびキーワードベースの検索が実行されました。

データセット評価指標

著者らは、公開されたデータセットの重要性を評価するための新しい指標であるインパクトスコアを導入しており、これは新しいデータセットを準備するためのガイドとしても役立ちます。このセクションでは、自動運転データセットの影響スコアを計算する方法について詳しく説明します。

公平かつ比較可能な比較を行うために、自動運転データセットの大部分を占める知覚領域に関連するデータセットのみを検討します。さらに、スコアリングシステムの客観性と理解可能性を確保するために、引用数、データの次元、環境の多様性など、さまざまな要素が考慮されました。すべての値は、公式論文またはオープンソースのデータセット Web サイトから収集されます。

引用スコア。まず、著者らは引用総数と年間平均引用数から引用スコアを計算しました。公平な引用カウントを得るために、データセットの最も古いバージョンが公開時刻として選択されます。さらに、比較が一貫した時間枠に基づいて行われるように、すべての引用数は 2023 年 9 月 20 日まで収集されます。引用の総数はデータセットの全体的な影響を反映します。この指標の値が高いということは、データセットが研究者によって広く認識され、使用されていることを意味します。ただし、以前に公開されたデータセットの方が引用数が多くなる可能性があります。この不公平に対処するために、著者らはデータセットの年間引用増加率を表す平均年間引用数を使用しています。計算関数は以下の式1に示します。

ここで、およびはそれぞれ現在の年とデータセットがリリースされた年を表します。一方、引用数の範囲は非常に広く、数桁から数万に及びます。極端な不均衡を軽減し、各データセット間の違いを強調するために、著者らはとの両方を対数変換し、式 2 に示すように最小最大正規化を実行しました。

最終的に、引用スコアは次の合計になります。

データディメンションのスコアリング。データディメンションは、データセットのサイズ、時間情報、タスク数、注釈カテゴリの 4 つの観点から測定されます。データセットのサイズ f は、データセット内のフレームの数によって表され、その容量と包括性を反映します。データセットサイズスコアを取得するには、異なるデータセット間の極端な不均衡を克服するために、フレーム数を参照スコアと同じ方法で処理します。

時間情報は、車両が周囲の状況が時間の経過とともにどのように変化するかを理解できるようにするため、自動運転にとって非常に重要です。著者らは、データセットに時間情報が含まれているかどうかを示すためにt∈{0,1}を使用しています。タスクの数に関しては、著者らは、2D オブジェクト検出、3D オブジェクト検出、2D セマンティックセグメンテーション、3D セマンティックセグメンテーション、追跡、車線検出など、自動運転認識の分野における 6 つの基本タスクに関連するデータセットのみを考慮しています。したがって、タスク量スコアはとして記録されます。カテゴリの数は、データセットの堅牢性と汎用性にとって非常に重要です。統計プロセスでは、データセットが複数のタスクをサポートし、さまざまな種類の注釈が含まれている場合、作成者はカテゴリの数が最も多いデータを選択します。次に、これらのカテゴリーは五分位に基づいて 5 つのレベル l = {1、2、3、4、5} に分割されました。後続のプロセスの前に、著者らは計算を簡略化するために l を正規化しました。

データ次元スコアをできるだけ客観的に反映するために、著者は、以下の式 4 に示すように、4 つのコンポーネントに異なる重みを割り当てました。

環境多様性スコア。データセットの環境多様性は、次の要素に基づいて評価されました。

雨や雪などの気象条件。
昼間や夕暮れなどのデータ収集時間。
都市部や田舎など、運転シナリオの種類。
幾何学的範囲は、データが記録される国または都市の数を指します。

著者らが合成データセットの幾何学的範囲を欠損として扱っていることは注目に値する。多様性は、論文がデータを分類する粒度によって定量化されます。さらに、欠損値については、データセットがさまざまな条件下でデータが記録されたことを公表している場合、著者は中央値を欠損値として使用しました。それ以外の場合は、この属性の欠損値を 1 に設定します。著者らは各要因を 5 つの異なるレベルに定量化し、環境多様性スコアはこれら 4 つの要因の合計となった。

最後に、式 5 を使用して影響スコアを計算します。

総インパクトスコアは100で、そのうち60%が引用スコア、データ次元スコアと環境多様性スコアが40%を占めています。

自動運転におけるデータソースと協調認識

このセクションでは、自動運転に主に使用されるセンサーとそのモダリティについて紹介します。さらに、車両、ドローン、V2Xの協調認識などのデータ収集と通信領域が分析されます。

センサーとデータのモダリティ

周囲の環境から効率的かつ正確にデータを収集することが、自動運転のための信頼性の高い認識システムの鍵となります。この目標を達成するために、自律走行車やインフラストラクチャにはさまざまな種類のセンサーが使用されます。センサーの例を以下の図 4 に示します。最も一般的に使用されるセンサーは、カメラ、LiDAR、レーダーです。認識能力をさらに強化するために、イベントベースカメラや熱画像カメラも車両や道路脇に取り付けられます。

RGB画像。 RGB 画像は通常、単眼カメラ、双眼カメラ、または魚眼カメラによって記録されます。単眼カメラは奥行きのない 2D ビューを提供し、ステレオカメラはデュアルレンズを通じて奥行き知覚を提供し、魚眼カメラは広角レンズを使用して広い視野を捉えます。これらのカメラはすべて、レンズを通して光をイメージセンサー（CMOS など）に送信し、イメージセンサーはこの光を画像を表す電子信号に変換します。下の図 5 (a) に示すように、2D 画像は環境の色情報、豊かなテクスチャ、パターン、視覚的な詳細をキャプチャします。これらの特性により、RGB 画像は主に車両や歩行者の検出、道路標識の認識に使用されます。ただし、RGB 画像は、低照度、雨、霧、フレアなどの条件の影響を受けやすくなります。

LiDAR ポイントクラウド。 LiDAR はレーザービームを使用してセンサーとターゲット間の距離を測定し、環境の 3D 表現を作成します。 LiDAR ポイントクラウド (下の図 5 (b) を参照) は、高解像度で正確な空間情報を提供し、長距離のターゲットを検出できます。ただし、これらのポイントの密度は距離とともに減少し、遠くのオブジェクトの表現が疎になります。霧などの気象条件も LiDAR のパフォーマンスを制限する可能性があります。一般的に、LiDAR は簡単な 3D 情報が必要な状況に適しています。

レーダー点群。レーダーは、無線周波数の電波を放射し、その反射を分析することで、目標物、距離、相対速度を検出します。さらに、レーダーはあらゆる気象条件において非常に堅牢です。ただし、レーダーの点群は通常 LiDAR データよりも粗く、ターゲットの詳細な形状やテクスチャ情報が欠けています。そのため、レーダーは他のセンサーを補助するためによく使用されます。下の図5(c)はレーダー点群を示しています。

イベントカメラ。イベントベースのカメラはデータを非同期的にキャプチャし、ピクセルが明るさの変化を検出した場合にのみアクティブになります。キャプチャされたデータはイベントと呼ばれます（図5（d）を参照）。使用される特定のデータ生成方法により、記録されたデータは極めて高い時間解像度を持ち、ぼやけることなく高速な動きを捉えることができます。

サーモグラフィカメラからの赤外線画像。サーマルイメージングカメラ（下図5（e）参照）は、赤外線を捉えて熱の痕跡を検出します。サーマルイメージングカメラは温度差に基づいて画像を生成するため、完全な暗闇でも動作し、霧や煙の影響を受けません。ただし、サーマルイメージングカメラでは色や詳細な視覚パターンを区別することはできません。さらに、赤外線画像は光学カメラに比べて解像度が低くなります。

慣性計測装置（IMU） 。 IMU は、特定の力、角速度、場合によってはターゲットの周囲の磁場を測定して報告する電子機器です。自動運転では、車両の動きや方向を追跡するために使用されます。 IMU には周囲の環境に関する視覚情報は含まれていませんが、IMU のデータと他のセンサーのデータを融合することで、認識システムは車両の動きと向きをより正確かつ確実に追跡できます。

著者らは、収集したデータセットからセンサーの分布を分析しました。下の図 6 に示します。センサーの半分以上は、低価格と信頼性の高い性能を備えた単眼カメラ（53.85%）です。さらに、93 のデータセットには、高解像度と正確な空間情報で評価されている LiDAR データが含まれています。しかし、コストが高いため、LiDAR の広範な使用は制限されます。 LiDAR ポイントクラウドに加えて、29 のデータセットではステレオカメラを使用して深度情報を取得します。さらに、レーダー、サーマルイメージングカメラ、魚眼カメラを含むデータセットの割合は、それぞれ 5.41%、3.42%、1.71% です。動的なシーンをキャプチャする際のイベントベースカメラの時間効率を考慮して、イベントベースカメラデータを生成するデータセットが 3 つあります。

センサー領域と協調知覚システム

自動運転システムでは、車両と周囲の環境にある他のエンティティ間の認識データと通信が重要な役割を果たし、自動運転システムの安全性、効率性、全体的な機能性を保証します。したがって、センサーの位置は、収集できるデータの品質、角度、範囲を決定するため非常に重要です。一般的に、自動運転の文脈では、センサーは自動運転車、V2X（Vehicle-to-Everything）、ドローンなどの領域に分類できます。

自動運転車: 自動運転車のセンサーは、通常、カメラ、LiDAR、レーダー、慣性測定装置 (IMU) など、自律走行車に直接取り付けられます。これらのセンサーは車両の視点から直接映像を提供し、車両の周囲で何が起こっているかについての即時フィードバックを提供します。ただし、車両の検出範囲が限られているため、自車両センサーでは、死角内の障害物の早期警告や急カーブ周辺の危険の検出に限界がある場合があります。

車両対あらゆるもの (V2X) : 車両対あらゆるものには、車両対車両 (V2V)、車両対インフラストラクチャ (V2I)、車両対ネットワーク (V2N) など、輸送システム内の車両とその他のコンポーネント間の通信が含まれます (下の図 7 を参照)。直接的な感覚入力に加えて、コラボレーションシステムでは複数のエンティティが連携して動作することを保証します。

車車間通信 (V2V) V2V により、近くの車両が位置、速度、カメラ画像や LiDAR スキャンなどのセンサーデータなどのデータを共有できるようになり、運転シーンをより完全に把握できるようになります。
車両対インフラストラクチャ (V2I) V2I は、自動運転車両と、信号機、標識、路側センサーなどのインフラストラクチャコンポーネント間の通信を容易にします。カメラ、LiDAR、レーダー、イベントベースのカメラなど、道路インフラに組み込まれたセンサーは連携して認識範囲を拡大し、自律走行車の状況認識を向上させます。この調査では、著者はインフラストラクチャを介したセンシングと V2I の両方を V2I として分類しています。
車両対ネットワーク (V2N) V2N とは、車両とより広範なネットワークインフラストラクチャ間の情報交換を指し、通常はセルラーネットワークを活用して車両にクラウドデータへのアクセスを提供します。 V2N は、地域間のデータを共有したり、交通渋滞や道路閉鎖に関するリアルタイムの更新情報を提供したりすることで、V2V と V2I の協調認識を支援します。

ドローン: ドローンは空中からの視点を提供し、軌道予測や経路計画に必要なデータを提供します。たとえば、ドローンからのリアルタイムデータを交通管理システムに統合して、交通の流れを最適化し、前方の事故を自動運転車に警告することができます。

最初の 3 つのタイプで収集されないその他のデータは、車両以外のターゲットまたは複数のフィールドにインストールされているその他のデバイスなど、その他として定義されます。

自動運転におけるタスク

このセクションでは、認識と位置特定、予測、計画と制御など、自動運転における主要なタスクについて詳しく説明します。自動運転プロセスの概要を図 8 に示します。目的、依存するデータの性質、固有の課題について詳しく説明します。図 9 は、自動運転におけるいくつかの主要なタスクの例を示しています。

認識と位置づけ

知覚は、感覚データに基づいて環境を理解することに重点を置いており、位置特定は、その環境内での自律走行車の位置を決定します。

2D/3Dオブジェクト検出

2D または 3D オブジェクト検出は、運転環境内の他のエンティティを識別して分類することを目的としています。 2D オブジェクト検出では画像空間内のオブジェクトを識別しますが、3D オブジェクト検出では LiDAR によって提供される正確な深度情報をさらに統合します。検出技術は大きく進歩しましたが、物体の遮蔽、照明の変化、物体の外観の多様性など、いくつかの課題が依然として存在します。

通常、AP メトリックはオブジェクト検出パフォーマンスを評価するために使用されます。 [1]によれば、APメトリックは次のように表現される。

ここで、p(r)は適合率-再現率曲線です。

2D/3Dセマンティックセグメンテーション

セマンティックセグメンテーションでは、画像の各ピクセルまたはポイントクラウドの各ポイントをセマンティックカテゴリに分類します。データセットの観点から見ると、きめ細かいオブジェクト境界を維持し、多数のラベル付け要件を管理することが、このタスクの重要な課題です。

前のセクションで述べたように、セグメンテーションに使用される主な指標には平均ピクセル精度 (mPA) が含まれます。

そしてmIoU:

ここで、k*∈N はカテゴリの数であり、およびはそれぞれ真陽性、偽陽性、偽陰性を表します。

ターゲット追跡

ターゲット追跡は、単一または複数のターゲットの軌道を時間の経過とともに監視します。このタスクには、RGB データ、LiDAR、またはレーダーシーケンスの時系列が必要です。通常、ターゲット追跡には、単一ターゲット追跡または複数ターゲット追跡 (MOT) が含まれます。

マルチオブジェクト追跡精度 (MOTA) は、マルチオブジェクト追跡に広く使用されている指標であり、偽陰性、偽陽性、不一致率を組み合わせたものです (式 9 を参照)。

ここで、、、はそれぞれ、時間 t における偽陽性、偽陰性、不一致エラーの数です。それが真の価値です。

さらに、単一のしきい値を考慮するのではなく、すべてのターゲット信頼しきい値に基づいて平均 MOTA (AMOTA) が計算されます。

高精度地図

HD マップの目的は、道路構造、交通標識、ランドマークに関する情報を含む詳細かつ高精度な表現を構築することです。データセットは、構築されたマップの精度を確保するために、正確な空間情報のための LiDAR データと視覚的な詳細のためのカメラデータを提供する必要があります。

によると、高精度地図自動化と高精度地図変更検出がますます注目を集めています。通常、高精度マップの品質は、精度メトリックを使用して推定されます。

スラム

同時位置推定およびマッピング (SLAM) では、周囲の環境のマップを同時に構築し、そのマップ内で車両の位置を特定します。したがって、カメラ、位置追跡用の IMU、リアルタイム LiDAR ポイントクラウドからのデータが非常に重要になります。入力 RGB-D 画像から推定された軌道の品質を評価するために、相対姿勢誤差 (RPE) と絶対軌道誤差 (ATE) という 2 つの評価指標が導入されています。

予測する

予測とは、周囲のエージェントの将来の状態や動作を予測することを指します。この機能により、動的な環境でもより安全なナビゲーションが保証されます。予測では、二乗平均平方根誤差 (RMSE) などのいくつかの評価指標が使用されます。

ここで、N はサンプルの総数であり、それぞれ予測された軌道と実際の軌道を表します。

負の対数尤度（NLL）（式11を参照）は、軌道の正確さに焦点を当てた別の指標であり、異なるモデルの不確実性を比較するために使用できます。

ここで、C はクラスの総数、は予測の正確さを示すバイナリ指標、は対応する予測確率です。

軌道予測

軌道予測では、カメラや LiDAR などのセンサーからの時系列データを使用して、歩行者、自転車、その他の車両などの他のエンティティの将来の経路または移動パターンを予測します。

行動予測

行動予測は、車両が車線変更するかどうかなど、他の道路利用者の潜在的な行動を予測します。行動予測モデルのトレーニングでは、エンティティがさまざまなコンテキストで実行する可能性のあるさまざまなアクションがあるため、広範囲に注釈が付けられたデータが必要になります。

意図予測

意図予測は、人間のターゲットの身体的または精神的活動のより深い意味的理解を伴い、ターゲットの行動の背後にある意図を推測するという高レベルの目標に焦点を当てています。タスクの複雑さのため、他のエージェントの意図を推測するには、知覚カメラなどのセンサーからのデータだけでなく、交通標識やジェスチャーなどの他の情報も必要になります。

計画と管理

計画:計画は、認識された環境と予測に応じて意思決定を行うプロセスを表します。古典的な 3 レベルの階層型計画フレームワークには、パス計画、動作計画、および動作計画が含まれます。

パス計画:パス計画 (ルート計画とも呼ばれます) には、長期的な目標の設定が含まれます。これは、目的地に到達するための最適なパスを決定する高レベルのプロセスです。
行動計画:行動計画はフレームワークの中間レベルに位置し、車線変更、追い越し、合流、交差点横断などの意思決定に関連しています。このプロセスは、他のエージェントの動作を正しく理解し、相互作用することに依存します。
動作計画:動作計画では、障害物、道路状況、および他の道路エージェントの予測される動作を考慮して、車両がリアルタイムでたどるべき実際の軌道を扱います。パスプランニングとは対照的に、モーションプランニングはローカルゴールを達成するための適切なパスを生成します。

制御:自動運転における制御メカニズムは、自動運転車が動作計画システムによって決定された経路または動作を実行する方法を管理し、追跡エラーを修正します。高レベルのコマンドを、実行可能なスロットル、ブレーキ、ステアリングのコマンドに変換します。

エンドツーエンドの自動運転

エンドツーエンドの自動運転とは、従来のモジュール式プロセスを回避し、単一のディープラーニングモデルが認識から制御までのすべてのタスクを処理することを意味します。このようなモデルは、学習を通じてモデル全体を調整するため、より適応性が高い場合が多くあります。手作りの部品の必要性を減らすことで、シンプルさと効率性を実現できるのが、その本質的な利点です。ただし、エンドツーエンドのモデルを実装するには、大量のトレーニングデータ要件、解釈可能性の低さ、柔軟性のないモジュール調整など、重要な制限に直面します。

エンドツーエンドの自動運転の大規模ベンチマークは、クローズドループ評価とオープンループ評価に分けられます。クローズドループ評価はシミュレーション環境に基づいて行われ、オープンループ評価では、実際のデータセットからの専門的な運転行動に基づいてシステムのパフォーマンスを評価します。

影響力の大きいデータセット

このセクションでは、認識、予測、計画、制御の分野における画期的な自動運転データセットについて説明します。エンドツーエンドの自動運転のためのデータセットも提示されます。

認識データセット

知覚データセットは、自動運転システムの開発と最適化に不可欠です。豊富なマルチモーダル知覚データを提供し、周囲の環境を効果的に知覚および理解することで、車両の信頼性と堅牢性を高めます。

著者らは、提案されたデータセット評価メトリックを使用して収集された知覚データセットの影響スコアを計算し、その後、これらのスコアに基づいて上位 50 のデータセットを選択して、以下の図 10 に示すように時系列の概要を作成しました。同時に、前節で述べたように、データセットは車載型、V2X、ドローン、その他に分類され、各カテゴリからサブセットが選択され、50のデータセットを含む包括的な表が作成されます（以下の表II）。表内のデータセットは、それぞれのカテゴリ内で影響スコアによって並べ替えられており、全体の上位 50 を表すものではないことに注意してください。次のセクションでは、著者は各認識ソースから最も高い影響スコアを持つデータセットをいくつか選択し、その発行年を考慮しました。

車内

KITTI: 2012 年のリリース以来、KITTI は自動運転の分野に大きな影響を与えてきました。 KITTI には、カメラ、LiDAR、GPS/IMU などのさまざまなセンサーで記録されたさまざまな現実世界の運転シナリオが含まれています。豊富な注釈が付けられた高解像度のセンサーデータにより、物体検出、追跡、オプティカルフロー、深度推定、視覚オドメトリなど、さまざまな自律運転タスクのアルゴリズム開発とベンチマークが容易になります。
都市景観:都市景観は、複雑な都市環境で明示的に撮影された多数の画像で構成されています。 Cityscapes は、慎重な注釈付けを通じて、さまざまな車両タイプ、歩行者、道路、交通標識など、30 種類のオブジェクトカテゴリをピクセルレベルでセグメンテーションします。その複雑さと豊かさのために、都市の景観は、都市のシーンにおけるセマンティックセグメンテーションなどのタスクの標準的なベンチマークとなっています。
Synthia： Synthiaは、自律運転の分野の合成データセットです。データセットには、セマンティックセグメンテーションのためにピクセルごとの注釈付きの13,400枚の画像が含まれています。 Synthiaの顕著な特徴は、実際のデータと合成データの間のギャップを埋める能力であり、異なるドメイン間の堅牢で移動可能な方法の開発を促進することです。
Virtual Kitti： Virtual Kittiは、仮想環境を通じて元のKittiデータセットを密接に模倣し、さまざまな交通状況や環境条件をカバーする高解像度のビデオシーケンスを提供することで際立っています。同様に、Virtual Kittiは、オブジェクトの検出、セマンティックセグメンテーション、オブジェクトトラッキングなどの主要な自律運転タスクをサポートしています。
Viper： Viperは、現実的な仮想世界での運転、サイクリング、および歩行の視点から収集された合成データセットであり、データ不足の課題と現実世界のデータに注釈の高いコストに対処します。 Viperには250,000を超えるビデオフレームが含まれており、低レベルと高レベルのビジョンタスクの両方にグラウンドトゥルースデータを提供し、さまざまな気象条件、照明シナリオ、複雑な都市景観をカバーしています。全体として、Viperは、信頼できる安全な自律運転の開発を加速するための貴重で費用対効果の高いツールを研究者に提供します。
Apolloscapes： Apolloscapesは、自動運転車の認識とナビゲーションシステムのトレーニングと検証に不可欠な、正確な境界ボックスとピクセルレベルのセマンティックラベルを備えた140,000を超える高解像度フレームを提供します。 Apolloscapesは、画像とポイントクラウドのセマンティックセグメンテーション、2D/3Dオブジェクト検出、マルチオブジェクト追跡、およびレーンセグメンテーションをサポートし、高度で安全な自律駆動システムの作成と評価を可能にします。
Semantickitti： Semantickittiは、自律運転の分野でのセマンティックセグメンテーションに焦点を当てたKittiファミリーの重要な拡張です。 Semantickittiには43,000を超えるLidarポイントクラウドフレームが含まれており、屋外環境での3Dセマンティックセグメンテーションの最大のデータセットの1つになっています。 Semantickittiは、車、道路、建物など、28のカテゴリに正確なラベルを提供し、Point Cloudセマンティックセグメンテーション方法のパフォーマンスを評価し、関連分野の多くの研究と革新をサポートするための強力なベンチマークを提供します。
ヌスセン：ヌスケンは、自律運転の分野に重要な貢献であり、知覚システムの多様なニーズを満たすための豊富なデータベースを提供します。 NuscenesはLidar、レーダー、カメラを使用して、ボストンとシンガポールのさまざまな都市シーンのデータを記録しています。その6つのカメラが周囲の環境の包括的なビューを提供し、マルチビューオブジェクト検出タスクで広く使用されていることに言及する価値があります。全体として、Nuscenes Datasetは、自律運転技術を開発し、複数のタスクとアプリケーションをサポートし、この分野で新しいベンチマークを設定するための基礎です。
Waymo： 2019年に発売されたWaymo Open Datasetは、大量のマルチモーダル認識データと高品質の注釈を提供することにより、自律的な運転研究と進歩に大きな影響を与えました。 WAYMOデータセットの主要な貢献には、運転条件と地理的位置の包括的なカバレッジが含まれます。これは、検出、追跡、セグメンテーションなどのさまざまなタスクにわたる堅牢性と一般性にとって重要です。
BDD100K： 2018年にBerkeley Deepdrive CenterによってリリースされたBDD100Kデータセットは、その規模と多様性で知られる大規模で多様な運転データセットです。それぞれ約40秒の100,000ビデオが含まれています。同時に、オブジェクトの検出、追跡、セマンティックセグメンテーション、レーン検出のためのさまざまな注釈タグを提供します。この大規模なデータセットは、自律運転コミュニティの進歩を促進し、研究者とエンジニアがアルゴリズムを提案および改善するための挑戦的で多目的なプラットフォームとして機能します。
Radiate： Radiateは、雨、霧、曇り、雪のような日など、さまざまな厳しい気象条件の下で収集された44,140の注釈付き画像を含む最初のパブリックレーダーデータセットです。また、Lidarとカメラのデータを統合して、運転環境の包括的な認識と理解を可能にします。
Argoverse 2： Argoverse 2、Argoverse 1の続編は、より多様で複雑な運転シナリオを導入し、これまでで最大の自律運転分類法を紹介します。 6つの都市とさまざまな条件下で、さまざまな現実世界の運転シナリオをキャプチャします。 Argoverse 2は、3Dオブジェクトの検出、セマンティックセグメンテーション、追跡を含むがこれらに限定されない複数の重要なタスクをサポートします。要約すると、Argoverse 2データセットは、実際の運転シナリオの大量のマルチモーダルデータを提供し、アルゴリズムの革新と進歩を促進し、自律運転の重要なリソースとしてのその実質的な可能性を示しています。

V2X

V2VNET： V2VNETによって導入されたデータセットは、V2V通信の活用に焦点を当てており、自律型車両が複数の視点から情報を共有できるようにします。データセットは、リダルシムと呼ばれる高忠実度Lidarシミュレーターを使用して作成されました。これは、実際のデータを使用して、さまざまなトラフィックシナリオの現実的なライダーポイントクラウドを生成します。全体として、この作業は、自律的な車両能力を改善するための有望な手段としてV2Vに注意を向けています。
Dair-V2X： Dair-V2Xは、車両間での共同自律運転の分野における先駆的なリソースであり、大規模でマルチモーダルのマルチビューの実世界データを提供します。このデータセットは、車両とインフラストラクチャセンサー間の時間の非同期や、そのような共同システムに含まれるデータ送信コストなどの課題に対処することを目的としています。 Dair-V2Xデータセットは、多様な現実世界のシナリオのおかげで、車両間界の協力の複雑さのベンチマークを設定するため、自律運転に大きな影響を与えます。
ROPE3D： ROPE3Dは、知覚システムへの重要な貢献であり、道端のカメラから収集されたデータを活用することにより、自律運転の重要なギャップを埋めます。 ROPE3Dには、さまざまな照明（昼、夜、夕暮れ）や気象条件（雨、晴れ、曇り）など、さまざまな環境条件に50,000枚の画像が含まれています。全体として、ROPE3Dデータセットは、自律運転における道端の知覚を進めるための先駆的な作業であり、研究者とエンジニアがより堅牢でインテリジェントな自律駆動システムを開発するための重要なツールです。
V2V4Real： V2V4Realは、V2V協同的認識のための最初の大規模な現実世界のデータセットです。このデータセットは、LIDARやカメラなどのマルチモーダルセンサーを備えた2台の車両から収集されます。 V2V4Realは、協調的な3Dオブジェクト検出、協同組合3Dオブジェクト追跡、SIM2REALドメイン適応などのさまざまな知覚タスクに焦点を当てています。この汎用性により、自律運転アルゴリズムを開発およびベンチマークするための貴重なリソースになります。

ドローン

UAVDT ：UAVDTデータセットには、気象条件、飛行態度、カメラビュー、車両カテゴリ、閉塞レベルなどの14の属性を持つ80,000の正確に注釈付きフレームが含まれています。このデータセットは、都市環境でのUAVベースのオブジェクトの検出と追跡に焦点を当てています。さらに、UAVDTベンチマークには、密なシーン、小さなオブジェクト、および重要なカメラモーションが含まれており、現在の最先端の方法に挑戦しています。
DRONEVEHICLE： DRONEVEHICLEは、低光条件でのオブジェクト検出の問題を解決するために、28,439 RGBのRGB内向的な画像ペアを提供する大規模なドローンベースのデータセットを提案しています。さらに、都市道路、住宅地、駐車場など、さまざまなシナリオをカバーしています。このデータセットは、幅広い条件下での独自のドローンの視点により、自律運転技術の開発における重要なステップです。

他の

PASCAL3D+： PASCAL3D+は、画像により豊かで多様な注釈を提供することにより、以前のデータセットの制限を克服するPascal VOC 2022の拡張です。 Pascal3D+は、車、バス、自転車などの12の剛性ターゲットカテゴリに3Dポーズアノテーションを提供し、Imagenetからさらに画像を追加することにより、高度な変動性を達成します。
TT 100K： Tsinghua University-Tencent 100Kは、実際の運転条件下で交通標識を検出して分類するという課題を解決します。交通標識の30,000インスタンスを含む100,000の画像を提供します。大規模なデータサイズに加えて、高解像度の画像はさまざまな照明と気象条件をカバーしているため、交通標識の認識のトレーニングと検証に堅牢になります。
Mapillary Vistas： 2017年に提案されたように、それは主にストリートシーンのセマンティックセグメンテーションを目指しています。データセットには、66のターゲットカテゴリがマークされた25,000の画像が含まれており、37のカテゴリのインスタンス固有の注釈が含まれています。さまざまな天候、時間、幾何学的な場所からの画像が含まれており、特定の領域や条件に対するバイアスを緩和するのに役立ちます。

予測、計画、制御データセット

予測、計画、および制御データセットは、運転システムのトレーニングと評価を促進し、トラフィックのダイナミクス、歩行者の動き、および運転の決定に影響を与えるその他の重要な要因を予測するための基礎です。さまざまな運転シナリオをシミュレートすることにより、自動運転車が情報に基づいた意思決定を行い、複雑な環境を横断し、安全で効率的に保つことができます。したがって、著者は、データのサイズ、モダリティ、および引用の数に基づいて、これらのタスクに関連するいくつかのインパクトの高いデータセットを詳細に提示します。予測、計画、および制御データセットは、タスク固有およびマルチタスクグループにまとめられています。

タスク固有のデータセット：

highd。ドローンベースのHighDデータセットは、110,000台の車とトラックの後処理軌跡を含む、ドイツの高速道路での自然車両の軌跡の大規模なコレクションを提供します。このデータセットは、既存のシナリオベースのセキュリティ検証測定方法の制限を克服するように設計されています。これは、道路ユーザーの自然な動作をキャプチャできないか、十分な品質のすべての関連データが含まれていることがよくあります。
パイ。提案されている歩行者の意図推定（PIE）データセットは、都市環境で歩行者の行動を理解する上で大きな進歩を遂げました。トロントのダウンタウンに記録された6時間以上の運転ビデオが含まれており、さまざまな照明条件をカバーしています。 PIEデータセットは、咬合標識を備えた境界ボックス、交差意図への自信、歩行者の行動のためのテキストラベルなど、知覚と視覚的推論の豊富な注釈を提供します。長期の連続シーケンスとラベル付けは、軌道予測や歩行者意図の予測などの複数のタスクに役立ちます。
usyd。 USYDは、信号機のない都市交差点のコンテキストでドライバーの意図の予測の進行を促進します。これは、都市の環境で一般的であり、明確な道路規則と信号がないために課題を提起します。データセットには、5つの異なる交差点を横断する23,000を超える車両からのデータが含まれており、オンボードLIDAR追跡システムを使用して収集されます。データモードには、横方向および縦座標、見出し、速度を詳細に提供する車両の軌跡が含まれます。この情報は、人間の運転パターンに固有の不確実性を考慮して、運転行動を予測するために不可欠です。
Argoverse。 Argoverseは、3Dターゲット追跡とモーション予測の重要なデータセットです。 Argoverseは、7つのカメラ、前方の双眼画像、ライダーポイント雲から360°の画像を提供します。記録されたデータは、290kmマッピングされたレーンラインから300,000を超える車両トラックをカバーしています。豊富なセンサーデータとセマンティックマップを使用すると、予測システムの研究開発を促進するためには、Argoverseが重要です。
Ind。 INDの重要性は、大規模で高品質で多様な軌跡データにあります。これは、道路ユーザー予測モデルと都市交差点環境における自動化された車両のシナリオベースの安全検証に重要です。車両、自転車、歩行者など、約11,500の異なる道路ユーザートラックをカバーしています。これらの軌跡の位置決め誤差は0.1メートル未満であり、これはデータの信頼性にとって重要です。
ペプセーン。 Pepscenesは、ダイナミックな運転環境で歩行者の動きを理解し、予測する必要性に対処しています。このデータセットは、2D/3Dの境界ボックスとフレームごとに動作注釈を追加して、歩行者の交差動作に焦点を当てることにより、ヌスセンデータセットを強化します。これの重要な属性は、セマンティックマップ、シーン画像、軌跡、自転車状態など、さまざまなデータ型の組み合わせです。これは、複雑なトラフィックシナリオを理解できる強力なモデルを作成するために不可欠です。
Opendd。 Openddデータセットは、複雑で信号によって制約されていないラウンドアバウト周辺のトラフィックシナリオの分析と予測に焦点を当てています。 501個のソロフライトの62時間のトラックデータにまたがる高解像度（4K）ドローンを使用してキャプチャされた画像に基づいて作成されました。このデータセットには、道路トポロジを記述するShapeFilesと拡張可能なマークアップ言語（XML）ファイル、および各基礎となる交差点の参照画像も含まれています。
ヌプラン。 Nuplanは、自律運転における世界初の閉ループ機械学習計画ベンチマークです。このマルチモーダルデータセットには、米国とアジアの4つの都市からの約1,500時間の人間の運転データが含まれており、マージ、車線の変更、自転車や歩行者との相互作用、建設エリアでの運転などのさまざまな交通パターンを示しています。 Nuplanデータセットのこれらの機能は、実際の運転の動的でインタラクティブな性質を考慮しており、より現実的な評価に適しています。
edid。 EXID軌道データセットは2022年に提案され、非常にインタラクティブな高速道路シナリオにとって非常に重要です。ドローンを使用してトラフィック条件を記録し、トラフィックへの影響を減らし、高いデータの品質と効率を保証します。このドローンベースのデータセットは、さまざまな相互作用の多様性、特に高速インレットと出口を含む車線の変化において、以前のデータセットを上回ります。
モナ。 Natural Driving（MONA）のMunich Motion Datasetは、複数の車線線、都市高速道路、およびその移行を備えた都市道路をカバーする130時間のビデオから702,000のトラックを含む大規模なデータセットです。このデータセットは、0.51メートルの平均的な位置の精度を示しており、非常に正確なポジショニングとLIDARセンサーを使用して収集されたデータの品質を示しています。

マルチタスクデータセット：

交流。相互作用データセットは、多様で複雑で重要な運転シナリオをカバーし、包括的なセマンティックマップを組み合わせて、モーション予測、模倣学習、意思決定と計画の検証など、さまざまなタスクの多機能プラットフォームになります。さまざまな国からのデータが含まれており、さまざまな文化の運転行動を分析することの堅牢性をさらに改善します。これは、世界中の自律運転の発展に重要です。
blvd。 BLVDベンチマークは、ダイナミック4D（3D+時間）追跡、5D（4D+インタラクティブ）インタラクティブイベント認識、およびトラフィックシナリオのより深い理解に不可欠な意図予測などのタスクを促進します。 BLVDは、ターゲット密度（低および高）や照明条件（昼と夜）など、さまざまなトラフィックシナリオから約120,000フレームを提供します。これらのフレームには、車両、歩行者、ライダーをカバーする多数の3Dタグが含まれます。
ラウンド。提案されたラウンドデータセットは、ラウンドアバウトで多数の道路ユーザーの軌跡を収集するため、シナリオ分類、道路ユーザーの行動予測、およびドライバーモデリングに不可欠です。データセットでは、4K解像度カメラを装備したドローンを使用して6時間以上のビデオを収集し、13,000人以上の道路利用者を記録しました。広く記録されている交通条件と高品質のビデオにより、自律運転における不可欠なデータセットがあり、公共交通機関における自然運転行動の研究を促進します。
Lyftレベル5。 Lyftレベル5は、モーション予測のためにこれまでで最大の自律運転データセットの1つであり、1,000時間以上のデータがあります。 17,000の25秒の長さのシーン、15,000を超える人工マーク、8,500レーンセグメント、およびこの地域の高解像度の航空画像を備えた高解像度セマンティックマップが含まれています。モーション予測、モーション計画、シミュレーションなどの複数のタスクをサポートします。詳細にマークされた多数のマルチモーダルデータにより、Lyftレベル5データセットは予測と計画の重要なベンチマークになります。
ロキ。 Lokiは、長期的および重要な意図を表し、マルチエージェントの軌跡予測と意図予測における重要なデータセットです。 Lokiは、歩行者や車両を含む大規模で多様なデータを提供することにより、スマートで安全性の高いシステムの重大なギャップを埋めます。このデータセットは、対応するライダーポイントクラウドでカメラ画像を活用することにより、トラフィックシーンの多次元ビューを提供し、コミュニティで非常に柔軟なリソースになります。
Scendd。 Scenddは、効率的なモーション計画とパス追跡アルゴリズムの開発に使用できるさまざまな軌跡と運転行動を示す実際の運転シナリオを紹介します。また、自動運転車のさまざまな構成にも機能し、詳細な分析のためにタイムスタンプに分解できる予測時間の視点が含まれています。全体として、Scenddデータセットは、自律運転の予測と計画に関する研究の重要な補完物です。
ディープカイデント。 Synthetic Dataset DeepAccidentは、自律車両の直接的で解釈可能な安全評価メトリックを最初に提供しました。 57,000の注釈付きフレームと285,000の注釈付きサンプルを含むこの大規模なデータセットは、エンドツーエンドの動きと事故の予測をサポートし、衝突の回避と安全性の確保において自律運転システムの予測機能を改善するために重要です。さらに、このマルチモーダルデータセットは、3Dオブジェクト検出、追跡、鳥瞰図（BEV）セマンティックセグメンテーションなどのさまざまなV2Xベースの認識タスクに汎用性があります。
talk2bev。革新的なデータセットTalk2Bevは、従来の自律運転タスクから、自律運転のコンテキストでの大規模な視覚言語モデルとBEVマップを組み合わせることまでの傾向を促進します。 Talk2Bevは、視覚言語モデルの最新の進歩を利用して、道路シナリオをより柔軟で包括的な理解を可能にします。データセットには、20,000を超える多様な問題カテゴリが含まれており、すべてマニュアルでマークされ、派生したものです。提案されたTalk2Bev-Benchベンチマークは、意思決定、視覚的および空間的推論、意図の予測など、さまざまなタスクに使用できます。
V2x-seq（予測）。トラック予測データセットは、約80,000のインフラストラクチャビューと80,000台の車両ビューシナリオ、さらに50,000のコラボレーションビューシナリオを含む、実際のデータセットv2x-seqの重要な部分です。知覚領域のこの多様性は、車両インフラストラクチャコラボレーション（VIC）の軌跡予測の研究と分析のためのより包括的な視点を提供します。

エンドツーエンドのデータセット

エンドツーエンドは、モジュラーアーキテクチャに代わるものとして、自律運転の傾向になっています。一部の多機能データセット（ヌスケンやウェイモなど）またはエミュレーター（カーラなど）は、エンドツーエンドの自律運転を開発する機会を提供します。一方、一部の作業では、エンドツーエンドの運転専用のデータセットを提案しています。

DDD17。 DDD17データセットは、標準のアクティブピクセルセンサー（APS）画像と動的ビジョンセンサー（DVS）タイムコントラストイベントの同時ストリームを提供し、視覚データのユニークな組み合わせを提供するイベントタイプカメラの使用により、重要です。さらに、DDD17は、高速道路や都市の運転など、さまざまな気象条件など、さまざまな運転シナリオをキャプチャし、エンドツーエンドの自律運転アルゴリズムのトレーニングとテストのための詳細で現実的なデータを提供します。

この調査で要約されている他のデータセットは、表IV、表V、および表VIに示されています。

ラベル付けプロセス

自律運転アルゴリズムの成功と信頼性は、大量のデータだけでなく、高品質の注釈にも依存します。このセクションでは、最初にデータのラベル付け方法について説明します。さらに、ラベルの品質を確保するための最も重要な側面が分析されます。

ラベルはどのように作成されていますか

異なる自律運転タスクには、特定の種類の注釈が必要です。たとえば、オブジェクトの検出には、インスタンスのために境界ボックスラベル、ピクセルまたはポイントレベルに基づいてラベルのセグメント化が必要です。軌跡予測の場合、連続軌道のラベル付けが重要です。一方、以下の図11に示すように、注釈プロセスは、手動注釈、半自動アノテーション、完全自動注釈の3つのタイプに分けることができます。このセクションでは、さまざまな種類の注釈の注釈方法について詳しく説明します。

ラベルセグメンテーションデータ。セグメンテーションデータにラベルを付ける目的は、画像内の各ピクセルにラベルを割り当てて、ライダーフレーム内の各ポイントを割り当てて、どのターゲットまたは領域が属するかを示すことです。ラベル付け後、同じターゲットに属するすべてのピクセルには、同じカテゴリがマークされます。手動注釈プロセスの場合、アノテーターは最初にターゲットの周りの境界を描き、次に領域を埋めるか、ピクセルを直接塗ります。ただし、この方法でピクセル/ポイントレベルのラベルを生成することは、高価で非効率的です。

多くの研究が、注釈効率を改善するために、完全に自動または半自動の注釈方法を提案しています。監視された弱い学習に基づく完全に自動ラベル付け方法が、画像内の移動可能なパスをセグメント化するために提案されています。 [265]は、セグメンテーションマスクを生成する前にターゲットを使用する半自動注釈法です。その後、[266]は、20のカテゴリを考慮する半自動法を提案しました。 Polygon-RNN ++は、[268]のアイデアに従うインタラクティブセグメンテーションラベル付けツールを提案しています。 [269]画像情報を使用してピクセルレベルのラベルを生成する代わりに、3D情報が2D画像ドメインに転送され、セマンティックセグメンテーションラベルを生成します。 3Dデータのラベル付けについては、[270]は画像支援のラベル付けプロセスを提案します。 [271]アクティブな学習を使用して少数のポイントを選択し、ポイントクラウドシナリオ全体のラベル付けを避けるために最小トレーニングセットを形成します。 [272]は、屋外ポイントクラウドへの注釈のために半/弱い監視された学習を使用する効率的な注釈フレームワークを導入しました。

ラベル2D/3D境界ボックス。境界ボックスアノテーションの品質は、実際のシナリオにおける自律的な車両知覚システム（オブジェクト検出など）の有効性と堅牢性に直接影響します。ラベリングプロセスでは、通常、長方形のボックスで画像をラベル付けするか、関心のあるターゲットを正確に囲むために、立方体をラベル付けするポイント雲をラベル付けすることが含まれます。

LabelMeは、オブジェクト検出のための画像の注釈に焦点を当てたツールです。ただし、プロのアノテーターによる境界ボックスの生成は、アノテーションを手動で分割するのと同じ問題に直面しています。 Wang et al。 [275]は、自律運転シナリオのための別のビデオ注釈ツールです。昼間のラベル付けよりも、夜間の境界ボックスのラベル付けに対処する方が難しいです。 [276]この問題を解決するために軌跡を利用する半自動法を導入します。

2Dアノテーションと比較して、3D境界ボックスには、正確な位置、ターゲット幅、長さ、高さ、および空間内の方向などのより豊富な空間情報が含まれています。したがって、高品質の3Dアノテーションに注釈を付けるには、より複雑なフレームワークが必要です。 Meng et al。 VIT-WSS3Dは、LIDARポイントと対応する弱いラベル間のグローバルな相互作用をモデル化することにより、擬似境界ボックスを生成します。 Apolloscapeは、3Dアノテーションの2つのブランチと2D注釈の2つの分岐を含む同様の注釈プロセスを採用しています。 3D BATは、半自動アノテーションで2Dおよび3Dタグの取得を支援するアノテーションツールボックスを開発しました。

トラックをマークします。軌跡は、本質的に、ターゲットのパスを時間の経過とともにマッピングし、空間的情報と時間的情報を反映する一連のポイントです。自律運転の軌跡データにラベルを付けるプロセスには、車両、歩行者、サイクリストなど、運転環境のさまざまなエンティティのパスまたはモーションパターンをマークすることが含まれます。通常、注釈プロセスは、オブジェクトの検出と追跡の結果に依存しています。

軌道注釈に関する以前の研究では、[280]はオンラインで演習のアクションを生成し、軌跡にマークされました。 [281]は、クラウドソーシングステップに続いて、専門家統合の正確なプロセスが含まれます。 [282]は、走行軌道をマークする積極的な学習フレームワークを開発しました。歩行者運動パターンの正確な予測は、安全性を促進するために重要です。 Styles et al。

合成データのラベル。現実世界のデータに時間がかかり、高価な手動注釈があるため、コンピューターグラフィックスとエミュレーターを介して生成された合成データは、この問題に代わるものを提供します。データ生成プロセスは制御可能であるため、シーン内の各ターゲットのプロパティ（位置、サイズ、モーションなど）が既知であるため、合成データに自動的かつ正確にラベルを付けることができます。

生成された合成シナリオは、複数のターゲット、さまざまな地形、気象条件、照明の変化など、実際の条件を模倣するように設計されています。これを達成するために、一部の研究者はGrand Theft Auto 5ゲームエンジンを使用してデータセットを構築しました。 [284]リアルタイムシステムは、さまざまな自律運転タスクのラベルを生成するために、複数のゲームに基づいて構築されています。 Shift、CAOS、およびV2XSetは、ゲームビデオを適用するのではなく、Carlaエミュレーターに基づいて作成されます。 [11]と比較して、V2X-SIMは、V2X対応タスクのデータセットを生成するために複数のエミュレーターを使用していることを研究しています。 CODDはさらに、協力運転に3D Lidar Point Cloudsの生成を利用しています。他の作業では、Unity開発プラットフォームを使用して合成データセットを生成します。

マークの品質

監視された学習に基づく既存の自律運転アルゴリズムは、大量のラベル付きデータに依存しています。ただし、低品質の注釈に関するトレーニングは、自動運転車の安全性と信頼性に悪影響を与える可能性があります。したがって、複雑な実際の環境で運転するときに精度を向上させるには、ラベルの品質を確保することが重要です。調査によると、ラベルの品質は、一貫性、正確性、精度、検証などの複数の要因の影響を受けます。一貫性は、ラベルの品質を評価するための主要な基準です。データセット全体で一貫性を伴い、これらのデータでモデルをトレーニングするときに混乱を避けるために重要です。たとえば、特定のタイプの車両が車としてマークされている場合、他のすべてのケースでは、一貫して同じマークを付ける必要があります。ラベル付けの精度は、ラベルがターゲットの実際の状態またはシーンの状態と一致するかどうかを指すもう1つの重要な指標です。対照的に、正確さは、注釈付きデータがデータセットの目的と注釈基準に適用できるかどうかを強調します。ラベル付け後、ラベルデータの精度と完全性を検証することが重要です。このプロセスは、専門家またはアルゴリズムの手動レビューを通じて実行できます。検証は、自動運転車のパフォーマンスに影響を与える前に、データセットの問題を効果的に防止するのに役立ち、それにより潜在的な安全リスクを減らします。 [288]は、専門家標識データセットに適したデータ指向の検証方法を提案しました。

Kittiの注釈障害ケースを以下の図12に示します。真の境界ボックス（青）は、対応する画像とライダーポイントクラウドに示されています。画像の左側では、車のターゲット全体が含まれていないため、車の注釈（赤に囲まれた）は不正確です。さらに、カメラとライダーは2台の車を明確にキャプチャしますが（緑色の立方体で強調表示されています）、マークはありません。

データ分析

このセクションでは、グローバルデータ分布、時間の傾向、データ分布など、さまざまな角度からデータセットを詳細に、体系的に分析します。

グローバルな場所

191の自律運転データセットのグローバルな分布概要を図13に示します。チャートは、米国が40のデータセット（21％）で道をリードしており、自律運転の分野でのリーダーシップを強調していることを示しています。ドイツには24のデータセットがあり、その強力な自動車産業と自律運転技術の推進への影響を反映しています。中国は16のデータセットで密接に遅れをとっており、この分野への中国の関心と投資を示しています。もう1つの注目すべき点は、ヨーロッパには世界中に11のデータセットと24のデータセットがあるということです（ドイツを除く）。この多様な地域分布は、収集されたデータの堅牢性を高め、研究と業界からの国際的な協力と取り組みを強調しています。

一方、小規模なセグメントはカナダ、韓国、英国、日本、シンガポールを含む他の国を代表していますが、これらの国は堅実な技術的背景と蓄積を備えた先進国です。統計は極端な地域のバイアスを反映しています。米国、西ヨーロッパ、東アジアの優位性は、これらの地域の典型的な環境条件の下で自動運転システムに過度に適合することの偏りにつながりました。このバイアスにより、自律型の車両がさまざまな地域や未知の地域や状況で適切に動作できなくなる可能性があります。したがって、アフリカなどの幅広い国や地域からのデータを導入することで、自動運転車の包括的な開発を促進することができます。

さらに、Carlaなどのエミュレーターによって生成された35の合成データセットが18.32％を占めています。実際の運転環境記録の制限により、これらの合成データセットはこれらの欠点を克服し、より強力で信頼性の高い運転システムを開発するために重要です。

データセットの知覚時間の傾向

図10では、著者は、2007年から2023年までの上位50のインパクトスコアを持つ知覚されたデータセットの時間傾向の概要を示しています（この執筆時点）。これらのデータセットはデータソース領域に従って色分けされており、合成データセットには赤いフレームがマークされており、多様化されたデータ収集戦略に向けた進歩を明確に示しています。一个明显的趋势显示了多年来数据集的数量和种类的增加，表明随着自动驾驶领域的不断发展，需要高质量数据集。

总体而言，由于自动驾驶汽车有效而准确地感知周围环境的能力的重要性，大多数数据集提供了来自装备在自车上的传感器的感知视角（车载）。另一方面，由于实际世界数据成本高昂，一些研究人员提出了高影响力的合成数据集，如VirtualKITTI （2016年），以减轻对实际数据的依赖。在仿真器的有效性的推动下，近年来发布了许多新颖的合成数据集。在时间线上，像DAIR-V2X （2021年）这样的V2X数据集也呈现出向合作驾驶系统的趋势。此外，由于无人机提供的非遮挡视角，基于无人机的数据集，如2018年发布的UAVDT ，在推动感知系统方面发挥着关键作用。

数据分布

在图14中介绍了这些数据集每帧目标数量的情况。值得注意的是，Waymo 展示了大量帧数少于50个目标的情况，同时在图表中占据了广泛的位置，说明了它在每帧中从低到高的目标密度涵盖了各种场景。相反，KITTI 展示了一个更为受限的分布和有限的数据规模。Argoverse 2 具有大量帧数的高目标计数，其峰值约为70，这表明了它在一般情况下复杂的环境表示。对于ONCE ，其目标密度均匀地分布在支持的感知范围内。像nuScenes 和ZOD 这样的数据集展示了类似的曲线，快速上升然后缓慢下降，暗示了环境复杂性的适度水平，每帧中目标数量具有相当的可变性。

除了场景中目标数量之外，基于与自车的距离的目标分布是揭示数据集的多样性和显著差异的另一个重要点，如下图15所示。Waymo 数据集展示了大量标注目标在近场到中场场景中。相反，Argoverse 2 和ZOD 展示了更宽的检测范围，有些帧甚至包括超过200米的边界框。nuScenes 的曲线意味着它在较短范围内的目标非常丰富，这在城市驾驶场景中是典型的。然而，随着距离的增加，nuScenes 数据集的目标数量迅速减少。ONCE 数据集覆盖了目标在不同距离上更均匀的分布，而KITTI 数据集更注重近距离检测。

讨论与未来工作

本文主要关注分析现有数据集，这些数据集通常包含丰富的视觉数据，并旨在完成模块化pipeline中的任务。然而，随着技术的迅速发展，尤其是大语言模型的出色性能，下一代自动驾驶数据集出现了许多新的趋势，提出了新的挑战和需求。

端到端驾驶数据集。与模块化设计的自动驾驶pipeline相比，端到端架构简化了整体设计过程并减少了集成复杂性。UniAD 的成功验证了端到端模型的潜在能力。然而，端到端自动驾驶的数据集数量有限。因此，引入专注于端到端驾驶的数据集对推动自动驾驶车辆的发展至关重要。另一方面，在数据引擎中实施自动标注pipeline可以显著促进端到端驾驶框架和数据的开发。

自动驾驶数据集中引入语言。视觉语言模型（VLMs）最近在许多领域取得了令人印象深刻的进展。其在为视觉任务提供语言信息方面的固有优势使得自动驾驶系统更具解释性和可靠性。强调了多模式大语言模型在各种自动驾驶任务中的重要作用，例如感知，运动规划和控制。下面表VII 中展示了包含语言标签的自动驾驶数据集。总体而言，将语言纳入自动驾驶数据集是未来数据集发展的趋势。

通过VLMs生成数据。正如所提到的，VLMs的强大能力可以用于生成自动驾驶数据。例如，DriveGAN 通过在没有监督的情况下解开不同组件来生成高质量的自动驾驶数据。此外，由于世界模型理解驾驶环境的能力，一些工作探索了使用世界模型生成高质量驾驶视频。DriveDreamer 作为从真实场景中派生的先驱性工作，解决了游戏环境或仿真设置的局限性。

域自适应。域自适应是开发自动驾驶车辆时面临的关键挑战，它指的是在一个数据集（源域）上训练的模型在另一个数据集（目标域）上能够稳定执行的能力。这个挑战表现在多个方面，如环境条件的多样性、传感器设置或从合成到真实的转换。

結論は

本文对200多个现有的自动驾驶数据集进行了详尽而系统的回顾和分析。从传感器类型和模态、感知领域以及与自动驾驶数据集相关的任务开始。引入了一个称为"影响分数"的新型评估指标，以验证感知数据集的影响力和重要性。随后，展示了几个高影响力数据集，涉及感知、预测、规划、控制和端到端自动驾驶。此外，解释了自动驾驶数据集的标注方法，并调查了影响标注质量的因素。

此外，描述了收集到的数据集的年代和地理分布，为理解当前自动驾驶数据集的发展提供了全面的视角。同时，研究了几个数据集的数据分布，为理解不同数据集之间的差异提供了一个具体的观点。最后，讨论了下一代自动驾驶数据集的发展和趋势。

<<: どのような状況で Redis のメモリオーバーフローが発生しますか?解決策は何ですか?

>>: 純粋なテキストモデルは「視覚的な」表現をトレーニングします。 MITの最新研究：言語モデルはコードで絵を描くことができる

スタンフォード大学のマニング教授はAAAS特別号に記事を掲載した。「ビッグモデルは画期的な進歩となり、汎用人工知能に期待が寄せられている」

序文と個人的な理解

現在の業界の概要

なぜ勉強するのですか?動機は何ですか?

主な貢献

範囲と制限

記事の構成

方法論の紹介

データセットの収集

データセット評価指標

自動運転におけるデータソースと協調認識

センサーとデータのモダリティ

センサー領域と協調知覚システム

自動運転におけるタスク

認識と位置づけ

2D/3Dオブジェクト検出

2D/3Dセマンティックセグメンテーション

ターゲット追跡

高精度地図

スラム

予測する

軌道予測

行動予測

意図予測

計画と管理

エンドツーエンドの自動運転

影響力の大きいデータセット

認識データセット

車内

V2X

ドローン

他の

予測、計画、制御データセット

タスク固有のデータセット：

マルチタスクデータセット：

エンドツーエンドのデータセット

ラベル付けプロセス

ラベルはどのように作成されていますか

マークの品質

データ分析

グローバルな場所

データセットの知覚時間の傾向

数据分布

讨论与未来工作

結論は

推薦する