序文と個人的な理解自動運転技術は、最新のハードウェアとディープラーニング手法の進歩により急速に発展し、有望なパフォーマンスを示しています。信頼性の高い自動運転アルゴリズムを開発するには、高品質のデータセットが不可欠です。これまでのデータセット調査では、これらのデータセットのレビューが試みられましたが、限られた数のデータセットに焦点が当てられていたか、データセットの特性に関する詳細な調査が欠けていました。この目的のために、ここでは、センサーのモダリティ、データ サイズ、タスク、コンテキスト条件など、さまざまな観点から 200 を超える自動運転データセットを徹底的に研究します。各データセットの影響を評価するための新しいメトリックを導入します。これは、新しいデータセットを構築するためのガイドとしても役立ちます。注釈付けプロセスとデータセットの品質がさらに分析されます。さらに、いくつかの重要なデータセットのデータ分布が詳細に分析されます。最後に、今後の自動運転データセットの開発動向について説明します。 現在の業界の概要自動運転(AD)は、人間の介入なしに環境を正確に認識し、インテリジェントな判断を下し、安全に運転できる車両を開発することで、輸送システムに革命を起こすことを目指しています。画期的な技術開発のおかげで、無人タクシーなど、さまざまな自動運転製品が複数の分野で導入されています。自動運転の急速な進歩は、複雑な運転環境において自動運転システムが堅牢で信頼性の高いものとなるために役立つ大規模なデータセットに大きく依存しています。 近年、自動運転データセットの品質と多様性は大幅に向上しています。データセット開発における最初の注目すべき現象は、シミュレーターによって生成された合成データセットや現実世界から記録されたデータセットなど、さまざまなデータ収集戦略があることです。第二に、データセットの構成も多様であり、複数の種類の知覚データ(カメラ画像や LiDAR ポイント クラウドなど)や、さまざまな自動運転タスク用のさまざまな注釈タイプなどが含まれますが、これらに限定されません。下の図 1 は、6 つの現実世界のデータセット (Argoverse 2、KITTI、nuScenes、ONCE、Waymo、ZOD) の 3D オブジェクト境界ボックス分布の統計を鳥瞰図で示しており、各データセットの固有の注釈特性を示しています。 センサーのデバイスの位置に応じて、車載、V2X、ドローンなど、データセットの多様性も認識分野に反映されます。さらに、幾何学的な多様性と気象条件の変化により、自動運転データセットの一般化能力が向上します。 なぜ勉強するのですか?動機は何ですか?下の図 2 は、自動運転データセットの傾向を 1 つの観点から反映するために、毎年リリースされる認識データセットの数を示しています。公開されているデータセットの数は膨大で増加しているため、自動運転データセットの包括的な調査は、学術研究や産業研究を進める上で非常に価値があります。以前の研究で、Yin らは公道で収集されたデータの公開データセット 27 個を要約しました。 [35] 既存のデータセットの説明に加えて、合成データと実データ間のドメイン適応や自動注釈方法についても議論されています。 [36]は既存のデータセットを要約し、次世代データセットの特徴について詳細な分析を行った。しかし、これらの調査では少数のデータ セットのみが要約されており、広範囲に及ぶものではありませんでした。 AD-Dataset は多数のデータセットを収集しますが、これらのデータセットのプロパティの詳細な分析が欠けています。あらゆる種類のデータセットに関する研究を実施するのとは対照的に、一部の研究者は、異常検出、合成データセット、3D セマンティック セグメンテーション、意思決定など、特定の種類の自動運転データセットを調査しています。 したがって、本論文の目的は、自動運転における多数のデータセット、認識から制御までのすべてのタスクを網羅し、実世界のデータと合成データの両方を考慮し、いくつかの主要なデータセットのデータ様式と品質に関する洞察を得る包括的かつ体系的な研究を提示することです。他のデータセット調査と私たちの調査の比較を以下の表 I に示します。 主な貢献この論文の主な貢献は次のように要約できます。
範囲と制限この論文の目的は、既存の自動運転データセットを徹底的に調査し、この分野における将来のアルゴリズムとデータセットの開発を支援することです。私たちは、認識、予測、計画、制御という 4 つの基本的な自動運転タスクに焦点を当てたデータセットを収集しました。複数のタスクをサポートする汎用的なデータセットが複数存在するため、紹介の重複を避けるため、主にサポートする主な範囲についてのみ説明します。さらに、多数のデータセットが収集され、その主な特性とともに表形式で提示されます。ただし、収集されたすべてのデータセットの詳細な説明では、最も人気のあるデータセットが強調されない可能性があり、研究者がこの調査を通じて貴重なデータセットを見つけることを妨げる可能性があります。したがって、最も影響力のあるデータセットのみが詳細に説明されます。 記事の構成この論文の残りの部分は次のように構成されています。第 2 章では、公開データセットを取得するために使用される方法と、データセットの評価基準について説明します。セクション III では、自動運転で使用される主なセンサーとそのモダリティについて説明します。セクション IV では、自動運転のタスク、関連する課題、必要なデータについて説明します。いくつかの重要なデータセットについては、セクション V でさらに詳しく説明します。第 6 章では、注釈付けのプロセスと注釈付けの品質に影響を与える要因について説明します。さらに、いくつかのデータセットのデータ分布統計がセクション7で示されています。第8章では、自動運転データセットの開発動向と今後の取り組みについて調査します。最後に、第 9 章で結論を述べます。この調査の分類構造を以下の図3に示します。 方法論の紹介このセクションでは、1) データセットの収集とスクリーニングの方法 (II-A)、および 2) データセットが自動運転分野に与える影響を評価する方法 (II-B) について説明します。 データセットの収集著者らは[42]のアプローチに従って、公開されている自動運転データセットを網羅的に収集するための体系的なレビューを実施した。ソースの多様性を確保するために、著者は Google、Google Scholar、Baidu などのよく知られた検索エンジンを使用してデータセットを検索しました。さまざまな国や地域のデータセットを包括的に収集するために、「自動運転データセット」、「インテリジェント車両データセット」などのキーワードや、物体検出、分類、追跡、セグメンテーション、予測、計画、制御に関連する用語を使用して、英語、中国語、ドイツ語で検索を実施しました。 さらに、IEEE Xplore や自動運転およびインテリジェント交通システムの分野における関連会議を検索し、ジャーナルや会議議事録からデータセットを収集しました。これらのソースからのデータ セットは、キーワード検索と手動のタイトル レビューを通じて検証されました。 最後に、専門的なデータセットやあまり知られていないデータセットが含まれていることを確認するために、著者らは Github リポジトリと Paperwithcodes を検索しました。データベースと同様に、データセットに対して手動およびキーワードベースの検索が実行されました。 データセット評価指標著者らは、公開されたデータセットの重要性を評価するための新しい指標であるインパクトスコアを導入しており、これは新しいデータセットを準備するためのガイドとしても役立ちます。このセクションでは、自動運転データセットの影響スコアを計算する方法について詳しく説明します。 公平かつ比較可能な比較を行うために、自動運転データセットの大部分を占める知覚領域に関連するデータセットのみを検討します。さらに、スコアリングシステムの客観性と理解可能性を確保するために、引用数、データの次元、環境の多様性など、さまざまな要素が考慮されました。すべての値は、公式論文またはオープンソースのデータセット Web サイトから収集されます。 引用スコア。まず、著者らは引用総数と年間平均引用数から引用スコアを計算しました。公平な引用カウントを得るために、データセットの最も古いバージョンが公開時刻として選択されます。さらに、比較が一貫した時間枠に基づいて行われるように、すべての引用数は 2023 年 9 月 20 日まで収集されます。引用の総数はデータセットの全体的な影響を反映します。この指標の値が高いということは、データセットが研究者によって広く認識され、使用されていることを意味します。ただし、以前に公開されたデータセットの方が引用数が多くなる可能性があります。この不公平に対処するために、著者らはデータセットの年間引用増加率を表す平均年間引用数を使用しています。計算関数は以下の式1に示します。 ここで、およびはそれぞれ現在の年とデータセットがリリースされた年を表します。一方、引用数の範囲は非常に広く、数桁から数万に及びます。極端な不均衡を軽減し、各データセット間の違いを強調するために、著者らは と の両方を対数変換し、式 2 に示すように最小最大正規化を実行しました。 最終的に、引用スコアは次の合計になります。 データ ディメンションのスコアリング。データ ディメンションは、データセットのサイズ、時間情報、タスク数、注釈カテゴリの 4 つの観点から測定されます。データセットのサイズ f は、データセット内のフレームの数によって表され、その容量と包括性を反映します。データセット サイズ スコアを取得するには、異なるデータセット間の極端な不均衡を克服するために、フレーム数を参照スコアと同じ方法で処理します。 時間情報は、車両が周囲の状況が時間の経過とともにどのように変化するかを理解できるようにするため、自動運転にとって非常に重要です。著者らは、データセットに時間情報が含まれているかどうかを示すためにt∈{0,1}を使用しています。タスクの数に関しては、著者らは、2D オブジェクト検出、3D オブジェクト検出、2D セマンティック セグメンテーション、3D セマンティック セグメンテーション、追跡、車線検出など、自動運転認識の分野における 6 つの基本タスクに関連するデータセットのみを考慮しています。したがって、タスク量スコアは として記録されます。カテゴリの数は、データセットの堅牢性と汎用性にとって非常に重要です。統計プロセスでは、データセットが複数のタスクをサポートし、さまざまな種類の注釈が含まれている場合、作成者はカテゴリの数が最も多いデータを選択します。次に、これらのカテゴリーは五分位に基づいて 5 つのレベル l = {1、2、3、4、5} に分割されました。後続のプロセスの前に、著者らは計算を簡略化するために l を正規化しました。 データ次元スコアをできるだけ客観的に反映するために、著者は、以下の式 4 に示すように、4 つのコンポーネントに異なる重みを割り当てました。 環境多様性スコア。データセットの環境多様性は、次の要素に基づいて評価されました。
著者らが合成データセットの幾何学的範囲を欠損として扱っていることは注目に値する。多様性は、論文がデータを分類する粒度によって定量化されます。さらに、欠損値については、データセットがさまざまな条件下でデータが記録されたことを公表している場合、著者は中央値を欠損値として使用しました。それ以外の場合は、この属性の欠損値を 1 に設定します。著者らは各要因を 5 つの異なるレベルに定量化し、環境多様性スコアはこれら 4 つの要因の合計となった。 最後に、式 5 を使用して影響スコアを計算します。 総インパクトスコアは100で、そのうち60%が引用スコア、データ次元スコアと環境多様性スコアが40%を占めています。 自動運転におけるデータソースと協調認識このセクションでは、自動運転に主に使用されるセンサーとそのモダリティについて紹介します。さらに、車両、ドローン、V2Xの協調認識などのデータ収集と通信領域が分析されます。 センサーとデータのモダリティ周囲の環境から効率的かつ正確にデータを収集することが、自動運転のための信頼性の高い認識システムの鍵となります。この目標を達成するために、自律走行車やインフラストラクチャにはさまざまな種類のセンサーが使用されます。センサーの例を以下の図 4 に示します。最も一般的に使用されるセンサーは、カメラ、LiDAR、レーダーです。認識能力をさらに強化するために、イベントベースカメラや熱画像カメラも車両や道路脇に取り付けられます。 RGB画像。 RGB 画像は通常、単眼カメラ、双眼カメラ、または魚眼カメラによって記録されます。単眼カメラは奥行きのない 2D ビューを提供し、ステレオ カメラはデュアル レンズを通じて奥行き知覚を提供し、魚眼カメラは広角レンズを使用して広い視野を捉えます。これらのカメラはすべて、レンズを通して光をイメージセンサー(CMOS など)に送信し、イメージセンサーはこの光を画像を表す電子信号に変換します。下の図 5 (a) に示すように、2D 画像は環境の色情報、豊かなテクスチャ、パターン、視覚的な詳細をキャプチャします。これらの特性により、RGB 画像は主に車両や歩行者の検出、道路標識の認識に使用されます。ただし、RGB 画像は、低照度、雨、霧、フレアなどの条件の影響を受けやすくなります。 LiDAR ポイントクラウド。 LiDAR はレーザービームを使用してセンサーとターゲット間の距離を測定し、環境の 3D 表現を作成します。 LiDAR ポイント クラウド (下の図 5 (b) を参照) は、高解像度で正確な空間情報を提供し、長距離のターゲットを検出できます。ただし、これらのポイントの密度は距離とともに減少し、遠くのオブジェクトの表現が疎になります。霧などの気象条件も LiDAR のパフォーマンスを制限する可能性があります。一般的に、LiDAR は簡単な 3D 情報が必要な状況に適しています。 レーダー点群。レーダーは、無線周波数の電波を放射し、その反射を分析することで、目標物、距離、相対速度を検出します。さらに、レーダーはあらゆる気象条件において非常に堅牢です。ただし、レーダーの点群は通常 LiDAR データよりも粗く、ターゲットの詳細な形状やテクスチャ情報が欠けています。そのため、レーダーは他のセンサーを補助するためによく使用されます。下の図5(c)はレーダー点群を示しています。 イベントカメラ。イベントベースのカメラはデータを非同期的にキャプチャし、ピクセルが明るさの変化を検出した場合にのみアクティブになります。キャプチャされたデータはイベントと呼ばれます(図5(d)を参照)。使用される特定のデータ生成方法により、記録されたデータは極めて高い時間解像度を持ち、ぼやけることなく高速な動きを捉えることができます。 サーモグラフィカメラからの赤外線画像。サーマルイメージングカメラ(下図5(e)参照)は、赤外線を捉えて熱の痕跡を検出します。サーマルイメージングカメラは温度差に基づいて画像を生成するため、完全な暗闇でも動作し、霧や煙の影響を受けません。ただし、サーマルイメージングカメラでは色や詳細な視覚パターンを区別することはできません。さらに、赤外線画像は光学カメラに比べて解像度が低くなります。 慣性計測装置(IMU) 。 IMU は、特定の力、角速度、場合によってはターゲットの周囲の磁場を測定して報告する電子機器です。自動運転では、車両の動きや方向を追跡するために使用されます。 IMU には周囲の環境に関する視覚情報は含まれていませんが、IMU のデータと他のセンサーのデータを融合することで、認識システムは車両の動きと向きをより正確かつ確実に追跡できます。 著者らは、収集したデータセットからセンサーの分布を分析しました。下の図 6 に示します。センサーの半分以上は、低価格と信頼性の高い性能を備えた単眼カメラ(53.85%)です。さらに、93 のデータセットには、高解像度と正確な空間情報で評価されている LiDAR データが含まれています。しかし、コストが高いため、LiDAR の広範な使用は制限されます。 LiDAR ポイント クラウドに加えて、29 のデータセットではステレオ カメラを使用して深度情報を取得します。さらに、レーダー、サーマルイメージングカメラ、魚眼カメラを含むデータセットの割合は、それぞれ 5.41%、3.42%、1.71% です。動的なシーンをキャプチャする際のイベントベースカメラの時間効率を考慮して、イベントベースカメラデータを生成するデータセットが 3 つあります。 センサー領域と協調知覚システム自動運転システムでは、車両と周囲の環境にある他のエンティティ間の認識データと通信が重要な役割を果たし、自動運転システムの安全性、効率性、全体的な機能性を保証します。したがって、センサーの位置は、収集できるデータの品質、角度、範囲を決定するため非常に重要です。一般的に、自動運転の文脈では、センサーは自動運転車、V2X(Vehicle-to-Everything)、ドローンなどの領域に分類できます。 自動運転車: 自動運転車のセンサーは、通常、カメラ、LiDAR、レーダー、慣性測定装置 (IMU) など、自律走行車に直接取り付けられます。これらのセンサーは車両の視点から直接映像を提供し、車両の周囲で何が起こっているかについての即時フィードバックを提供します。ただし、車両の検出範囲が限られているため、自車両センサーでは、死角内の障害物の早期警告や急カーブ周辺の危険の検出に限界がある場合があります。 車両対あらゆるもの (V2X) : 車両対あらゆるものには、車両対車両 (V2V)、車両対インフラストラクチャ (V2I)、車両対ネットワーク (V2N) など、輸送システム内の車両とその他のコンポーネント間の通信が含まれます (下の図 7 を参照)。直接的な感覚入力に加えて、コラボレーション システムでは複数のエンティティが連携して動作することを保証します。
ドローン: ドローンは空中からの視点を提供し、軌道予測や経路計画に必要なデータを提供します。たとえば、ドローンからのリアルタイム データを交通管理システムに統合して、交通の流れを最適化し、前方の事故を自動運転車に警告することができます。 最初の 3 つのタイプで収集されないその他のデータは、車両以外のターゲットまたは複数のフィールドにインストールされているその他のデバイスなど、その他として定義されます。 自動運転におけるタスクこのセクションでは、認識と位置特定、予測、計画と制御など、自動運転における主要なタスクについて詳しく説明します。自動運転プロセスの概要を図 8 に示します。目的、依存するデータの性質、固有の課題について詳しく説明します。図 9 は、自動運転におけるいくつかの主要なタスクの例を示しています。 認識と位置づけ知覚は、感覚データに基づいて環境を理解することに重点を置いており、位置特定は、その環境内での自律走行車の位置を決定します。 2D/3Dオブジェクト検出2D または 3D オブジェクト検出は、運転環境内の他のエンティティを識別して分類することを目的としています。 2D オブジェクト検出では画像空間内のオブジェクトを識別しますが、3D オブジェクト検出では LiDAR によって提供される正確な深度情報をさらに統合します。検出技術は大きく進歩しましたが、物体の遮蔽、照明の変化、物体の外観の多様性など、いくつかの課題が依然として存在します。 通常、AP メトリックはオブジェクト検出パフォーマンスを評価するために使用されます。 [1]によれば、APメトリックは次のように表現される。 ここで、p(r)は適合率-再現率曲線です。 2D/3Dセマンティックセグメンテーションセマンティック セグメンテーションでは、画像の各ピクセルまたはポイント クラウドの各ポイントをセマンティック カテゴリに分類します。データセットの観点から見ると、きめ細かいオブジェクト境界を維持し、多数のラベル付け要件を管理することが、このタスクの重要な課題です。 前のセクションで述べたように、セグメンテーションに使用される主な指標には平均ピクセル精度 (mPA) が含まれます。 そしてmIoU: ここで、k*∈N はカテゴリの数であり、および はそれぞれ真陽性、偽陽性、偽陰性を表します。 ターゲット追跡ターゲット追跡は、単一または複数のターゲットの軌道を時間の経過とともに監視します。このタスクには、RGB データ、LiDAR、またはレーダー シーケンスの時系列が必要です。通常、ターゲット追跡には、単一ターゲット追跡または複数ターゲット追跡 (MOT) が含まれます。 マルチオブジェクト追跡精度 (MOTA) は、マルチオブジェクト追跡に広く使用されている指標であり、偽陰性、偽陽性、不一致率を組み合わせたものです (式 9 を参照)。 ここで、、、はそれぞれ、時間 t における偽陽性、偽陰性、不一致エラーの数です。それが真の価値です。 さらに、単一のしきい値を考慮するのではなく、すべてのターゲット信頼しきい値に基づいて平均 MOTA (AMOTA) が計算されます。 高精度地図HD マップの目的は、道路構造、交通標識、ランドマークに関する情報を含む詳細かつ高精度な表現を構築することです。データセットは、構築されたマップの精度を確保するために、正確な空間情報のための LiDAR データと視覚的な詳細のためのカメラ データを提供する必要があります。 によると、高精度地図自動化と高精度地図変更検出がますます注目を集めています。通常、高精度マップの品質は、精度メトリックを使用して推定されます。 スラム同時位置推定およびマッピング (SLAM) では、周囲の環境のマップを同時に構築し、そのマップ内で車両の位置を特定します。したがって、カメラ、位置追跡用の IMU、リアルタイム LiDAR ポイント クラウドからのデータが非常に重要になります。入力 RGB-D 画像から推定された軌道の品質を評価するために、相対姿勢誤差 (RPE) と絶対軌道誤差 (ATE) という 2 つの評価指標が導入されています。 予測する予測とは、周囲のエージェントの将来の状態や動作を予測することを指します。この機能により、動的な環境でもより安全なナビゲーションが保証されます。予測では、二乗平均平方根誤差 (RMSE) などのいくつかの評価指標が使用されます。 ここで、N はサンプルの総数であり、それぞれ予測された軌道と実際の軌道を表します。 負の対数尤度(NLL)(式11を参照)は、軌道の正確さに焦点を当てた別の指標であり、異なるモデルの不確実性を比較するために使用できます。 ここで、C はクラスの総数、は予測の正確さを示すバイナリ指標、は対応する予測確率です。 軌道予測軌道予測では、カメラや LiDAR などのセンサーからの時系列データを使用して、歩行者、自転車、その他の車両などの他のエンティティの将来の経路または移動パターンを予測します。 行動予測行動予測は、車両が車線変更するかどうかなど、他の道路利用者の潜在的な行動を予測します。行動予測モデルのトレーニングでは、エンティティがさまざまなコンテキストで実行する可能性のあるさまざまなアクションがあるため、広範囲に注釈が付けられたデータが必要になります。 意図予測意図予測は、人間のターゲットの身体的または精神的活動のより深い意味的理解を伴い、ターゲットの行動の背後にある意図を推測するという高レベルの目標に焦点を当てています。タスクの複雑さのため、他のエージェントの意図を推測するには、知覚カメラなどのセンサーからのデータだけでなく、交通標識やジェスチャーなどの他の情報も必要になります。 計画と管理
エンドツーエンドの自動運転エンドツーエンドの自動運転とは、従来のモジュール式プロセスを回避し、単一のディープラーニング モデルが認識から制御までのすべてのタスクを処理することを意味します。このようなモデルは、学習を通じてモデル全体を調整するため、より適応性が高い場合が多くあります。手作りの部品の必要性を減らすことで、シンプルさと効率性を実現できるのが、その本質的な利点です。ただし、エンドツーエンドのモデルを実装するには、大量のトレーニング データ要件、解釈可能性の低さ、柔軟性のないモジュール調整など、重要な制限に直面します。 エンドツーエンドの自動運転の大規模ベンチマークは、クローズドループ評価とオープンループ評価に分けられます。クローズドループ評価はシミュレーション環境に基づいて行われ、オープンループ評価では、実際のデータセットからの専門的な運転行動に基づいてシステムのパフォーマンスを評価します。 影響力の大きいデータセットこのセクションでは、認識、予測、計画、制御の分野における画期的な自動運転データセットについて説明します。エンドツーエンドの自動運転のためのデータセットも提示されます。 認識データセット知覚データセットは、自動運転システムの開発と最適化に不可欠です。豊富なマルチモーダル知覚データを提供し、周囲の環境を効果的に知覚および理解することで、車両の信頼性と堅牢性を高めます。 著者らは、提案されたデータセット評価メトリックを使用して収集された知覚データセットの影響スコアを計算し、その後、これらのスコアに基づいて上位 50 のデータセットを選択して、以下の図 10 に示すように時系列の概要を作成しました。同時に、前節で述べたように、データセットは車載型、V2X、ドローン、その他に分類され、各カテゴリからサブセットが選択され、50のデータセットを含む包括的な表が作成されます(以下の表II)。表内のデータセットは、それぞれのカテゴリ内で影響スコアによって並べ替えられており、全体の上位 50 を表すものではないことに注意してください。次のセクションでは、著者は各認識ソースから最も高い影響スコアを持つデータセットをいくつか選択し、その発行年を考慮しました。 車内
V2X
ドローン
他の
予測、計画、制御データセット予測、計画、および制御データセットは、運転システムのトレーニングと評価を促進し、トラフィックのダイナミクス、歩行者の動き、および運転の決定に影響を与えるその他の重要な要因を予測するための基礎です。さまざまな運転シナリオをシミュレートすることにより、自動運転車が情報に基づいた意思決定を行い、複雑な環境を横断し、安全で効率的に保つことができます。したがって、著者は、データのサイズ、モダリティ、および引用の数に基づいて、これらのタスクに関連するいくつかのインパクトの高いデータセットを詳細に提示します。予測、計画、および制御データセットは、タスク固有およびマルチタスクグループにまとめられています。 タスク固有のデータセット:
マルチタスクデータセット:
エンドツーエンドのデータセットエンドツーエンドは、モジュラーアーキテクチャに代わるものとして、自律運転の傾向になっています。一部の多機能データセット(ヌスケンやウェイモなど)またはエミュレーター(カーラなど)は、エンドツーエンドの自律運転を開発する機会を提供します。一方、一部の作業では、エンドツーエンドの運転専用のデータセットを提案しています。
この調査で要約されている他のデータセットは、表IV、表V、および表VIに示されています。 ラベル付けプロセス自律運転アルゴリズムの成功と信頼性は、大量のデータだけでなく、高品質の注釈にも依存します。このセクションでは、最初にデータのラベル付け方法について説明します。さらに、ラベルの品質を確保するための最も重要な側面が分析されます。 ラベルはどのように作成されていますか異なる自律運転タスクには、特定の種類の注釈が必要です。たとえば、オブジェクトの検出には、インスタンスのために境界ボックスラベル、ピクセルまたはポイントレベルに基づいてラベルのセグメント化が必要です。軌跡予測の場合、連続軌道のラベル付けが重要です。一方、以下の図11に示すように、注釈プロセスは、手動注釈、半自動アノテーション、完全自動注釈の3つのタイプに分けることができます。このセクションでは、さまざまな種類の注釈の注釈方法について詳しく説明します。 ラベルセグメンテーションデータ。セグメンテーションデータにラベルを付ける目的は、画像内の各ピクセルにラベルを割り当てて、ライダーフレーム内の各ポイントを割り当てて、どのターゲットまたは領域が属するかを示すことです。ラベル付け後、同じターゲットに属するすべてのピクセルには、同じカテゴリがマークされます。手動注釈プロセスの場合、アノテーターは最初にターゲットの周りの境界を描き、次に領域を埋めるか、ピクセルを直接塗ります。ただし、この方法でピクセル/ポイントレベルのラベルを生成することは、高価で非効率的です。 多くの研究が、注釈効率を改善するために、完全に自動または半自動の注釈方法を提案しています。監視された弱い学習に基づく完全に自動ラベル付け方法が、画像内の移動可能なパスをセグメント化するために提案されています。 [265]は、セグメンテーションマスクを生成する前にターゲットを使用する半自動注釈法です。その後、[266]は、20のカテゴリを考慮する半自動法を提案しました。 Polygon-RNN ++は、[268]のアイデアに従うインタラクティブセグメンテーションラベル付けツールを提案しています。 [269]画像情報を使用してピクセルレベルのラベルを生成する代わりに、3D情報が2D画像ドメインに転送され、セマンティックセグメンテーションラベルを生成します。 3Dデータのラベル付けについては、[270]は画像支援のラベル付けプロセスを提案します。 [271]アクティブな学習を使用して少数のポイントを選択し、ポイントクラウドシナリオ全体のラベル付けを避けるために最小トレーニングセットを形成します。 [272]は、屋外ポイントクラウドへの注釈のために半/弱い監視された学習を使用する効率的な注釈フレームワークを導入しました。 ラベル2D/3D境界ボックス。境界ボックスアノテーションの品質は、実際のシナリオにおける自律的な車両知覚システム(オブジェクト検出など)の有効性と堅牢性に直接影響します。ラベリングプロセスでは、通常、長方形のボックスで画像をラベル付けするか、関心のあるターゲットを正確に囲むために、立方体をラベル付けするポイント雲をラベル付けすることが含まれます。 LabelMeは、オブジェクト検出のための画像の注釈に焦点を当てたツールです。ただし、プロのアノテーターによる境界ボックスの生成は、アノテーションを手動で分割するのと同じ問題に直面しています。 Wang et al。 [275]は、自律運転シナリオのための別のビデオ注釈ツールです。昼間のラベル付けよりも、夜間の境界ボックスのラベル付けに対処する方が難しいです。 [276]この問題を解決するために軌跡を利用する半自動法を導入します。 2Dアノテーションと比較して、3D境界ボックスには、正確な位置、ターゲット幅、長さ、高さ、および空間内の方向などのより豊富な空間情報が含まれています。したがって、高品質の3Dアノテーションに注釈を付けるには、より複雑なフレームワークが必要です。 Meng et al。 VIT-WSS3Dは、LIDARポイントと対応する弱いラベル間のグローバルな相互作用をモデル化することにより、擬似境界ボックスを生成します。 Apolloscapeは、3Dアノテーションの2つのブランチと2D注釈の2つの分岐を含む同様の注釈プロセスを採用しています。 3D BATは、半自動アノテーションで2Dおよび3Dタグの取得を支援するアノテーションツールボックスを開発しました。 トラックをマークします。軌跡は、本質的に、ターゲットのパスを時間の経過とともにマッピングし、空間的情報と時間的情報を反映する一連のポイントです。自律運転の軌跡データにラベルを付けるプロセスには、車両、歩行者、サイクリストなど、運転環境のさまざまなエンティティのパスまたはモーションパターンをマークすることが含まれます。通常、注釈プロセスは、オブジェクトの検出と追跡の結果に依存しています。 軌道注釈に関する以前の研究では、[280]はオンラインで演習のアクションを生成し、軌跡にマークされました。 [281]は、クラウドソーシングステップに続いて、専門家統合の正確なプロセスが含まれます。 [282]は、走行軌道をマークする積極的な学習フレームワークを開発しました。歩行者運動パターンの正確な予測は、安全性を促進するために重要です。 Styles et al。 合成データのラベル。現実世界のデータに時間がかかり、高価な手動注釈があるため、コンピューターグラフィックスとエミュレーターを介して生成された合成データは、この問題に代わるものを提供します。データ生成プロセスは制御可能であるため、シーン内の各ターゲットのプロパティ(位置、サイズ、モーションなど)が既知であるため、合成データに自動的かつ正確にラベルを付けることができます。 生成された合成シナリオは、複数のターゲット、さまざまな地形、気象条件、照明の変化など、実際の条件を模倣するように設計されています。これを達成するために、一部の研究者はGrand Theft Auto 5ゲームエンジンを使用してデータセットを構築しました。 [284]リアルタイムシステムは、さまざまな自律運転タスクのラベルを生成するために、複数のゲームに基づいて構築されています。 Shift、CAOS、およびV2XSetは、ゲームビデオを適用するのではなく、Carlaエミュレーターに基づいて作成されます。 [11]と比較して、V2X-SIMは、V2X対応タスクのデータセットを生成するために複数のエミュレーターを使用していることを研究しています。 CODDはさらに、協力運転に3D Lidar Point Cloudsの生成を利用しています。他の作業では、Unity開発プラットフォームを使用して合成データセットを生成します。 マークの品質監視された学習に基づく既存の自律運転アルゴリズムは、大量のラベル付きデータに依存しています。ただし、低品質の注釈に関するトレーニングは、自動運転車の安全性と信頼性に悪影響を与える可能性があります。したがって、複雑な実際の環境で運転するときに精度を向上させるには、ラベルの品質を確保することが重要です。調査によると、ラベルの品質は、一貫性、正確性、精度、検証などの複数の要因の影響を受けます。一貫性は、ラベルの品質を評価するための主要な基準です。データセット全体で一貫性を伴い、これらのデータでモデルをトレーニングするときに混乱を避けるために重要です。たとえば、特定のタイプの車両が車としてマークされている場合、他のすべてのケースでは、一貫して同じマークを付ける必要があります。ラベル付けの精度は、ラベルがターゲットの実際の状態またはシーンの状態と一致するかどうかを指すもう1つの重要な指標です。対照的に、正確さは、注釈付きデータがデータセットの目的と注釈基準に適用できるかどうかを強調します。ラベル付け後、ラベルデータの精度と完全性を検証することが重要です。このプロセスは、専門家またはアルゴリズムの手動レビューを通じて実行できます。検証は、自動運転車のパフォーマンスに影響を与える前に、データセットの問題を効果的に防止するのに役立ち、それにより潜在的な安全リスクを減らします。 [288]は、専門家標識データセットに適したデータ指向の検証方法を提案しました。 Kittiの注釈障害ケースを以下の図12に示します。真の境界ボックス(青)は、対応する画像とライダーポイントクラウドに示されています。画像の左側では、車のターゲット全体が含まれていないため、車の注釈(赤に囲まれた)は不正確です。さらに、カメラとライダーは2台の車を明確にキャプチャしますが(緑色の立方体で強調表示されています)、マークはありません。 データ分析このセクションでは、グローバルデータ分布、時間の傾向、データ分布など、さまざまな角度からデータセットを詳細に、体系的に分析します。 グローバルな場所191の自律運転データセットのグローバルな分布概要を図13に示します。チャートは、米国が40のデータセット(21%)で道をリードしており、自律運転の分野でのリーダーシップを強調していることを示しています。ドイツには24のデータセットがあり、その強力な自動車産業と自律運転技術の推進への影響を反映しています。中国は16のデータセットで密接に遅れをとっており、この分野への中国の関心と投資を示しています。もう1つの注目すべき点は、ヨーロッパには世界中に11のデータセットと24のデータセットがあるということです(ドイツを除く)。この多様な地域分布は、収集されたデータの堅牢性を高め、研究と業界からの国際的な協力と取り組みを強調しています。 一方、小規模なセグメントはカナダ、韓国、英国、日本、シンガポールを含む他の国を代表していますが、これらの国は堅実な技術的背景と蓄積を備えた先進国です。統計は極端な地域のバイアスを反映しています。米国、西ヨーロッパ、東アジアの優位性は、これらの地域の典型的な環境条件の下で自動運転システムに過度に適合することの偏りにつながりました。このバイアスにより、自律型の車両がさまざまな地域や未知の地域や状況で適切に動作できなくなる可能性があります。したがって、アフリカなどの幅広い国や地域からのデータを導入することで、自動運転車の包括的な開発を促進することができます。 さらに、Carlaなどのエミュレーターによって生成された35の合成データセットが18.32%を占めています。実際の運転環境記録の制限により、これらの合成データセットはこれらの欠点を克服し、より強力で信頼性の高い運転システムを開発するために重要です。 データセットの知覚時間の傾向図10では、著者は、2007年から2023年までの上位50のインパクトスコアを持つ知覚されたデータセットの時間傾向の概要を示しています(この執筆時点)。これらのデータセットはデータソース領域に従って色分けされており、合成データセットには赤いフレームがマークされており、多様化されたデータ収集戦略に向けた進歩を明確に示しています。一个明显的趋势显示了多年来数据集的数量和种类的增加,表明随着自动驾驶领域的不断发展,需要高质量数据集。 总体而言,由于自动驾驶汽车有效而准确地感知周围环境的能力的重要性,大多数数据集提供了来自装备在自车上的传感器的感知视角(车载)。另一方面,由于实际世界数据成本高昂,一些研究人员提出了高影响力的合成数据集,如VirtualKITTI (2016年),以减轻对实际数据的依赖。在仿真器的有效性的推动下,近年来发布了许多新颖的合成数据集。在时间线上,像DAIR-V2X (2021年)这样的V2X数据集也呈现出向合作驾驶系统的趋势。此外,由于无人机提供的非遮挡视角,基于无人机的数据集,如2018年发布的UAVDT ,在推动感知系统方面发挥着关键作用。 数据分布在图14中介绍了这些数据集每帧目标数量的情况。值得注意的是,Waymo 展示了大量帧数少于50个目标的情况,同时在图表中占据了广泛的位置,说明了它在每帧中从低到高的目标密度涵盖了各种场景。相反,KITTI 展示了一个更为受限的分布和有限的数据规模。Argoverse 2 具有大量帧数的高目标计数,其峰值约为70,这表明了它在一般情况下复杂的环境表示。对于ONCE ,其目标密度均匀地分布在支持的感知范围内。像nuScenes 和ZOD 这样的数据集展示了类似的曲线,快速上升然后缓慢下降,暗示了环境复杂性的适度水平,每帧中目标数量具有相当的可变性。 除了场景中目标数量之外,基于与自车的距离的目标分布是揭示数据集的多样性和显著差异的另一个重要点,如下图15所示。Waymo 数据集展示了大量标注目标在近场到中场场景中。相反,Argoverse 2 和ZOD 展示了更宽的检测范围,有些帧甚至包括超过200米的边界框。nuScenes 的曲线意味着它在较短范围内的目标非常丰富,这在城市驾驶场景中是典型的。然而,随着距离的增加,nuScenes 数据集的目标数量迅速减少。ONCE 数据集覆盖了目标在不同距离上更均匀的分布,而KITTI 数据集更注重近距离检测。 讨论与未来工作本文主要关注分析现有数据集,这些数据集通常包含丰富的视觉数据,并旨在完成模块化pipeline中的任务。然而,随着技术的迅速发展,尤其是大语言模型的出色性能,下一代自动驾驶数据集出现了许多新的趋势,提出了新的挑战和需求。 端到端驾驶数据集。与模块化设计的自动驾驶pipeline相比,端到端架构简化了整体设计过程并减少了集成复杂性。UniAD 的成功验证了端到端模型的潜在能力。然而,端到端自动驾驶的数据集数量有限。因此,引入专注于端到端驾驶的数据集对推动自动驾驶车辆的发展至关重要。另一方面,在数据引擎中实施自动标注pipeline可以显著促进端到端驾驶框架和数据的开发。 自动驾驶数据集中引入语言。视觉语言模型(VLMs)最近在许多领域取得了令人印象深刻的进展。其在为视觉任务提供语言信息方面的固有优势使得自动驾驶系统更具解释性和可靠性。强调了多模式大语言模型在各种自动驾驶任务中的重要作用,例如感知,运动规划和控制。下面表VII 中展示了包含语言标签的自动驾驶数据集。总体而言,将语言纳入自动驾驶数据集是未来数据集发展的趋势。 通过VLMs生成数据。正如所提到的,VLMs的强大能力可以用于生成自动驾驶数据。例如,DriveGAN 通过在没有监督的情况下解开不同组件来生成高质量的自动驾驶数据。此外,由于世界模型理解驾驶环境的能力,一些工作探索了使用世界模型生成高质量驾驶视频。DriveDreamer 作为从真实场景中派生的先驱性工作,解决了游戏环境或仿真设置的局限性。 域自适应。域自适应是开发自动驾驶车辆时面临的关键挑战,它指的是在一个数据集(源域)上训练的模型在另一个数据集(目标域)上能够稳定执行的能力。这个挑战表现在多个方面,如环境条件的多样性、传感器设置 或从合成到真实的转换。 結論は本文对200多个现有的自动驾驶数据集进行了详尽而系统的回顾和分析。从传感器类型和模态、感知领域以及与自动驾驶数据集相关的任务开始。引入了一个称为"影响分数"的新型评估指标,以验证感知数据集的影响力和重要性。随后,展示了几个高影响力数据集,涉及感知、预测、规划、控制和端到端自动驾驶。此外,解释了自动驾驶数据集的标注方法,并调查了影响标注质量的因素。 此外,描述了收集到的数据集的年代和地理分布,为理解当前自动驾驶数据集的发展提供了全面的视角。同时,研究了几个数据集的数据分布,为理解不同数据集之间的差异提供了一个具体的观点。最后,讨论了下一代自动驾驶数据集的发展和趋势。 |
<<: どのような状況で Redis のメモリ オーバーフローが発生しますか?解決策は何ですか?
>>: 純粋なテキスト モデルは「視覚的な」表現をトレーニングします。 MITの最新研究:言語モデルはコードで絵を描くことができる
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
翻訳者 |ブガッティレビュー | Chonglou Twitter 、 LinkedIn 、またはニ...
[51CTO.com クイック翻訳] 気付きましたか? 人工知能はもはや、少数のテクノロジー企業の単...
クリスマスといえば、誰もがまず何を思い浮かべるでしょうか。クリスマスツリーでしょうか。サンタクロース...
大規模言語モデルは最近、かつてないほどの注目を集めています。急速に変化する環境において、オープンソー...
iottechnewsによると、IoT分野の人工知能(AI)と機械学習(ML)サービスは年間40%成...
上のホワイトボードには、一連の機械学習プロジェクトの立ち上げが示されています。機械学習は幅広い分野を...
常に人工知能の脅威論を支持してきたシリコンバレーの「鉄人」マスク氏は、今回、プログラマーたちの間で支...
現在、顔認識システムがプライベートな写真で訓練されるのを防ぐツールがますます増えている。個人の写真を...
[[443279]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...
Databricksは7月10日、ビッグデータ分析プラットフォームSparkが使用するAIモデルSD...
9月27日、ネイチャー誌は45の機関からなる国際科学研究チームの最新の研究成果を発表した。 200...
近年、需要の増加、エネルギーコストの高騰、持続可能性の問題が続く中、データセンターが注目を集めていま...