まだ分からない？約20以上の自動運転データセット、ランキング、ベンチマークのコレクション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

1. ヌシーン

データセットリンク: nuScenes

nuscenes データセットには、検出 (2D/3D)、追跡、予測、LiDAR セグメンテーション、パノラマタスク、計画と制御など、複数のタスクがあります。

nuScenes データセットは、3D ターゲット注釈を備えた大規模な自動運転データセットです。主流のアルゴリズム評価のベンチマークでもあります。その特徴は次のとおりです。

● フルセンサースイート（ライダー 1 台、レーダー 5 台、カメラ 6 台、IMU、GPS）

● 20秒のシーン1,000個

● 1,400,000枚のカメラ画像

● 390,000回のLiDARスキャン

● 2つの異なる都市：ボストンとシンガポール

● 左側通行と右側通行

● 詳細な地図情報

● 23 のオブジェクトクラスに対する 140 万の手動で注釈が付けられた 3D 境界ボックス

2. キティ

データセットの公式サイト: KITTI Vision ベンチマークスイート (cvlibs.net)

ITTI データセットは、ドイツのカールスルーエ工科大学とトヨタ・リサーチ・インスティテュート・オブ・アメリカが共同で作成しました。このデータセットは、車両環境におけるステレオ、オプティカルフロー、視覚オドメトリ、3D オブジェクト検出、3D トラッキングなどのコンピュータービジョン技術のパフォーマンスを評価するために使用されます。 KITTI には、市街地、田舎、高速道路などのシーンで収集された実際の画像データが含まれています。各画像には、最大 15 台の車両と 30 人の歩行者、およびさまざまな程度の遮蔽と切り捨てが含まれます。データセット全体は、389 組のステレオ画像とオプティカルフローマップ、39.2 km の視覚オドメトリシーケンス、および 10 Hz の周波数でサンプリングおよび同期された 20 万枚を超える 3D 注釈付きオブジェクトの画像で構成されています。一般的に、元のデータセットは「道路」、「都市」、「住宅」、「キャンパス」、「人」に分類されます。 3D オブジェクト検出の場合、ラベルは、車、バン、トラック、歩行者、歩行者 (着席)、自転車、路面電車、その他に細分化されます。

データ量が少ないため、多くのアルゴリズム検証は現在nuscenesで行われています~~~

3. ワミョ

年: 2020;

著者: Waymo LLC および Google LLC

シーン数：サンフランシスコ、マウンテンビュー、フェニックスなどを中心に合計1,150シーンを収録。

カテゴリーの数:車両、歩行者、自転車、標識の 4 つのカテゴリー。

360°取得の有無:はい;

総データ量:合計 2030 セグメント、各セグメントの長さは 20 秒です。

注釈の総数: 3D 注釈ボックス約 12,600,000 個。

センサーモデル:中距離 LiDAR 1 台、短距離 LiDAR 4 台、カメラ 5 台 (前面と側面) が含まれます。LiDAR とカメラは同期され、調整されています。

データセットリンク: https://waymo.com/open/;

はじめに: Waymo は、自動運転の分野で最も重要なデータセットの 1 つです。非常に大規模で、主に自動運転認識技術の研究をサポートするために使用されます。 Waymo は主に、Perception Dataset と Motion Dataset の 2 つのデータセットで構成されています。このうち、Perception Dataset には、3D 注釈、2D パノラマセグメンテーション注釈、キーポイント注釈、3D セマンティックセグメンテーション注釈などが含まれています。モーションデータセットは主にインタラクティブタスクの研究に使用されます。さまざまなオブジェクトと対応する 3D マップデータが注釈として付けられた 20 秒のクリップが合計 103,354 個含まれています。

4. BDD100K

BDD100Kデータセットは2018年5月にバークレーAIラボ（BAIR）によってリリースされ、同時に画像注釈システムが設計されました。 BDD100K データセットには、それぞれ約 40 秒/720p/30 fps の高解像度ビデオが 100,000 本含まれています。各ビデオの10秒ごとにキーフレームをサンプリングし、解像度1280×720の100,000枚の画像を取得し、注釈を付けます。データベースには、さまざまな気象条件、シーン、時間の写真が含まれており、規模が大きく、多様性に富んでいます。

主なタスク: ビデオ、使用可能領域、車線、セマンティックセグメンテーション、リアルセグメンテーション、パノラマセグメンテーション、MOT、検出タスク、ポーズなど。

データセットリンク: Berkeley DeepDrive

5. Lyft L5データセット

年: 2019;

著者: Woven Planet Holdings;

シーン数：全1805シーン、屋外

カテゴリ数：車、歩行者、信号機など計9種類

360°取得の有無:はい;

総データ量: 46,000 枚の画像とそれに対応する点群データ。

注釈の総数: 3D 注釈ボックス約 1,300,000 個。

センサーモデル:ルーフとバンパーにそれぞれ 40 ラインと 64 ラインの 2 つの LiDAR が取り付けられており、解像度は 0.2°、10Hz で約 216,000 ポイントが収集されます。さらに、360°カメラ6台と望遠カメラ1台も搭載しており、カメラとLiDARの取得頻度は一定です。

データセットリンク: https://level-5.global/data/;

概要: Lyft L5 は、予測データセットと認識データセットを網羅した、「業界最大の公開自動運転データセット」と言われる L5 自動運転データセットの完全なセットです。予測データセットは、自動車、自転車、歩行者など、パロアルトのルート沿いで自動運転テストチームが遭遇するさまざまな種類のターゲットをカバーしています。 Perception Dataset は、自動運転車両に搭載された LiDAR とカメラによって収集された実際のデータを網羅し、多数の 3D 境界ボックスに手動で注釈を付けます。

6. H3Dデータセット

年: 2019;

著者： Honda Research Institute;

シーン数：全160シーン、屋外

カテゴリー数：合計8

360°取得の有無:いいえ

総データ量: 27,000 枚の画像とそれに対応する点群データ。

注釈の総数: 3D 注釈ボックス約 1,100,000 個。

センサーモデル:解像度 1920x1200 の Grasshopper 3 カメラ 3 台を搭載しています。背面カメラの FOV は 80°、他の 2 台のカメラの FOV は 90° です。64 ライン LiDAR、モデル Velodyne HDL64E S2、および GNSS+IMU モデル ADMA-G を使用します。

データセットリンク: http://usa.honda-ri.com/H3D;

はじめに： Honda Research Instituteは、2019年3月に自動運転方向データセットH3Dをリリースしました。このデータセットには、3D LiDAR スキャナーを使用して収集された 3D マルチオブジェクト検出および追跡データが含まれており、27,721 フレームに 100 万を超えるラベル付きインスタンスを含む、混雑した高度にインタラクティブな交通シーンが 160 個含まれています。

主なタスクは次のとおりです。

7. ApplloScapeデータセット

年: 2019;

著者: Baidu Research;

シーン数：全103シーン、屋外

カテゴリー数：小型車、大型車、歩行者、バイクなど計26種

360°取得の有無:いいえ

総データ数: 143,906 枚の画像とそれに対応する点群データを含む。

注釈の総数:注釈の総数は不明です。

センサーモデル:合計 2 台の VUX-1HA レーザースキャナー、6 台の VMX-CS6 カメラ (うち 2 台の前面カメラ解像度は 3384x2710)、および IMU/GNSS デバイスが構成されています。レーザースキャナーは 2 本のレーザービームを使用して周囲をスキャンします。一般的に使用されている Velodyne HDL64E と比較して、このスキャナーはより高密度のポイントクラウドを取得でき、精度も高くなります (5mm/3mm)。

データセットリンク: http://apolloscape.auto/index.html;

概要: ApolloScape は、RGB ビデオと対応する高密度ポイントクラウドで構成されています。 140,000 枚を超える画像が含まれており、各画像にはピクセルレベルのセマンティック情報が含まれています。データは中国で収集されているため、一部の外国のデータセットと比較すると、ApolloScape データセットにはより複雑な交通シーンと、より多数のさまざまなターゲットが含まれています。KITTI データセットと同様に、Easy、Moderate、Hard の 3 つのサブセットも含まれています。

主なタスクには、車線、位置決め、軌道予測、検出、追跡、双眼鏡、シーン認識などがあります。

8. Argoverseデータセット

年: 2019;

作者: Argo AI 他

シーン数：全113シーン、アメリカ、ペンシルバニア、マイアミ、フロリダなど屋外。

カテゴリ数：車両、歩行者、ベビーカー、動物など計15カテゴリ

360°取得の有無:はい;

総データ量: 44,000 枚の画像とそれに対応する点群データ。

注釈の総数: 3D 注釈ボックス約 993,000 個。

センサーモデル: KITTI および nuScenes と同様に、Argoverse データセットは 2 つの 32 ライン LiDAR センサー (モデル VLP-32) で構成されています。同時に、解像度1920x1200の高解像度サラウンドビューカメラ7台と、解像度2056x2464のフロントカメラ2台が搭載されています。

データセットリンク: https://www.argoverse.org/;

主なタスク: 3D トラッキング、モーション予測など。

はじめに: Argoverse のデータは、都市部の運転課題と地域の運転習慣が異なる米国の 2 つの都市、マイアミとピッツバーグで Argo AI の自動運転テスト車両が稼働しているエリアのサブセットから取得されます。さまざまな季節、気象条件、時間帯にわたるセンサーデータ、つまり「ログセグメント」の記録が含まれており、実際の運転シナリオを幅広く提供します。合計 113 シーンの 3D トラッキング注釈が含まれており、各クリップの長さは 15 ～ 30 秒で、合計 11,052 個のトラッキングターゲットが含まれています。そのうち、ラベル付けされたオブジェクトの70％は車両であり、残りは歩行者、自転車、オートバイなどです。また、Argoverseには、位置、接続、交通信号、高度などの情報を含む、ピッツバーグとマイアミの290キロメートルの車線地図を主にカバーする高解像度の地図データが含まれています。

9. Argoversev2データセット

Argoverse 2 は、オースティン、デトロイト、マイアミ、ピッツバーグ、パロアルト、ワシントン D.C. の米国 6 都市のオープンソースの自動運転データと高解像度 (HD) マップのコレクションです。このリリースは、機械学習とコンピュータービジョン研究用の高解像度マップを組み込んだ最初のデータリリースの 1 つである Argovverse (「Argoverse1」) の初期リリースに基づいています。

Argoverse 2 には 4 つのオープンソースデータセットが含まれています。

Argoverse 2 センサーデータセット: LiDAR、ステレオ、リングカメラ画像を含む 1,000 個の 3D 注釈付きシーンが含まれています。このデータセットは、Argoverse 1 3D 追跡データセットを改良したものです。

Argoverse 2 モーション予測データセット: 多数のオブジェクトタイプに対する軌跡データを含む 250,000 シーンが含まれています。このデータセットは、Argoverse 1 のモーション予測データセットを改良したものです。

Argoverse 2 LiDAR データセット: ラベルなしの LiDAR シーケンスが 20,000 個含まれています。

Argoverse 2 マップ変更データセット: 1000 のシーンが含まれており、そのうち 200 は現実世界の HD マップの変更を説明しています。

Argoverse 2 データセットは、Argoverse 1 の高解像度マップよりも豊富な共通の高解像度マップ形式を共有しています。 Argoverse 2 データセットは共通の API も共有しているため、ユーザーはデータやマップに簡単にアクセスして視覚化できます。

10.オク3D

清華大学と NVIDIA が初の大規模占有グリッドベンチマークを作成!

データセットリンク: Occ3D: 自動運転のための大規模 3D 占有予測ベンチマーク (tsinghua-mars-lab.github.io)

著者らは、Occ3D nuScenes と Occ3D Waymo という 2 つの 3D 占有率予測データセットを生成しました。 Occ3D nuScenes には、トレーニング用のシーンが 600 個、検証用のシーンが 150 個、テスト用のシーンが 150 個含まれており、合計 40,000 フレームになります。 16 個のパブリッククラスと追加の Generic Object (GO) クラスがあります。各サンプルは[-40m、-40m、-1m、40m、40m、5.4m]の範囲をカバーし、ボクセルサイズは[0.4m、0.4m、0.4m]です。 Occ3D Waymo には、トレーニング用のシーケンスが 798 個、検証用のシーケンスが 202 個含まれており、合計 200,000 フレームが蓄積されています。既知のターゲットクラスは 14 個あり、追加の GO クラスが 1 つあります。各サンプルは[-80m、-80m、-1m、80m、80m、5.4m]の範囲をカバーし、極細ボクセルサイズは[0.05m、0.05m、0.05m]です。

11. ニュープラン

nuPlan は、世界初の自動運転の大規模計画ベンチマークです。ML ベースのモーションプランナーは増えていますが、確立されたデータセット、シミュレーションフレームワーク、およびメトリックが不足しているため、この分野での進歩は限られています。自律走行車の動作予測の既存のベースライン (Argovest、Lyft、Waymo) は、自車の長期計画ではなく、他のエージェントの短期的な動作予測に重点を置いています。このため、これまでの研究ではオープンループ評価に L2 ベースのメトリックが使用されていましたが、これは長期計画の公平な評価には適していません。このベンチマークは、機械学習ベースのプランナーを開発するためのトレーニングフレームワーク、軽量のクローズドループシミュレーター、モーションプランニング固有のメトリック、および結果を視覚化するインタラクティブツールを提供することで、これらの制限を克服します。

米国とアジアの 4 都市 (ボストン、ピッツバーグ、ラスベガス、シンガポール) の 1,200 時間の人間による運転データを含む大規模なデータセットが提供されます。データセットは最先端のオフライン認識システムを使用して自動的にラベル付けされます。このサイズの既存のデータセットとは対照的に、データセット内の検出されたオブジェクトの 3D ボックスだけでなく、生のセンサーデータの 10% (120 時間) も公開されます。

データセットリンク: nuPlan (nuscenes.org)

12.ONCE（ワン・ミリオン・シーン）

● 発行元: Huawei

● 発売時期：2021年

● はじめに: ONCE (One millioN sCenEs) は、自動運転シナリオ向けの 3D オブジェクト検出データセットです。 ONCE データセットは、100 万の LiDAR シーンと 700 万の対応するカメラ画像で構成されています。データは、nuScenes や Waymo などの他の利用可能な 3D 自動運転データセットの 20 倍にあたる 144 時間の運転時間から選択され、さまざまな地域、期間、気象条件で収集されました。構成: 100 万の LiDAR フレーム、700 万のカメラ画像、200 平方キロメートルの走行エリア、144 時間の運転、5 つのカテゴリ (車、バス、トラック、歩行者、自転車) に分類された 15,000 の完全に注釈が付けられたシーン、多様な環境 (昼/夜、晴れ/雨、都市/郊外)。

● ダウンロードアドレス: https://opendatalab.org.cn/ONCE

● 論文アドレス: https://arxiv.org/pdf/2106.1103

13. 都市景観

● 発行元: ダルムシュタット工科大学 · マックスプランク情報科学研究所 ● 発行年: 2016年

● 概要: Cityscapes は、都市の街路風景の意味理解に焦点を当てた大規模なデータベースです。 8 つのカテゴリ (飛行機、人間、乗り物、建築物、物体、自然、空、空間) に分かれた 30 のクラスに対して、セマンティック、インスタンス、高密度ピクセル注釈を提供します。データセットは、細かく注釈が付けられた約 5000 枚の画像と、粗く注釈が付けられた約 20000 枚の画像で構成されています。データは数か月間にわたり、日中の良好な天候下で 50 都市で収集されました。もともとビデオとして録画されていたため、多数の動的オブジェクト、さまざまなシーンレイアウト、さまざまな背景などの特徴を持つようにフレームが手動で選択されました。

● ダウンロードアドレス: https://opendatalab.org.cn/CityScapes

● 論文アドレス: https://arxiv.org/pdf/1604.0168

14. YouTube運転データセット

● 発行元：香港中文大学・カリフォルニア大学 ● 発売日：2022年

● 概要: YouTube からファーストビューの運転動画をクロールします。合計120時間を超えるビデオが合計134本収集されました。ビデオでは、さまざまな気象条件（晴れ、雨、雪など）と地域（田舎と都市部）でのさまざまな運転シナリオをカバーしています。 1 秒ごとに 1 フレームがサンプリングされ、130 万フレームのデータセットが生成されます。 YouTube 運転データセットは、データの 70% を含むトレーニングセットとデータの 30% を含むテストセットに分割され、ACO はトレーニングセットでトレーニングされます。

● ダウンロードアドレス: https://opendatalab.org.cn/YouTube_Driving_Dataset

● 論文アドレス: https://arxiv.org/pdf/2204.02393.pdf

15.A2D2 エイツーディーツー

● 発行元: アウディ

● 発売時期：2020年

● はじめに: 自動運転に取り組むスタートアップ企業や学術研究者をサポートするために、Audi Autonomous Driving Dataset (A2D2) をリリースしました。車両にマルチモーダルセンサースイートを装備し、大規模なデータセットを記録してラベルを付ける作業は、時間がかかり、手間がかかります。 A2D2 データセットは、この高い参入障壁を取り除き、研究者や開発者が新しいテクノロジーの開発に集中できるようにします。データセットには、2D セマンティックセグメンテーション、3D ポイントクラウド、3D 境界ボックス、車両バスデータが含まれています。

● ダウンロードアドレス: https://opendatalab.org.cn/A2D2

● 論文アドレス: https://arxiv.org/pdf/2004.0632

16. カム2BEV

● 発行元: アーヘン工科大学

● 発売時期：2020年

このデータセットには、論文「複数の車載カメラからの画像を意味的にセグメント化された画像に変換するための Sim2Real ディープラーニングアプローチ」で説明されている方法の開発と適用のために作成された、道路シーン画像の合成され意味的にセグメント化されたサブセットが 2 つ含まれています。このデータセットは、Github で説明されている Cam2BEV メソッドの公式コード実装を通じて入手できます。

データセットリンク: Cam2BEV-OpenDataLab

17. セマンティックキッティ

● 発行元：ボン大学

● 発売時期：2019年

これは、KITTI ビジョンベンチマークに基づく大規模なデータセットであり、オドメトリタスクによって提供されるすべてのシーケンスを使用します。シーケンス 00-10 の個々のスキャンごとに高密度の注釈を提供します。これにより、複数の連続スキャンを使用したセマンティックセグメンテーションやセマンティックシーンの補完などのセマンティックシーンの解釈が可能になります。残りのシーケンス、つまりシーケンス 11 ～ 21 はテストセットとして使用され、多数の困難な交通状況と環境タイプを示します。テストセットのラベルは提供されません。評価サービスを使用して提出物を採点し、テストセットの結果を提供します。

● ダウンロードアドレス: https://opendatalab.org.cn/SemanticKITTI

● 論文アドレス: https://arxiv.org/pdf/1904.0141

18. オープンレーン

● 発行元：上海人工知能研究所、上海交通大学、センスタイム技術研究所

● 発売日：2022年

OpenLane は、これまでで最初の現実世界最大の 3D レーンデータセットです。私たちのデータセットは、一般認識データセット Waymo Open Dataset から貴重なコンテンツを収集し、1,000 の道路セグメントの車線と最接近経路オブジェクト (CIPO) の注釈を提供します。つまり、OpenLane には 20 万個のフレームと、88 万個を超える慎重に注釈が付けられたレーンがあります。私たちは、研究コミュニティが 3D 認識と自動運転技術の進歩を遂げられるよう、OpenLane データセットを公開しました。

● ダウンロードアドレス: https://opendatalab.org.cn/OpenLane

● 論文アドレス: https://arxiv.org/pdf/2203.11089.pdf

19. オープンレーンV2

● 発行元: 上海人工知能研究所

● 発売日：2023年

自動運転のための世界初の道路構造認識および推論ベンチマーク。データセットの主なタスクは、シーン構造の認識と推論であり、モデルが周囲の環境における車線の運転可能な状態を識別できることが必要です。このデータセットのタスクには、車線の中心線や交通特徴の検出だけでなく、検出されたオブジェクトのトポロジ関係の認識も含まれます。

● ダウンロードアドレス: https://opendatalab.org.cn/OpenLane-V2

オリジナルリンク: https://mp.weixin.qq.com/s/rNc16TLtZFvvkw0BED8hiA

<<: