まだ分​​からない?約20以上の自動運転データセット、ランキング、ベンチマークのコレクション

まだ分​​からない?約20以上の自動運転データセット、ランキング、ベンチマークのコレクション

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。

1. ヌシーン

データセットリンク: nuScenes

nuscenes データセットには、検出 (2D/3D)、追跡、予測、LiDAR セグメンテーション、パノラマ タスク、計画と制御など、複数のタスクがあります。

nuScenes データセットは、3D ターゲット注釈を備えた大規模な自動運転データセットです。主流のアルゴリズム評価のベンチマークでもあります。その特徴は次のとおりです。

● フルセンサースイート(ライダー 1 台、レーダー 5 台、カメラ 6 台、IMU、GPS)

● 20秒のシーン1,000個

● 1,400,000枚のカメラ画像

● 390,000回のLiDARスキャン

● 2つの異なる都市:ボストンとシンガポール

● 左側通行と右側通行

● 詳細な地図情報

● 23 のオブジェクト クラスに対する 140 万の手動で注釈が付けられた 3D 境界ボックス

2. キティ

データセットの公式サイト: KITTI Vision ベンチマーク スイート (cvlibs.net)

ITTI データセットは、ドイツのカールスルーエ工科大学とトヨタ・リサーチ・インスティテュート・オブ・アメリカが共同で作成しました。このデータセットは、車両環境におけるステレオ、オプティカルフロー、視覚オドメトリ、3D オブジェクト検出、3D トラッキングなどのコンピューター ビジョン技術のパフォーマンスを評価するために使用されます。 KITTI には、市街地、田舎、高速道路などのシーンで収集された実際の画像データが含まれています。各画像には、最大 15 台の車両と 30 人の歩行者、およびさまざまな程度の遮蔽と切り捨てが含まれます。データセット全体は、389 組のステレオ画像とオプティカル フロー マップ、39.2 km の視覚オドメトリ シーケンス、および 10 Hz の周波数でサンプリングおよび同期された 20 万枚を超える 3D 注釈付きオブジェクトの画像で構成されています。一般的に、元のデータセットは「道路」、「都市」、「住宅」、「キャンパス」、「人」に分類されます。 3D オブジェクト検出の場合、ラベルは、車、バン、トラック、歩行者、歩行者 (着席)、自転車、路面電車、その他に細分化されます。

データ量が少ないため、多くのアルゴリズム検証は現在nuscenesで行われています~~~

3. ワミョ

年: 2020;

著者: Waymo LLC および Google LLC

シーン数:サンフランシスコ、マウンテンビュー、フェニックスなどを中心に合計1,150シーンを収録。

カテゴリーの数:車両、歩行者、自転車、標識の 4 つのカテゴリー。

360°取得の有無:はい;

総データ量:合計 2030 セグメント、各セグメントの長さは 20 秒です。

注釈の総数: 3D 注釈ボックス約 12,600,000 個。

センサー モデル:中距離 LiDAR 1 台、短距離 LiDAR 4 台、カメラ 5 台 (前面と側面) が含まれます。LiDAR とカメラは同期され、調整されています。

データセットリンク: https://waymo.com/open/;

はじめに: Waymo は、自動運転の分野で最も重要なデータセットの 1 つです。非常に大規模で、主に自動運転認識技術の研究をサポートするために使用されます。 Waymo は主に、Perception Dataset と Motion Dataset の 2 つのデータセットで構成されています。このうち、Perception Dataset には、3D 注釈、2D パノラマ セグメンテーション注釈、キー ポイント注釈、3D セマンティック セグメンテーション注釈などが含まれています。モーション データセットは主にインタラクティブ タスクの研究に使用されます。さまざまなオブジェクトと対応する 3D マップ データが注釈として付けられた 20 秒のクリップが合計 103,354 個含まれています。

4. BDD100K

BDD100Kデータセットは2018年5月にバークレーAIラボ(BAIR)によってリリースされ、同時に画像注釈システムが設計されました。 BDD100K データセットには、それぞれ約 40 秒/720p/30 fps の高解像度ビデオが 100,000 本含まれています。各ビデオの10秒ごとにキーフレームをサンプリングし、解像度1280×720の100,000枚の画像を取得し、注釈を付けます。データベースには、さまざまな気象条件、シーン、時間の写真が含まれており、規模が大きく、多様性に富んでいます。

主なタスク: ビデオ、使用可能領域、車線、セマンティックセグメンテーション、リアルセグメンテーション、パノラマセグメンテーション、MOT、検出タスク、ポーズなど。

データセットリンク: Berkeley DeepDrive

5. Lyft L5データセット

年: 2019;

著者: Woven Planet Holdings;

シーン数:全1805シーン、屋外

カテゴリ数:車、歩行者、信号機など計9種類

360°取得の有無:はい;

総データ量: 46,000 枚の画像とそれに対応する点群データ。

注釈の総数: 3D 注釈ボックス約 1,300,000 個。

センサーモデル:ルーフとバンパーにそれぞれ 40 ラインと 64 ラインの 2 つの LiDAR が取り付けられており、解像度は 0.2°、10Hz で約 216,000 ポイントが収集されます。さらに、360°カメラ6台と望遠カメラ1台も搭載しており、カメラとLiDARの取得頻度は一定です。

データセットリンク: https://level-5.global/data/;

概要: Lyft L5 は、予測データセットと認識データセットを網羅した、「業界最大の公開自動運転データセット」と言われる L5 自動運転データセットの完全なセットです。予測データセットは、自動車、自転車、歩行者など、パロアルトのルート沿いで自動運転テストチームが遭遇するさまざまな種類のターゲットをカバーしています。 Perception Dataset は、自動運転車両に搭載された LiDAR とカメラによって収集された実際のデータを網羅し、多数の 3D 境界ボックスに手動で注釈を付けます。

6. H3Dデータセット

年: 2019;

著者: Honda Research Institute;

シーン数:全160シーン、屋外

カテゴリー数:合計8

360°取得の有無:いいえ

総データ量: 27,000 枚の画像とそれに対応する点群データ。

注釈の総数: 3D 注釈ボックス約 1,100,000 個。

センサーモデル:解像度 1920x1200 の Grasshopper 3 カメラ 3 台を搭載しています。背面カメラの FOV は 80°、他の 2 台のカメラの FOV は 90° です。64 ライン LiDAR、モデル Velodyne HDL64E S2、および GNSS+IMU モデル ADMA-G を使用します。

データセットリンク: http://usa.honda-ri.com/H3D;

はじめに: Honda Research Instituteは、2019年3月に自動運転方向データセットH3Dをリリースしました。このデータセットには、3D LiDAR スキャナーを使用して収集された 3D マルチオブジェクト検出および追跡データが含まれており、27,721 フレームに 100 万を超えるラベル付きインスタンスを含む、混雑した高度にインタラクティブな交通シーンが 160 個含まれています。

主なタスクは次のとおりです。

7. ApplloScapeデータセット

年: 2019;

著者: Baidu Research;

シーン数:全103シーン、屋外

カテゴリー数:小型車、大型車、歩行者、バイクなど計26種

360°取得の有無:いいえ

総データ数: 143,906 枚の画像とそれに対応する点群データを含む。

注釈の総数:注釈の総数は不明です。

センサーモデル:合計 2 台の VUX-1HA レーザー スキャナー、6 台の VMX-CS6 カメラ (うち 2 台の前面カメラ解像度は 3384x2710)、および IMU/GNSS デバイスが構成されています。レーザー スキャナーは 2 本のレーザー ビームを使用して周囲をスキャンします。一般的に使用されている Velodyne HDL64E と比較して、このスキャナーはより高密度のポイント クラウドを取得でき、精度も高くなります (5mm/3mm)。

データセットリンク: http://apolloscape.auto/index.html;

概要: ApolloScape は、RGB ビデオと対応する高密度ポイント クラウドで構成されています。 140,000 枚を超える画像が含まれており、各画像にはピクセルレベルのセマンティック情報が含まれています。データは中国で収集されているため、一部の外国のデータセットと比較すると、ApolloScape データセットにはより複雑な交通シーンと、より多数のさまざまなターゲットが含まれています。KITTI データセットと同様に、Easy、Moderate、Hard の 3 つのサブセットも含まれています。

主なタスクには、車線、位置決め、軌道予測、検出、追跡、双眼鏡、シーン認識などがあります。

8. Argoverseデータセット

年: 2019;

作者: Argo AI 他

シーン数:全113シーン、アメリカ、ペンシルバニア、マイアミ、フロリダなど屋外。

カテゴリ数:車両、歩行者、ベビーカー、動物など計15カテゴリ

360°取得の有無:はい;

総データ量: 44,000 枚の画像とそれに対応する点群データ。

注釈の総数: 3D 注釈ボックス約 993,000 個。

センサー モデル: KITTI および nuScenes と同様に、Argoverse データセットは 2 つの 32 ライン LiDAR センサー (モデル VLP-32) で構成されています。同時に、解像度1920x1200の高解像度サラウンドビューカメラ7台と、解像度2056x2464のフロントカメラ2台が搭載されています。

データセットリンク: https://www.argoverse.org/;

主なタスク: 3D トラッキング、モーション予測など。

はじめに: Argoverse のデータは、都市部の運転課題と地域の運転習慣が異なる米国の 2 つの都市、マイアミとピッツバーグで Argo AI の自動運転テスト車両が稼働しているエリアのサブセットから取得されます。さまざまな季節、気象条件、時間帯にわたるセンサー データ、つまり「ログ セグメント」の記録が含まれており、実際の運転シナリオを幅広く提供します。合計 113 シーンの 3D トラッキング注釈が含まれており、各クリップの長さは 15 ~ 30 秒で、合計 11,052 個のトラッキング ターゲットが含まれています。そのうち、ラベル付けされたオブジェクトの70%は車両であり、残りは歩行者、自転車、オートバイなどです。また、Argoverseには、位置、接続、交通信号、高度などの情報を含む、ピッツバーグとマイアミの290キロメートルの車線地図を主にカバーする高解像度の地図データが含まれています。

9. Argoversev2データセット

Argoverse 2 は、オースティン、デトロイト、マイアミ、ピッツバーグ、パロアルト、ワシントン D.C. の米国 6 都市のオープンソースの自動運転データと高解像度 (HD) マップのコレクションです。このリリースは、機械学習とコンピューター ビジョン研究用の高解像度マップを組み込んだ最初のデータ リリースの 1 つである Argovverse (「Argoverse1」) の初期リリースに基づいています。

Argoverse 2 には 4 つのオープン ソース データセットが含まれています。

Argoverse 2 センサー データセット: LiDAR、ステレオ、リング カメラ画像を含む 1,000 個の 3D 注釈付きシーンが含まれています。このデータセットは、Argoverse 1 3D 追跡データセットを改良したものです。

Argoverse 2 モーション予測データセット: 多数のオブジェクト タイプに対する軌跡データを含む 250,000 シーンが含まれています。このデータセットは、Argoverse 1 のモーション予測データセットを改良したものです。

Argoverse 2 LiDAR データセット: ラベルなしの LiDAR シーケンスが 20,000 個含まれています。

Argoverse 2 マップ変更データセット: 1000 のシーンが含まれており、そのうち 200 は現実世界の HD マップの変更を説明しています。

Argoverse 2 データセットは、Argoverse 1 の高解像度マップよりも豊富な共通の高解像度マップ形式を共有しています。 Argoverse 2 データセットは共通の API も共有しているため、ユーザーはデータやマップに簡単にアクセスして視覚化できます。

10.オク3D

清華大学と NVIDIA が初の大規模占有グリッド ベンチマークを作成!

データセット リンク: Occ3D: 自動運転のための大規模 3D 占有予測ベンチマーク (tsinghua-mars-lab.github.io)

著者らは、Occ3D nuScenes と Occ3D Waymo という 2 つの 3D 占有率予測データセットを生成しました。 Occ3D nuScenes には、トレーニング用のシーンが 600 個、検証用のシーンが 150 個、テスト用のシーンが 150 個含まれており、合計 40,000 フレームになります。 16 個のパブリック クラスと追加の Generic Object (GO) クラスがあります。各サンプルは[-40m、-40m、-1m、40m、40m、5.4m]の範囲をカバーし、ボクセルサイズは[0.4m、0.4m、0.4m]です。 Occ3D Waymo には、トレーニング用のシーケンスが 798 個、検証用のシーケンスが 202 個含まれており、合計 200,000 フレームが蓄積されています。既知のターゲット クラスは 14 個あり、追加の GO クラスが 1 つあります。各サンプルは[-80m、-80m、-1m、80m、80m、5.4m]の範囲をカバーし、極細ボクセルサイズは[0.05m、0.05m、0.05m]です。

11. ニュープラン

nuPlan は、世界初の自動運転の大規模計画ベンチマークです。ML ベースのモーション プランナーは増えていますが、確立されたデータセット、シミュレーション フレームワーク、およびメトリックが不足しているため、この分野での進歩は限られています。自律走行車の動作予測の既存のベースライン (Argovest、Lyft、Waymo) は、自車の長期計画ではなく、他のエージェントの短期的な動作予測に重点を置いています。このため、これまでの研究ではオープンループ評価に L2 ベースのメトリックが使用されていましたが、これは長期計画の公平な評価には適していません。このベンチマークは、機械学習ベースのプランナーを開発するためのトレーニング フレームワーク、軽量のクローズドループ シミュレーター、モーション プランニング固有のメトリック、および結果を視覚化するインタラクティブ ツールを提供することで、これらの制限を克服します。

米国とアジアの 4 都市 (ボストン、ピッツバーグ、ラスベガス、シンガポール) の 1,200 時間の人間による運転データを含む大規模なデータセットが提供されます。データセットは最先端のオフライン認識システムを使用して自動的にラベル付けされます。このサイズの既存のデータセットとは対照的に、データセット内の検出されたオブジェクトの 3D ボックスだけでなく、生のセンサー データの 10% (120 時間) も公開されます。

データセットリンク: nuPlan (nuscenes.org)

12.ONCE(ワン・ミリオン・シーン)

● 発行元: Huawei

● 発売時期:2021年

● はじめに: ONCE (One millioN sCenEs) は、自動運転シナリオ向けの 3D オブジェクト検出データセットです。 ONCE データセットは、100 万の LiDAR シーンと 700 万の対応するカメラ画像で構成されています。データは、nuScenes や Waymo などの他の利用可能な 3D 自動運転データセットの 20 倍にあたる 144 時間の運転時間から選択され、さまざまな地域、期間、気象条件で収集されました。構成: 100 万の LiDAR フレーム、700 万のカメラ画像、200 平方キロメートルの走行エリア、144 時間の運転、5 つのカテゴリ (車、バス、トラック、歩行者、自転車) に分類された 15,000 の完全に注釈が付けられたシーン、多様な環境 (昼/夜、晴れ/雨、都市/郊外)。

● ダウンロードアドレス: https://opendatalab.org.cn/ONCE

● 論文アドレス: https://arxiv.org/pdf/2106.1103

13. 都市景観

● 発行元: ダルムシュタット工科大学 · マックスプランク情報科学研究所 ● 発行年: 2016年

● 概要: Cityscapes は、都市の街路風景の意味理解に焦点を当てた大規模なデータベースです。 8 つのカテゴリ (飛行機、人間、乗り物、建築物、物体、自然、空、空間) に分かれた 30 のクラスに対して、セマンティック、インスタンス、高密度ピクセル注釈を提供します。データセットは、細かく注釈が付けられた約 5000 枚の画像と、粗く注釈が付けられた約 20000 枚の画像で構成されています。データは数か月間にわたり、日中の良好な天候下で 50 都市で収集されました。もともとビデオとして録画されていたため、多数の動的オブジェクト、さまざまなシーン レイアウト、さまざまな背景などの特徴を持つようにフレームが手動で選択されました。

● ダウンロードアドレス: https://opendatalab.org.cn/CityScapes

● 論文アドレス: https://arxiv.org/pdf/1604.0168

14. YouTube運転データセット

● 発行元:香港中文大学・カリフォルニア大学 ● 発売日:2022年

● 概要: YouTube からファーストビューの運転動画をクロールします。合計120時間を超えるビデオが合計134本収集されました。ビデオでは、さまざまな気象条件(晴れ、雨、雪など)と地域(田舎と都市部)でのさまざまな運転シナリオをカバーしています。 1 秒ごとに 1 フレームがサンプリングされ、130 万フレームのデータ セットが生成されます。 YouTube 運転データセットは、データの 70% を含むトレーニング セットとデータの 30% を含むテスト セットに分割され、ACO はトレーニング セットでトレーニングされます。

● ダウンロードアドレス: https://opendatalab.org.cn/YouTube_Driving_Dataset

● 論文アドレス: https://arxiv.org/pdf/2204.02393.pdf

15.A2D2 エイツーディーツー

● 発行元: アウディ

● 発売時期:2020年

● はじめに: 自動運転に取り組むスタートアップ企業や学術研究者をサポートするために、Audi Autonomous Driving Dataset (A2D2) をリリースしました。車両にマルチモーダル センサー スイートを装備し、大規模なデータセットを記録してラベルを付ける作業は、時間がかかり、手間がかかります。 A2D2 データセットは、この高い参入障壁を取り除き、研究者や開発者が新しいテクノロジーの開発に集中できるようにします。データセットには、2D セマンティック セグメンテーション、3D ポイント クラウド、3D 境界ボックス、車両バス データが含まれています。

● ダウンロードアドレス: https://opendatalab.org.cn/A2D2

● 論文アドレス: https://arxiv.org/pdf/2004.0632

16. カム2BEV

● 発行元: アーヘン工科大学

● 発売時期:2020年

このデータセットには、論文「複数の車載カメラからの画像を意味的にセグメント化された画像に変換するための Sim2Real ディープラーニング アプローチ」で説明されている方法の開発と適用のために作成された、道路シーン画像の合成され意味的にセグメント化されたサブセットが 2 つ含まれています。このデータセットは、Github で説明されている Cam2BEV メソッドの公式コード実装を通じて入手できます。

データセットリンク: Cam2BEV-OpenDataLab

17. セマンティックキッティ

● 発行元:ボン大学

● 発売時期:2019年

これは、KITTI ビジョン ベンチマークに基づく大規模なデータセットであり、オドメトリ タスクによって提供されるすべてのシーケンスを使用します。シーケンス 00-10 の個々のスキャンごとに高密度の注釈を提供します。これにより、複数の連続スキャンを使用したセマンティック セグメンテーションやセマンティック シーンの補完などのセマンティック シーンの解釈が可能になります。残りのシーケンス、つまりシーケンス 11 ~ 21 はテスト セットとして使用され、多数の困難な交通状況と環境タイプを示します。テスト セットのラベルは提供されません。評価サービスを使用して提出物を採点し、テスト セットの結果を提供します。

● ダウンロードアドレス: https://opendatalab.org.cn/SemanticKITTI

● 論文アドレス: https://arxiv.org/pdf/1904.0141

18. オープンレーン

● 発行元:上海人工知能研究所、上海交通大学、センスタイム技術研究所

● 発売日:2022年

OpenLane は、これまでで最初の現実世界最大の 3D レーン データセットです。私たちのデータセットは、一般認識データセット Waymo Open Dataset から貴重なコンテンツを収集し、1,000 の道路セグメントの車線と最接近経路オブジェクト (CIPO) の注釈を提供します。つまり、OpenLane には 20 万個のフレームと、88 万個を超える慎重に注釈が付けられたレーンがあります。私たちは、研究コミュニティが 3D 認識と自動運転技術の進歩を遂げられるよう、OpenLane データセットを公開しました。

● ダウンロードアドレス: https://opendatalab.org.cn/OpenLane

● 論文アドレス: https://arxiv.org/pdf/2203.11089.pdf

19. オープンレーンV2

● 発行元: 上海人工知能研究所

● 発売日:2023年

自動運転のための世界初の道路構造認識および推論ベンチマーク。データセットの主なタスクは、シーン構造の認識と推論であり、モデルが周囲の環境における車線の運転可能な状態を識別できることが必要です。このデータセットのタスクには、車線の中心線や交通特徴の検出だけでなく、検出されたオブジェクトのトポロジ関係の認識も含まれます。

● ダウンロードアドレス: https://opendatalab.org.cn/OpenLane-V2

オリジナルリンク: https://mp.weixin.qq.com/s/rNc16TLtZFvvkw0BED8hiA

<<: 

>>:  爆発的なパフォーマンス!最新の MapEX: 既存のすべての SOTA を大幅に上回り、マップレスの認識が到来するか? ? ?

ブログ    
ブログ    

推薦する

インテリジェント製造の波に乗って、マシンビジョン業界は新たな時代を迎えているのでしょうか?

[[345085]]人工知能技術の台頭とエッジデバイスのコンピューティング能力の向上により、マシン...

AIが仕事や生活を奪ったら、人類の未来はどうなるのでしょうか?

AIの発展は、人間の仕事の効率を向上させ、人間の働き方を変え、さらには人類の発展の方向を導く上で大...

Pythonアルゴリズムの一般的なテクニックと組み込みライブラリ

[[347377]] Pythonアルゴリズムの一般的なテクニックと組み込みライブラリ近年、Pyth...

AIが皮膚がんの診断で17カ国の皮膚科医58人に勝利

現代医学の発展は、病気の診断と治療のための新しいツール、テクノロジー、方法を開発してきた医師と科学者...

...

...

IDC: 中国のAI投資は2027年までに381億ドルに達すると予想

IDC は、2027 年までに人工知能への世界総投資額が 4,236 億米ドルに達し、2022 年か...

AIは音楽業界をどのように変えているのでしょうか?

[[269995]]音楽業界では、他の業界と同様に、AI テクノロジーによってサービスを自動化し、...

DataCanvas Jiuzhang YunjiがCOOL NEWSをリリースし、企業が独立したAIを構築できるよう支援

[51CTO.comからのオリジナル記事] 人工知能の応用が深まるにつれ、データの価値はますます顕著...

Baiduの李振宇氏:Apollo 3.0のリリースはApolloのオープン性の新たな出発点です

自動車業界から大きな注目を集めるアポロオープンプラットフォームは、新たな量産時代を迎えました。 7月...

プライバシー保護における新たなブレークスルー: ガウス差分プライバシー フレームワークとディープラーニングの組み合わせ

[[324532]]人工知能におけるプライバシーの問題は、重要かつ深刻な問題として認識されています。...

2018年、ブロックチェーンは監査人の仕事を破壊するでしょうか?

電卓が普及した後、そろばんの使い方しか知らなかった会計士は失業した。ゴールドマン・サックスは最盛期に...