コンピュータビジョンのための 9 つのオープンソースデータセット

[[420140]]

[51CTO.com クイック翻訳]オープンソースデータセットを使用してトレーニングされたコンピュータビジョンモデル

コンピュータービジョン (CV) は、人工知能 (AI) と機械学習 (ML) の分野で最も興味深いサブフィールドの 1 つです。これは多くの AI および機械学習パイプラインの主要コンポーネントであり、業界を変革し、組織が機械やビジネスシステムの動作方法を完全に変えることを可能にします。

学術的に言えば、コンピュータービジョンは数十年にわたってコンピューターサイエンスの成熟した分野であり、長年にわたり、この分野をより洗練されたものにするために多くの研究が行われてきました。しかし、最近ではディープニューラルネットワークの使用がこの分野に革命をもたらし、急速な成長に新たな推進力を与えています。

コンピュータービジョンには、次のようなさまざまな応用分野があります。

自動運転。
医療画像の分析と診断。
シーンの検出と理解。
画像のキャプションを自動的に生成します。
ソーシャルメディアでの写真/顔のタグ付け。
家族の安全。
製造および品質管理における欠陥の特定。

この記事では、コンピュータービジョンタスクを実行する高度な機械学習システムをトレーニングするためにディープラーニングの分野で使用されている、最も人気があり効果的なデータセットのいくつかについて説明します。

適切なオープンソースデータセットを選択する方法

画像ファイルやビデオファイルでマシンをトレーニングすることは、非常に複雑でデータ集約的な操作です。単一の画像ファイルは、多次元、数メガバイトのデジタルエンティティであり、「インテリジェント画像分析」ミッションの全体的なシナリオにおける「洞察」のほんの一部しか含まれていません。

対照的に、同様のサイズの小売販売データテーブルは、同じコンピューティングハードウェア上の機械学習アルゴリズムに、はるかに多くの洞察を提供できます。この事実は、最新のコンピュータービジョンパイプラインに必要なデータとコンピューティングの規模について話すときに念頭に置くことが重要です。

したがって、ほとんどの場合、コンピュータービジョンタスク用の高品質の機械学習モデルをトレーニングするには、数百または数千枚の画像だけでは不十分です。ほぼすべての最新のコンピュータービジョンシステムは、慎重に選択されたトレーニングサンプル (ラベル付けされた画像など) が十分な数提供されない場合、適合不足に悩まされる複雑なディープラーニングモデルアーキテクチャを使用しています。その結果、堅牢で一般化可能、かつ実稼働品質のディープラーニングシステムでは通常、トレーニング用に慎重にキュレーションされた数百万枚の画像が必要になるというのが一般的な傾向になりつつあります。

さらに、ビデオ分析の場合、多数のビデオストリームから取得されたビデオファイルまたはフレームの動的な性質を考慮すると、トレーニングデータセットを選択してコンパイルするタスクはさらに複雑になる可能性があります。

この記事では、最も人気のある写真（静止画像とビデオクリップで構成）をいくつか紹介します。

コンピュータービジョンモデル用の人気のオープンソースデータセット

すべてのデータセットがさまざまなコンピュータービジョンタスクに等しく適しているわけではありません。一般的なタスクには次のようなものがあります。

画像分類。
物体検出。
オブジェクトのセグメンテーション。
複数オブジェクトの注釈。
画像のキャプション。
人間の姿勢の推定。
ビデオフレーム分析。

ほとんどのカテゴリをカバーする人気のオープンソースデータセットを以下に紹介します。

1. ImageNet（最も有名）

ImageNet は、世界中の研究者が簡単にアクセスできる画像データベースを提供するための継続的な研究活動です。これはおそらく世界で最も有名な画像データセットであり、研究者や学習者からはゴールドスタンダードとして引用されています。

このプロジェクトは、画像および視覚研究の分野におけるニーズの高まり、つまりより多くのデータの必要性に触発されて生まれました。 WordNet 階層に従って編成されています。 WordNet 内の意味のある各概念は、複数の単語またはフレーズで記述される可能性があり、これらは「synset」と呼ばれます。 WordNet には 100,000 を超える synset があります。同様に、ImageNet は各シンセットを説明するために平均 1000 枚の画像を提供することを目指しています。

ImageNet Large Scale Visual Recognition Challenge (ILSVRC) は、大規模な物体検出と画像分類のためのアルゴリズム (大学や企業の研究グループのチームによって提出されたもの) を評価する、毎年開催される世界的なコンテストです。主な動機の 1 つは、研究者が、かなり高価なラベル付け作業を活用して、より広範囲のオブジェクトの検出の進捗状況を比較できるようにすることです。もう 1 つの動機は、検索と注釈付けのための大規模な画像インデックス作成におけるコンピュータービジョンの進歩を測定することです。これは機械学習の分野で最も注目される年次コンテストの一つです。

2. CIFAR-10（初級）

これは、コンピュータービジョン分野の初心者が機械学習やコンピュータービジョンアルゴリズムをトレーニングするためによく使用する画像のコレクションです。また、トレーニングやハイパーパラメータ調整のプロセスに過度の計算負荷をかけずに、特定のアーキテクチャの弱点と強みを把握できるため、アルゴリズムをすばやく比較するための機械学習研究で最も人気のあるデータセットの 1 つでもあります。

10 種類のカテゴリから 60,000 枚の 32×32 ピクセルのカラー画像が含まれています。これらのクラスは、飛行機、車、鳥、猫、鹿、犬、カエル、馬、船、トラックを表します。

3. MegaFaceとLFW（顔認識）

Labeled Faces in the Wild (LFW) は、制約のない顔認識の問題を研究するために設計された顔写真データベースです。ウェブからクロールされ検出された 5,749 人の人物の画像 13,233 枚が含まれています。追加の課題として、機械学習の研究者は、データセット内に 2 枚以上の異なる写真がある 1,680 人の人物の画像にアクセスしました。したがって、これは顔認証の一般的なベンチマークであり、ペアワイズマッチング（同一人物の画像が少なくとも 2 つ必要）としても知られています。

MegaFace は、大規模なオープンソースの顔認識トレーニングデータセットであり、商用の顔認識問題に対する最も重要なベンチマークの 1 つです。 672,057 人の 4,753,320 個の顔が含まれており、大規模なディープラーニングアーキテクチャのトレーニングに最適です。すべての画像は Flickr (Yahoo のデータセット) から取得したもので、コモンズライセンスに基づいてライセンスされています。

4.IMDB-Wiki（性別と年齢の識別）

これは、トレーニング用の性別と年齢のラベルが付いた顔画像の最大のオープンソースデータセットの 1 つです。このデータセットには合計 523,051 枚の顔画像が含まれており、そのうち 460,723 枚の顔画像は IMDB の 20,284 人の著名人と Wikipedia の 62,328 人の著名人のものです。

5. MSCoco（オブジェクトの検出とセグメンテーション）

Common Objects in CONtext (COCO) は、大規模なオブジェクト検出、セグメンテーション、キャプション作成データセットです。このデータセットには、簡単に識別できる 91 種類のオブジェクトの写真が含まれており、328,000 枚の画像に合計 250 万のラベル付きインスタンスが含まれています。さらに、マルチオブジェクトのラベル付け、セグメンテーションマスクの注釈付け、画像のキャプション付け、キーポイントの検出など、より複雑なコンピュータービジョンタスクのためのリソースも提供します。 COCO での注釈の読み込み、解析、視覚化に役立つ直感的な API によって十分にサポートされています。 API は複数の注釈形式をサポートしています。

6.MPII 人間の姿勢（姿勢推定）

このデータセットは、人間の関節ポーズ推定を評価するために使用されます。これには、体の関節に注釈が付けられた、40,000 人以上の人物の約 25,000 枚の画像が含まれています。ここでは、各画像は YouTube ビデオから抽出され、前のフレームと次のフレームの注釈なしフレームが提供されます。合計で、データセットは 410 件の人間の活動をカバーしており、各画像には活動ラベルが付けられています。

7. Flickr-30k (画像キャプション)

これは、31,783 枚の画像を説明する 158,915 個のクラウドソーシングされたキャプションで構成された画像キャプションコーパスです。これは以前の Flickr 8k データセットの拡張です。新しい画像とキャプションは、日常の活動やイベントに関わる人物に焦点を当てています。

8.20BN-SOMETHING-SOMETHING（人間の行動のビデオクリップ）

このデータセットは、日常の物体に対して人間が事前に定義された基本的な動作を実行している様子を示す、高密度にラベル付けされたビデオクリップの大規模なコレクションです。大規模な作業者グループによって作成されたこの技術により、機械学習モデルは物理世界で発生する基本的な動作を詳細に理解できるようになります。

以下は、このデータセットでキャプチャされた一般的な人間の活動のサブセットです。

9. Barkley DeepDrive（自動運転車のトレーニング用）

カリフォルニア大学バークレー校の Berkeley DeepDrive データセットには、オブジェクトの境界ボックス、走行可能エリア、画像レベルのラベル付け、車線標示、フルフレームのインスタンスのセグメンテーションなど、さまざまな注釈が付いた 100,000 を超えるビデオシーケンスが含まれています。さらに、データセットはさまざまな地理的、環境的、気象的条件を表現する点で多様性に富んでいます。

これは、道路や運転状況の変化によって自動運転システムが混乱しないように、自動運転車用の強力なモデルをトレーニングするのに役立ちます。

データセットに適したハードウェアとベンチマーク

言うまでもなく、これらのデータセットを単に持っているだけでは、高品質の機械学習システムやビジネスソリューションを構築するには不十分です。学術的または商業的な問題に対する最善のソリューションを得るには、データセット、トレーニングハードウェア、巧みなチューニングおよびベンチマーク戦略の適切な選択が必要です。

このため、必要なパフォーマンスを提供するために、これらのデータセットには高性能 GPU がほぼ常に組み合わせて使用されます。

GPU は、数千個の小さなプロセッサを使用して大規模な並列コンピューティングを実行するために (主にビデオゲーム業界向けに) 開発されました。また、ニューラルネットワークを集中的にトレーニングする場合により多くの計算を必要とする高速データストリーム (処理ユニットが低速のメインメモリにキャッシュし、その逆も行う) を処理するための大きなメモリ帯域幅も備えています。これにより、コンピュータービジョンタスクの計算負荷を処理するための理想的なハードウェアになります。

ただし、市場には多くの GPU が存在し、この点に関して潜在的なユーザーを導くための優れたベンチマーク戦略がすでに市場に存在しています。優れたベンチマークでは、ディープニューラルネットワーク (DNN) アーキテクチャ、GPU、広く使用されているデータセットなど、複数のタイプを考慮する必要があります。

たとえば、優れた記事では次の点を考慮します。

アーキテクチャ: ResNet-152、ResNet-101、ResNet-50、および ResNet-18。
GPU: EVGA RTX2080ti、Gigabyte RTX2080ti、NVIDIA TITAN RTX。
データセット: ImageNet、CIFAR-100、CIFAR-10。

さらに、適切なベンチマークを取得するには、パフォーマンスの複数の側面を考慮する必要があります。

考慮すべき GPU パフォーマンスには、主に 3 つの側面があります。

（１）第２バッチ時間：第２バッチのトレーニングを完了するのにかかる時間。この数値は、以前のパフォーマンスを向上させるために GPU が実行されていた時間を測定します。 GPU の熱スロットリングは考慮されません。

（２）平均バッチ処理時間：ImageNetでは1エポック後、CIFARでは15エポック後の平均バッチ処理時間。 GPU の熱スロットリングが考慮されます。

（３）同期平均バッチ処理時間：すべてのGPUを同時に実行し、ImageNetでは1エポック後、CIFARでは15エポック後の平均バッチ処理時間。これは、システム内で熱スロットリング効果を引き起こすすべての GPU から放出される熱を測定します。

コンピュータービジョンモデルに最適なオープンソースデータセットはどれですか?

この論文では、コンピュータービジョンアプリケーションでますます人気が高まっている複雑なディープニューラルネットワーク (DNN) モデルをトレーニングするために、高品質でノイズのない大規模なデータセットを取得する必要性について説明します。

また、画像分類、姿勢推定、画像キャプション作成、自動運転、オブジェクトセグメンテーションなど、さまざまな種類のコンピュータービジョンタスクに広く使用されている複数のオープンソースデータセットの例も示されています。

最後に、これらのデータセットを適切なハードウェアおよびベンチマーク戦略と組み合わせ、商業および研究開発の両方のコンテキストで最適に使用する必要性について説明します。

原題: Open Source Datasets for Computer Vision、著者: Kevin Vu

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: テクノロジーの到来: 人工知能が家具デザインに与える影響

>>: スマートドライビングが誕生してから10年経った今、なぜ理想的なビジネスモデルの実現が難しいのでしょうか?

コンピュータビジョンのための 9 つのオープンソースデータセット

[[420140]]