コンピュータビジョンのための 9 つのオープンソース データセット

コンピュータビジョンのための 9 つのオープンソース データセット

[[420140]]

[51CTO.com クイック翻訳]オープンソースデータセットを使用してトレーニングされたコンピュータビジョンモデル

コンピューター ビジョン (CV) は、人工知能 (AI) と機械学習 (ML) の分野で最も興味深いサブフィールドの 1 つです。これは多くの AI および機械学習パイプラインの主要コンポーネントであり、業界を変革し、組織が機械やビジネス システムの動作方法を完全に変えることを可能にします。

学術的に言えば、コンピューター ビジョンは数十年にわたってコンピューター サイエンスの成熟した分野であり、長年にわたり、この分野をより洗練されたものにするために多くの研究が行われてきました。しかし、最近ではディープニューラルネットワークの使用がこの分野に革命をもたらし、急速な成長に新たな推進力を与えています。

コンピューター ビジョンには、次のようなさまざまな応用分野があります。

  • 自動運転。
  • 医療画像の分析と診断。
  • シーンの検出と理解。
  • 画像のキャプションを自動的に生成します。
  • ソーシャルメディアでの写真/顔のタグ付け。
  • 家族の安全。
  • 製造および品質管理における欠陥の特定。

この記事では、コンピューター ビジョン タスクを実行する高度な機械学習システムをトレーニングするためにディープラーニングの分野で使用されている、最も人気があり効果的なデータセットのいくつかについて説明します。

適切なオープンソースデータセットを選択する方法

画像ファイルやビデオファイルでマシンをトレーニングすることは、非常に複雑でデータ集約的な操作です。単一の画像ファイルは、多次元、数メガバイトのデジタルエンティティであり、「インテリジェント画像分析」ミッションの全体的なシナリオにおける「洞察」のほんの一部しか含まれていません。

対照的に、同様のサイズの小売販売データ テーブルは、同じコンピューティング ハードウェア上の機械学習アルゴリズムに、はるかに多くの洞察を提供できます。この事実は、最新のコンピューター ビジョン パイプラインに必要なデータとコンピューティングの規模について話すときに念頭に置くことが重要です。

したがって、ほとんどの場合、コンピューター ビジョン タスク用の高品質の機械学習モデルをトレーニングするには、数百または数千枚の画像だけでは不十分です。ほぼすべての最新のコンピューター ビジョン システムは、慎重に選択されたトレーニング サンプル (ラベル付けされた画像など) が十分な数提供されない場合、適合不足に悩まされる複雑なディープラーニング モデル アーキテクチャを使用しています。その結果、堅牢で一般化可能、かつ実稼働品質のディープラーニング システムでは通常、トレーニング用に慎重にキュレーションされた数百万枚の画像が必要になるというのが一般的な傾向になりつつあります。

さらに、ビデオ分析の場合、多数のビデオ ストリームから取得されたビデオ ファイルまたはフレームの動的な性質を考慮すると、トレーニング データセットを選択してコンパイルするタスクはさらに複雑になる可能性があります。

この記事では、最も人気のある写真(静止画像とビデオクリップで構成)をいくつか紹介します。

コンピュータービジョンモデル用の人気のオープンソースデータセット

すべてのデータセットがさまざまなコンピューター ビジョン タスクに等しく適しているわけではありません。一般的なタスクには次のようなものがあります。

  • 画像分類。
  • 物体検出。
  • オブジェクトのセグメンテーション。
  • 複数オブジェクトの注釈。
  • 画像のキャプション。
  • 人間の姿勢の推定。
  • ビデオフレーム分析。

ほとんどのカテゴリをカバーする人気のオープンソースデータセットを以下に紹介します。

1. ImageNet(最も有名)

ImageNet は、世界中の研究者が簡単にアクセスできる画像データベースを提供するための継続的な研究活動です。これはおそらく世界で最も有名な画像データセットであり、研究者や学習者からはゴールドスタンダードとして引用されています。

このプロジェクトは、画像および視覚研究の分野におけるニーズの高まり、つまりより多くのデータの必要性に触発されて生まれました。 WordNet 階層に従って編成されています。 WordNet 内の意味のある各概念は、複数の単語またはフレーズで記述される可能性があり、これらは「synset」と呼ばれます。 WordNet には 100,000 を超える synset があります。同様に、ImageNet は各シンセットを説明するために平均 1000 枚の画像を提供することを目指しています。

ImageNet Large Scale Visual Recognition Challenge (ILSVRC) は、大規模な物体検出と画像分類のためのアルゴリズム (大学や企業の研究グループのチームによって提出されたもの) を評価する、毎年開催される世界的なコンテストです。主な動機の 1 つは、研究者が、かなり高価なラベル付け作業を活用して、より広範囲のオブジェクトの検出の進捗状況を比較できるようにすることです。もう 1 つの動機は、検索と注釈付けのための大規模な画像インデックス作成におけるコンピューター ビジョンの進歩を測定することです。これは機械学習の分野で最も注目される年次コンテストの一つです。

2. CIFAR-10(初級)

これは、コンピューター ビジョン分野の初心者が機械学習やコンピューター ビジョン アルゴリズムをトレーニングするためによく使用する画像のコレクションです。また、トレーニングやハイパーパラメータ調整のプロセスに過度の計算負荷をかけずに、特定のアーキテクチャの弱点と強みを把握できるため、アルゴリズムをすばやく比較するための機械学習研究で最も人気のあるデータセットの 1 つでもあります。

10 種類のカテゴリから 60,000 枚の 32×32 ピクセルのカラー画像が含まれています。これらのクラスは、飛行機、車、鳥、猫、鹿、犬、カエル、馬、船、トラックを表します。

3. MegaFaceとLFW(顔認識)

Labeled Faces in the Wild (LFW) は、制約のない顔認識の問題を研究するために設計された顔写真データベースです。ウェブからクロールされ検出された 5,749 人の人物の画像 13,233 枚が含まれています。追加の課題として、機械学習の研究者は、データセット内に 2 枚以上の異なる写真がある 1,680 人の人物の画像にアクセスしました。したがって、これは顔認証の一般的なベンチマークであり、ペアワイズマッチング(同一人物の画像が少なくとも 2 つ必要)としても知られています。

MegaFace は、大規模なオープンソースの顔認識トレーニング データセットであり、商用の顔認識問題に対する最も重要なベンチマークの 1 つです。 672,057 人の 4,753,320 個の顔が含まれており、大規模なディープラーニング アーキテクチャのトレーニングに最適です。すべての画像は Flickr (Yahoo のデータセット) から取得したもので、コモンズ ライセンスに基づいてライセンスされています。

4.IMDB-Wiki(性別と年齢の識別)

これは、トレーニング用の性別と年齢のラベルが付いた顔画像の最大のオープンソース データセットの 1 つです。このデータセットには合計 523,051 枚の顔画像が含まれており、そのうち 460,723 枚の顔画像は IMDB の 20,284 人の著名人と Wikipedia の 62,328 人の著名人のものです。

5. MSCoco(オブジェクトの検出とセグメンテーション)

Common Objects in CONtext (COCO) は、大規模なオブジェクト検出、セグメンテーション、キャプション作成データセットです。このデータセットには、簡単に識別できる 91 種類のオブジェクトの写真が含まれており、328,000 枚の画像に合計 250 万のラベル付きインスタンスが含まれています。さらに、マルチオブジェクトのラベル付け、セグメンテーション マスクの注釈付け、画像のキャプション付け、キーポイントの検出など、より複雑なコンピューター ビジョン タスクのためのリソースも提供します。 COCO での注釈の読み込み、解析、視覚化に役立つ直感的な API によって十分にサポートされています。 API は複数の注釈形式をサポートしています。

6.MPII 人間の姿勢(姿勢推定)

このデータセットは、人間の関節ポーズ推定を評価するために使用されます。これには、体の関節に注釈が付けられた、40,000 人以上の人物の約 25,000 枚の画像が含まれています。ここでは、各画像は YouTube ビデオから抽出され、前のフレームと次のフレームの注釈なしフレームが提供されます。合計で、データセットは 410 件の人間の活動をカバーしており、各画像には活動ラベルが付けられています。

7. Flickr-30k (画像キャプション)

これは、31,783 枚の画像を説明する 158,915 個のクラウドソーシングされたキャプションで構成された画像キャプション コーパスです。これは以前の Flickr 8k データセットの拡張です。新しい画像とキャプションは、日常の活動やイベントに関わる人物に焦点を当てています。

8.20BN-SOMETHING-SOMETHING(人間の行動のビデオクリップ)

このデータセットは、日常の物体に対して人間が事前に定義された基本的な動作を実行している様子を示す、高密度にラベル付けされたビデオ クリップの大規模なコレクションです。大規模な作業者グループによって作成されたこの技術により、機械学習モデルは物理世界で発生する基本的な動作を詳細に理解できるようになります。

以下は、このデータセットでキャプチャされた一般的な人間の活動のサブセットです。

9. Barkley DeepDrive(自動運転車のトレーニング用)

カリフォルニア大学バークレー校の Berkeley DeepDrive データセットには、オブジェクトの境界ボックス、走行可能エリア、画像レベルのラベル付け、車線標示、フルフレームのインスタンスのセグメンテーションなど、さまざまな注釈が付いた 100,000 を超えるビデオ シーケンスが含まれています。さらに、データセットはさまざまな地理的、環境的、気象的条件を表現する点で多様性に富んでいます。

これは、道路や運転状況の変化によって自動運転システムが混乱しないように、自動運転車用の強力なモデルをトレーニングするのに役立ちます。

データセットに適したハードウェアとベンチマーク

言うまでもなく、これらのデータセットを単に持っているだけでは、高品質の機械学習システムやビジネス ソリューションを構築するには不十分です。学術的または商業的な問題に対する最善のソリューションを得るには、データセット、トレーニング ハードウェア、巧みなチューニングおよびベンチマーク戦略の適切な選択が必要です。

このため、必要なパフォーマンスを提供するために、これらのデータセットには高性能 GPU がほぼ常に組み合わせて使用​​されます。

GPU は、数千個の小さなプロセッサを使用して大規模な並列コンピューティングを実行するために (主にビデオ ゲーム業界向けに) 開発されました。また、ニューラル ネットワークを集中的にトレーニングする場合により多くの計算を必要とする高速データ ストリーム (処理ユニットが低速のメイン メモリにキャッシュし、その逆も行う) を処理するための大きなメモリ帯域幅も備えています。これにより、コンピューター ビジョン タスクの計算負荷を処理するための理想的なハードウェアになります。

ただし、市場には多くの GPU が存在し、この点に関して潜在的なユーザーを導くための優れたベンチマーク戦略がすでに市場に存在しています。優れたベンチマークでは、ディープ ニューラル ネットワーク (DNN) アーキテクチャ、GPU、広く使用されているデータセットなど、複数のタイプを考慮する必要があります。

たとえば、優れた記事では次の点を考慮します。

  • アーキテクチャ: ResNet-152、ResNet-101、ResNet-50、および ResNet-18。
  • GPU: EVGA RTX2080ti、Gigabyte RTX2080ti、NVIDIA TITAN RTX。
  • データセット: ImageNet、CIFAR-100、CIFAR-10。

さらに、適切なベンチマークを取得するには、パフォーマンスの複数の側面を考慮する必要があります。

考慮すべき GPU パフォーマンスには、主に 3 つの側面があります。

(1)第2バッチ時間:第2バッチのトレーニングを完了するのにかかる時間。この数値は、以前のパフォーマンスを向上させるために GPU が実行されていた時間を測定します。 GPU の熱スロットリングは考慮されません。

(2)平均バッチ処理時間:ImageNetでは1エポック後、CIFARでは15エポック後の平均バッチ処理時間。 GPU の熱スロットリングが考慮されます。

(3)同期平均バッチ処理時間:すべてのGPUを同時に実行し、ImageNetでは1エポック後、CIFARでは15エポック後の平均バッチ処理時間。これは、システム内で熱スロットリング効果を引き起こすすべての GPU から放出される熱を測定​​します。

コンピューター ビジョン モデルに最適なオープン ソース データセットはどれですか?

この論文では、コンピューター ビジョン アプリケーションでますます人気が高まっている複雑なディープ ニューラル ネットワーク (DNN) モデルをトレーニングするために、高品質でノイズのない大規模なデータセットを取得する必要性について説明します。

また、画像分類、姿勢推定、画像キャプション作成、自動運転、オブジェクトセグメンテーションなど、さまざまな種類のコンピュータービジョンタスクに広く使用されている複数のオープンソースデータセットの例も示されています。

最後に、これらのデータセットを適切なハードウェアおよびベンチマーク戦略と組み合わせ、商業および研究開発の両方のコンテキストで最適に使用する必要性について説明します。

原題: Open Source Datasets for Computer Vision、著者: Kevin Vu

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  テクノロジーの到来: 人工知能が家具​​デザインに与える影響

>>:  スマートドライビングが誕生してから10年経った今、なぜ理想的なビジネスモデルの実現が難しいのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

ガベージ コレクション アルゴリズムと JVM ガベージ コレクターの概要

[[199042]]ガベージ コレクション アルゴリズムと JVM ガベージ コレクターの概要は、著...

KreadoAIのアップグレード版がオンラインになり、AIGC戦略の展開が加速しました

最近、Yidiantianxiaの最初のAIGC製品であるKreadoAIは、SHOPLINEとAm...

機械学習の7つの大罪

機械学習実験の信頼性を損なう7つのよくある間違い[[328516]]機械学習は私たちの世界を変える素...

データの品質は機械学習を成功させる鍵です

翻訳者 | 張毅校正 | 梁哲、孫淑娟出典: frimufilms が作成したビジネス写真 - ww...

ディープフェイクに取って代わると期待されていますか?今年最も注目されているNeRFテクノロジーの秘密を解き明かす

え、まだNeRFを知らないの? NeRF は、今年コンピューター ビジョン分野で最も注目されている ...

phind: 開発者に特化したAI検索エンジンの誕生!

みなさんこんにちは、三元です。前回の記事では、AIを使いこなせない人は本当に将来淘汰されていくのか?...

中国の自動運転分類の国家基準が正式に発表され、来年3月に施行される予定

自動車の電動化や知能化が進む中、自動運転は人々の日常生活にますます近づきつつあります。現在、市場に出...

...

...

AIが人々の恋愛探しをどうサポートするか

過去10年間で、多数のカップルがオンラインで出会いました。出会い系アプリを使って恋人を見つけることは...

...

「顔スキャン」のリスクについてどれくらい知っていますか?

情報化の急速な発展に伴い、顔認証や指紋認証などの技術が徐々に普及しつつあります。技術の進歩によっても...

月給5万ドルでこのホットなAI分野をマスターするには、これらの9冊の本を読むだけで十分です

はじめに:国内の求人検索サイトのデータによると、2019年現在、上海の自然言語処理(NLP)関連職種...

...

...