コンピューター ビジョンは、ほぼすべての産業分野で進歩を加速させています。 コンピューター ビジョン テクノロジーの助けを借りて、組織は機械のこれまでの動作方法に革命を起こしています。 コンピュータービジョンは現在、ヘルスケアや自動運転などの分野で世界中で大規模なテクノロジーに活用されています。コンピューター ビジョン用の強力なディープラーニング モデルを構築するには、トレーニング フェーズで高品質のデータセットを適用する必要があります。 この記事では、コンピューター ビジョン プロジェクトに使用できる 10 個の高品質データセットを紹介します。 1 | CIFAR-10 CIFAR-10 は、Alex Krizhevsky、Vinod Nair、Geoffrey Hinton によって収集された人気のコンピューター ビジョン データセットです。 このデータセットはオブジェクト認識用で、10 のカテゴリに分かれた 60,000 枚の 32×32 カラー画像 (カテゴリごとに 6,000 枚の画像) で構成されています。 これは 5 つのトレーニング バッチと 1 つのテスト バッチに分かれており、各バッチには 10,000 枚の画像が含まれます。つまり、トレーニング画像が 50,000 枚、テスト画像が 10,000 枚あることになります。 2 | 都市の風景 Cityscapes は、Computer Vision プロジェクトのオープンソースの大規模データセットで、50 の異なる都市の街路風景で記録されたさまざまなステレオ ビデオ シーケンスが含まれています。これには、5,000 フレームの高品質なピクセルレベルの注釈と、20,000 の弱い注釈付きフレームのより大きなセットが含まれています。 このデータセットは主に、ディープ ニューラル ネットワークをトレーニングし、都市のシーンの意味的理解という主なタスクにおけるビジョン アルゴリズムのパフォーマンスを評価するために使用されます。 ファッションMNIST Fashion-MNIST は、60,000 個のサンプルのトレーニング セットと 10,000 個のサンプルのテスト セットを含む、コンピューター ビジョン用の画像データセットです。 このデータセットでは、各例は 10 クラスのラベルに関連付けられた 28×28 のグレースケール画像です。 さまざまなパラメータを持つ 129 個の分類器をカバーする、Scikit-learn に基づく自動ベンチマーク システムがあります。 イメージネット ImageNet は、コンピューター ビジョン プロジェクトで最も人気のあるデータセットの 1 つであり、WordNet 階層に従って整理された画像のアクセス可能なデータベースを提供します。 WordNet には 100,000 を超える synset があり、ImageNet は WordNet の各 synset を説明するために平均 1,000 枚の画像を提供しています。 WordNet 階層のほとんどの概念について、数千万のきれいに分類された画像を提供します。 5| IMDB-Wiki データセット IMDB-Wiki データセットは、性別と年齢のラベルでトレーニングされた最大規模のオープン顔画像データセットの 1 つです。このデータセットには合計 523,051 枚の顔画像が含まれており、そのうち 460,723 枚の顔画像は IMDB の 20,284 人の著名人と Wikipedia の 62,328 人の著名人から取得されました。 6 | キネティクス-700 Kinetics-700 は、さまざまな人間中心のアクションを含む YouTube 動画 URL の大規模で高品質なデータセットです。 このデータセットには、700 の人間の動作クラスをカバーする約 650,000 のビデオ クリップが含まれており、各動作クラスには少なくとも 600 のビデオ クリップが含まれています。 ここでは、各クリップは約 10 秒間続き、カテゴリでラベル付けされています。 7 | MSココ COCO または Common Objects in COntext は、大規模なオブジェクト検出、セグメンテーション、キャプション作成データセットです。 このデータセットには、簡単に識別できる 91 種類のオブジェクトの写真が含まれており、328,000 枚の画像に合計 250 万のラベル付きインスタンスがあります。 8| MPII 人間のポーズデータセット MPII Human Pose データセットは、関節のある人間のポーズの推定を評価するために使用されます。 このデータセットには、体の関節が注釈付けされた 40,000 人以上の人物の画像約 25,000 枚が含まれています。 ここでは、各画像は YouTube ビデオから抽出され、前のラベルなしフレームの注釈付きバージョンが添付されています。 全体として、データセットは 410 の人間の活動をカバーしており、各画像には活動のラベルが付けられています。 9| 画像を開く この Open Images データセットは、オブジェクトの位置注釈が付いた既存のデータセットの中で最大規模のものの 1 つです。 これは、画像レベルのラベル、オブジェクトの境界ボックス、オブジェクトのセグメンテーション マスク、および視覚的な関係を含む約 900 万枚の画像で構成されています。 このデータセットには、190 万枚の画像上の 600 個のオブジェクト カテゴリに対する 1,600 万個の境界ボックスが含まれています。 10| 200億何かデータセット V2 20BN-Something-Something データセットは、日常の物体に対して人間が事前に定義された基本的な動作を実行している様子を示す、高密度にラベル付けされたビデオ クリップの大規模なコレクションです。 これは大規模なクラウドワーカーによって作成され、ML モデルが物理世界で発生する基本的なアクションをより詳細に理解できるようにします。 ビデオの総数は 220,847 で、そのうち 168,913 がトレーニング セット、24,777 が検証セット、27,157 がテスト セットです。 Model Playは、世界中の開発者向けのAIモデルリソースプラットフォームです。多様なAIモデルを内蔵し、Titanium AIX(コンピュータービジョンとインテリジェント音声インタラクションの2つのコア機能を統合した人工知能ハードウェア)と組み合わせ、Googleのオープンソースニューラルネットワークアーキテクチャとアルゴリズムに基づいて自律的な転移学習機能を構築します。コードを書く必要はありません。画像を選択し、モデルとカテゴリ名を定義するだけで、AIモデルのトレーニングが完了します。 |
<<: 2019年に「AI+教育」分野で大手企業は何をしたのでしょうか?
機械学習の手法を使用して問題を解決する場合、適切なデータを持つことが重要です。残念ながら、生データは...
本日の講演は、アリババCIOアカデミーが開催した人工知能(AI)技術に関する特別研修コースのために賈...
現在、国内RPA市場の競争は激化しており、多くのメーカーが独自のRPA製品やブランドを立ち上げていま...
今最もホットな分野といえば、間違いなく「人工知能」でしょう。給与面でも人材ギャップの面でも、この分野...
最近、ガートナーは、生成型人工知能 (GenAI) を新興技術の誇大宣伝サイクルにおける「過大な期待...
人工知能とロボット工学はテクノロジー分野に大きな変化をもたらしています。 20年前に人々が夢見ていた...
概要グラフィカル モデルは通常、問題自体に複数の相互に関連する変数があるシナリオで使用され、これらの...
清華大学の自動化部門チームは、北京総合人工知能研究所と協力して、複数の AI エージェントにボードゲ...
先ほど、Google Brainのシニア研究科学者であるBarret Zoph氏が、言語モデルのパラ...
本日、Google TensorFlow は、ニューラル グラフ学習手法を使用してグラフと構造化デー...
「ダブル11」は10年以上前から存在しており、大半の「買い物中毒者」は巨大プラットフォームでの数千億...
[[346344]] 「人類の技術発展の歴史を振り返ると、機械化、電化、情報化の時代を経験し、生産や...
1 月 10 日、マイクロソフトとパシフィック・ノースウエスト国立研究所 (PNNL) は AI の...
北京時間12月6日、海外メディアの報道によると、克服すべき障害はまだ多くあるものの、自動運転車の技術...
パスワードを隠すためにまだモザイクを使用していますか? 「見透かされる」ことには注意してください。ピ...