機械学習とコンピュータービジョンのためのトップ 20 画像データセット

この記事は、公開アカウント「Reading the Core」（ID: AI_Discovery）から転載したものです。

コンピュータービジョンにより、コンピューターは画像やビデオの内容を理解できるようになり、人間の視覚システムと同じようにタスクを自動的に完了できるようになります。コンピュータービジョンのタスクには、画像の取得、処理、分析が含まれます。画像データには、ビデオシーケンス、マルチカメラ画像、医療用スキャナーからの多次元データなど、さまざまな形式があります。この記事では、機械学習のトレーニングに適したデータセットをいくつか紹介します。

[[376002]]

（1）Labelme：MITコンピュータ科学・人工知能研究所（CSAIL）が共同で作成した大規模なデータセット。187,240枚の画像、62,197枚の注釈付き画像、658,992個のラベル付きオブジェクトが含まれています。

（２）ImageNet：新しいアルゴリズムのための現実世界の画像データセット。WordNet階層に従って編成されており、階層内の各ノードは数百または数千の画像で記述されています。

（３）LSUN：シーン理解、多くの補助タスク（部屋のレイアウト推定、顕著性予測など）

（4）MS COCO：COCOは、20万枚以上のラベル付き画像を含む大規模な物体検出、セグメンテーション、キャプション作成データセットです。オブジェクトのセグメンテーション、コンテキストの認識などに使用できます。

（５）コロンビア大学画像ライブラリ：COIL100データセットには、360°で撮影された100種類のオブジェクトが含まれています。

（6）ビジュアルゲノム：構造化された画像概念と言語を結び付けることを目的としたデータセットおよび知識ベースです。このデータセットは、108,077 個の画像キャプションを含む詳細な視覚知識ベースです。

（7）レゴブロック：16種類のレゴブロックの画像約12,700枚がフォルダに整理され、Blenderを使用してコンピュータレンダリングされています。

（8）Google Open Images：クリエイティブ・コモンズで利用可能な、「6,000以上のカテゴリにわたるラベルが付けられた」900万枚の画像のURL。

Open Images データセットからの注釈付き画像。

左: Kevin Krejci による「Ghost Arch」。右: J B. の銀製品の一部。両方の画像は CC BY 2.0 ライセンスの下で使用されています。

（9）Youtube-8M：数百万のYouTube動画IDから構成される大規模なラベル付きデータセットで、3,800以上の視覚的エンティティの注釈が含まれています。

（10）Labelled Faces in the Wild：顔認識関連のアプリケーションの開発を目的とした、ラベル付けされた顔画像13,000枚が含まれています。

（11）スタンフォード犬のデータセット：20,580枚の画像と120種類の犬種が含まれており、カテゴリごとに約150枚の画像があります。

（12）場所：205のシーンカテゴリーとカテゴリーラベル付きの250万枚の画像を含むシーンベースのデータベース。

（13）CelebFaces：20万枚以上の有名人の画像が収録された顔データセット。各画像には40個の属性が付与されている。

CelebFacesデータセットのサンプル画像

（14）花：英国でよく見られる花の画像のデータセット。102の異なるカテゴリで構成されています。各花のカテゴリーは、さまざまなポーズと照明のバリエーションを持つ 40 ～ 258 枚の画像で構成されています。

（15）植物画像解析：100万枚以上の植物画像を収録したデータセットのコレクション。 11種類の植物からお選びいただけます。

（16）家庭内オブジェクト：主にキッチン、バスルーム、リビングルームからの家庭内のランダムなオブジェクトを含むデータセット。トレーニングデータセットとテストデータセットに分かれています。

（17）CIFAR-10：10のカテゴリーに分けられた60,000枚の32×32カラー画像からなる大規模な画像データセット。データセットは 5 つのトレーニングバッチと 1 つのテストバッチに分かれており、各バッチには 10,000 枚の画像が含まれています。

（18）CompCars：163の自動車ブランドと1,716のモデルが含まれています。各モデルには、最高速度、排気量、ドアの数、座席数、車種の5つの属性が付けられています。

（19）屋内シーン認識データセット：これは非常にユニークなデータセットです。ほとんどのシーン認識モデルは屋外でより優れたパフォーマンスを発揮するため、このデータセットは役立ちます。 67 の屋内カテゴリと合計 15,620 枚の画像が含まれています。

（20）VisualQA：VQAデータセットには、265,016枚の画像に関する自由回答形式の質問が含まれています。これらの質問には、視覚的理解と言語的理解の両方が必要です。各画像には少なくとも 3 つの質問があり、各質問には少なくとも 10 の回答があります。

<<: 「人工知能＋学習」は教育をより良くするのでしょうか？

>>: 2021年も人気が続く5種類のロボット

ブログ

機械学習とコンピュータービジョンのためのトップ 20 画像データセット

Twitterはボットアカウントのラベルをテスト中

語尾予測に基づく英語-ロシア語翻訳品質の向上方法

数百万の量子ビットを実現するにはどうすればよいでしょうか?量子コンピューティング企業がユニバーサル量子コンピューティングソリューションを拡大

ルカン氏は、今後10年間の研究計画に関する62ページの論文を発表した。AI自律知能

人間の脳に似た新しい注意メカニズムである Meta により、大規模なモデルはタスクに関係のない情報を自動的にブロックできるようになり、精度が 27% 向上します。

PaddlePaddleがAIの旗印を掲げ、国産のディープラーニングフレームワークが人気

自動で本を書いてくれるChatGPTプラグイン3つが人気に。何もしなくてもAI自身にお金を稼ぐ方法をもっと質問できる！

推薦する

調査：CIOはAIの実験や投資に依然として慎重

人工知能が中国の古典「古いドラマ」と「古い映画」に新たな表情を与える

TSMC、7nmチップの商業生産を開始

ビッグデータと人工知能のために生まれた新しい職業：アルゴリズム専門家

サイバーセキュリティのための AI: セキュリティ戦略への AI の組み込み

中国の顔認識技術が世界を震撼させている！（顔認証調査報告書を添付します）

室温超伝導を再現できない？北京航空航天大学は超伝導磁気浮上を発見できなかった論文を2本続けて発表したが、米国国立研究所の計算により理論的には存在することが確認された。

アフリカはパンデミックの最中に包括的な接続性を構築しており、明確な投資方針を持っている

人工知能にあなたのお金を管理させてみませんか?

モジュール式の機械学習システムで十分でしょうか?ベンジオの教師と生徒が答えを教えてくれます

規制がなければ、AIは金融危機を引き起こす可能性がある

不正使用を防ぐため、DJIはロシアとウクライナへの販売を停止すると発表した。