この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 今週、MIT は Tiny Images データセットを緊急に削除しました。 理由は簡単です。一部の学者は、多数の検索エンジンを通じて統合されたこのデータセットには、児童虐待、性的ほのめかし、人種差別など、多くの不快なラベルが実際に含まれていると指摘しています。 これらの画像のラベル (b***h、w**re) は非常に偏っていて非人道的です。 △統計によると、このようなタグを含む写真は数万枚あるこのようなラベルや画像を含むデータセットが AI のトレーニングに使用された場合、結果は悲惨なものとなるでしょう。 しかし、状況は不可逆的であるように思われます。このデータセットは主に小さな画像で構成されており、写真の数が膨大であるため、コンピューターのハードウェアがまだ開発されていなかった時代に AI トレーニングで広く使用され、arXiv で頻繁に引用されている論文となっています。 この件に関してRedditでは相反する意見が出ています。 一部のネットユーザーは、この件は少々誇張されていると考えている。結局のところ、インターネットを通じて収集されたこれらの画像やテキスト情報も現実世界の一部です。
しかし、拍手喝采する支持的なネットユーザーもいた。
こうした感情的な見解に加えて、多くの人々がこのデータセットの形成理由について合理的に考え始めています。 これはデータセットを作成した著者がそれを確認する時間がなかったためでしょうか?
すぐに一部のネットユーザーは、Tiny Images はこのカテゴリに該当しないとして、この見解を否定しました。
ネットユーザーがどのような意見を持っているかに関係なく、このデータセットが削除されたことは議論の余地のない事実です。 この研究では、Tiny Images よりも影響力のあるデータセットである ImageNet にも不快な画像が含まれていることが指摘されましたが、Tiny Images ほど多くはありませんでした。 一部の学者は、ImageNet には多くの管理者がいて画像分類が明確であるのに対し、Tiny Images はほとんど綿密に調査されたことがないと指摘しました。 Tiny Images データセットが長年にわたって手動でチェックされることがほとんどなかった理由は何ですか? この質問は、Tiny Images 自体の特性から始める必要があるかもしれません。 Tiny Imagesデータセットの特徴2006 年の開始以来、Tiny Images データセットには WordNet の 50,000 を超えるさまざまなタグが含まれています。 データセット内の画像は、タグを検索し、見つかった画像を自動的にダウンロードする検索エンジンから取得されます。 ソートされた画像の数は8,000 万に達し、それぞれが非常に低い解像度 (32×32) でデータセットに保存され、Tiny Images データセットの特徴である、膨大な数と小さな画像を形成しています。 しかし、画像の数が多いために、これらの不快な画像は深く隠されており、解像度が低いため、これらの画像を視覚的に識別することが困難になっています。 アプリが販売中止になったとき、MITは公式な説明を行った。 Tiny Images から不快な画像をすべて完全に削除できるとは保証できないため、Tiny Images をオフラインにしました。 同時に、Tiny Images データセットの既存のコピーがオンラインで流通されなくなることを願っています。 Tiny Images を削除する最も重要な理由は、非常に偏った不快なラベルが付けられたこれらの画像が、コンピューター ビジョン業界が達成しようとしている包括的かつ公平な価値観に反するからです。 それだけでなく、これらのラベルを使用してトレーニングされた AI モデルは、画像分類やターゲット検出中のターゲット認識にこれらの暗黙的な非人道的なラベルを使用する可能性があります。 AIが偏向する理由今回は、Tiny Images と ImageNet の両方が WordNet と呼ばれる語彙集のせいで失敗しました。 語彙は、単語の意味の強い関連性で知られています。さまざまな単語は、さまざまな単語の意味に応じてさまざまなセットにグループ化され、最終的に語彙ネットワークを形成します。 たとえば、WordNet は「ビキニ」、「ポルノ」、「売春婦」(蔑称)などの単語を関連付けており、検索エンジンで画像検索を実行すると、表示される画像は非常に偏ったものになります。 △「売春婦」タグの下の画像はビキニ姿の女性かもしれない必然的に、WordNet には軽蔑的または偏見のあるラベルが付いた画像が多数含まれます。これらの画像をトレーニングに使用するときにラベルがフィルタリングされていない場合、トレーニングされた AI はこれらのラベルを使用して「色眼鏡」をかけた人物を識別する可能性があります。 ImageNet は、その人気と優れた画像分類のおかげで、幸いにも適切に管理されています。対照的に、Tiny Images の軽蔑的なラベルが付いた画像の多くは、解像度が低いため認識が困難です。 これにより緊急停止に至りました。 しかし、一部のネットユーザーが述べているように、いずれにせよ、偏りのないデータセットを作成すること自体が、優れた AI トレーニングに不可欠な部分です。 現在、最新のデータ セットの多くも、さまざまな方法でこの「偏りのない」目標に近づくよう絶えず取り組んでいます。 Tiny Images著者紹介△ 著者 アントニオ・トラルバAntonio Torralba は MIT の准教授です。彼の主な研究分野はコンピューター ビジョンと機械学習です。Tiny Images は、彼と他の 2 人の著者が 8 か月かけてまとめたマイクロ画像のデータセットです。 |
<<: モデルもオンライン授業を受講できますか? !サービス指向の蒸留トレーニング プログラムを 1 つの記事で理解する
>>: AIは人間ではないため、米国特許庁はAIの発明の全てを認めない
高齢者間の「情報格差」解消を求める声は衰えず、高齢者はインターネットへのアクセスに対する新たな要求に...
AI と IoT の統合により、私たちの日常生活に新たな効率、自動化、インテリジェンスがもたらされ...
トランスフォーマーが再び挑戦!今回の挑戦者は有名な Google DeepMind 社で、同社は H...
大規模なデータセットを扱う場合、データ全体を一度にメモリにロードすることが非常に困難になることがあり...
機械学習今日、機械学習は、そのアルゴリズムの1つであるディープラーニングの優れたパフォーマンスを誇っ...
これは非公式の PyTorch ガイドですが、この記事では PyTorch フレームワークを使用した...
OpenAIとマスク氏は激しく議論していたが、誤ってClaude 3の新しいスキルを公開してしまった...
ご家族の皆さん、世界中で人気の魔法のダンス「Subject Three」、まさか兵馬俑も踊り始めると...
[[431855]]各ピクセルのサイズが 4 バイトである N × N 行列で表される画像が与えられ...
AIはここまでの発展を経て意識を獲得したのでしょうか?数日前、チューリング賞受賞者のベンジオ氏が参加...
AI革命が到来し、それは最良の時代になるかもしれないし、最悪の時代になるかもしれない。それが良いこと...
[[416810]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
[[264806]]新たな産業変革の中核的な原動力であり、将来の発展に関わる戦略的技術として、国は人...