執筆者 | Qingzhu 制作:51CTO テクノロジースタック(WeChat ID:blog) ビッグモデルの波が押し寄せるにつれ、茶番劇は避けられなくなる。 まず、ByteDanceがOpenAIに禁止された「羅生門事件」があり、その後Google Geminiが中国語のトレーニングにBaidu Wenxin Yiyanを使用していたことが明らかになり、ネットユーザーを驚かせました。今回、この大規模モデルはデータセットで再び失敗しました。 スタンフォード大学は最近、オープンソースのモデルトレーニングデータセット LAION-5B に関する調査を実施し、データセットには、安定拡散モデルなどの一般的な AI テキスト画像生成モデルのトレーニングに使用される、既知の児童性的虐待資料 (CSAM) 画像が数百枚含まれていることを発見しました。 ここで言及した、LAION-5B を使用して独自のモデルをトレーニングしている企業には、人気の Stability AI や Google などがあります。 この事件が明らかになるとすぐに、Stability AI はすぐにこの件から距離を置いた。「Stable Diffusion モデルは LAION-5B を使用してトレーニングされましたが、トレーニング セットの選別および微調整されたバージョンを使用したため、モデルの出力結果には影響しません。」 Google はまた、Imagen モデルの反復では LAION データセットを使用していないとも述べた。 1. 大規模モデルのオープンソースデータセットの崩壊スタンフォード・インターネット・オブザーバトリーの最近の報告によると、Stable DiffusionやGoogleのImagenなど、人気のAIテキスト画像生成ツールのトレーニングに使用されている大規模なオープンソースAIデータセットであるLAION-5Bには、少なくとも1,008件の児童性的虐待資料が含まれていることがわかった。 報告書によると、2022年3月に公開されたLAION-5Bデータセットには、インターネットからの50億枚以上の画像と関連キャプションが含まれており、児童性的虐待の疑いのある資料(CSAM)が数千件含まれている可能性もある。報告書は、データセット内のCSAM資料により、そのデータに基づいて構築されたAI製品が新たな、そして本物である可能性のある児童虐待コンテンツを出力する可能性があると警告している。 3か月前、研究者たちはLAIONデータセットを徹底的に調べ、画像のハッシュ、つまり識別子を見て、児童性的虐待素材(CSAM)がどれだけ存在するかを調査することに着手した。調査の結果、データセットにはソーシャルメディアの投稿や人気のアダルトサイトから収集された少なくとも1,679枚の違法画像など、さまざまなソースから収集されたCSAMが含まれていたことが判明した。 研究者らは、問題のある画像のURLを国立行方不明・被搾取児童センター(NCMEC)とカナダ児童保護センター(C3P)に報告した。これらの機関は主にPhotoDNAなどのハッシュツールを使って検出を行い、画像の指紋をデータベースと照合します。 研究者らは虐待コンテンツは確認しておらず、一致したコンテンツは国立被搾取児童センター(NCMEC)に報告され、必要に応じてカナダ児童保護センターによって検証されると述べた。 2. LAION: データセットは問題ありませんが、検索方法に問題がありますこの事件を受けて、LAIONはメディアに対し、「厳重な注意」から「再公開する前に安全であることを確認するため」データセットを一時的に削除したと回答した。 LAION の Web サイトによると、そのデータセットは画像リポジトリを維持していません。データセットは主にインターネットのインデックス作成から得られたもので、クロールされた画像や代替テキストへのリンクが含まれています。 LAION の公式 Web サイトの FAQ を見ると、LAION がデータセットのセキュリティとコンプライアンスにあまり自信を持っていないことは明らかです。 たとえば、「LAION データセットには、視聴者に不快感を与える可能性のある画像が含まれていますか?」という質問に対して、LAION は明確に「いいえ」と答えました。しかしその後、同社はユーザーの責任をこう主張した。「しかし、データセット内のリンクは、使用されるフィルターや検索方法によっては、不快な画像や不快な画像につながる可能性がある。」 写真 この「データセットロールオーバー」事件の被害者の1社であるStability AIは、モデルのトレーニングにLAION-5Bを使用したものの、データのセキュリティを確保するためにデータセットを微調整したことを明らかにした。 Google もすぐに線引きをしました。Imagen の最初のバージョンは研究目的にのみ使用され、LAION-5B の古いバージョン (LAION-400M) でトレーニングされ、その後の反復では LAION データセットは使用されませんでした。しかし、この反応はすぐに「打ちのめされた」。スタンフォード大学の報告書は、Imagen の開発者が 400M に「ポルノ画像、人種差別的中傷、有害な社会的固定観念など、さまざまな不適切なコンテンツ」が含まれていることを発見したと指摘した。 実際、Google も LAION データセットがどのようなものであるかについては把握しています。 Imagen がリリースされた当初から、LAION-400M については次のような警告が出されていました。整理されていないネットワーク データに依存し、大規模モデルの社会的偏見や制限を統合しているため、一般の使用には適していません。 スタンフォード大学の研究者らは、CSAMの存在がデータセットでトレーニングされたモデルの出力に必ずしも影響を与えるわけではないが、モデルが画像から何かを学習する可能性は常にあると述べている。 同時に、研究者たちは、特に AI モデルから問題のあるコンテンツを完全に削除することは難しいと認めています。彼らは、LAION-5B でトレーニングされたモデルは非推奨とし、可能であれば配布を中止することを推奨しています。 3. 彼には犯罪歴があり、複数回LAION の画像データセットが攻撃されたのは今回が初めてではないと誰が考えたでしょうか。 認知科学者のアベバ・ビルハネ氏(現在はMozillaの人工知能の上級研究員)は、2021年10月という早い時期に、初期の画像データセットLAION-400Mを研究した論文を発表しました。調査の結果、データセットには「不快なほど露骨な画像とテキストの組み合わせ」が含まれていることが判明した。 さらに、LAION は 2 件の訴訟に関与しています。 2023年初頭、3人のアーティストがStability AIと他の2社に対して訴訟を起こし、これらの企業がLAION-5Bの著作権で保護された数百万枚の画像を使用して画像生成モデルをトレーニングしたと主張した。著名人の一人であるカーラ・オルティス氏も、演説の中でLAION-5Bデータセットを批判し、「LAION-5Bには、個人の医療記録、同意のないポルノ、子供の画像、さらにはソーシャルメディア上の私たちの本当の顔写真など、非常に憂慮すべき内容が含まれています」と述べた。 別の事件における訴訟原因も全く同じでした。ゲッティイメージズは、スタビリティーAIが自社の知的財産権を甚だしく侵害しているとして訴訟を起こした。 Getty Imagesは、Stability AIがLAION経由で1,200万枚の写真を許可なく取得し、Stable Diffusionのトレーニングに使用し、Getty Imagesの著作権と商標保護を侵害したと主張している。 4. AIトレーニングにおけるデータコンプライアンスの問題ビッグモデルの激しい美学、「偉大な力は奇跡を生み出す」は、データが多く、品質が高いほど、ビッグモデルの力が強くなると決定づけます。企業自体が蓄積したデータに加えて、オープンソース データ セットもビッグ モデルのデータ ソースの一部を構成します。さまざまなソースからの AI トレーニング データのコンプライアンスを確保するにはどうすればよいでしょうか?企業にとって難しい問題となっています。 人工知能技術の応用におけるデータコンプライアンスの問題には、主に以下の側面が含まれます。 1 つ目はデータプライバシーの保護です。個人または組織の機密情報は、機械学習モデルのトレーニングやデータ分析に使用される場合があります。そのため、データの暗号化、匿名化、アクセス制御など、データのプライバシーを保護するための対策を講じる必要があります。 2つ目は、データの信頼性と正確性です。モデルトレーニングの精度とパフォーマンスは、トレーニング データの品質に依存します。そのため、無駄なデータの削除、データの品質チェック、機密情報の削除、データのラベル付けなどの対策を講じ、データの信頼性と正確性を確保する必要があります。 3つ目はデータの所有権の問題です。医療記録や交通流データなど、多くのデータは複数の組織によって共有されています。そのため、データの不正利用や侵害を避けるためには、データの所有権や共有方法を明確にする必要があります。 最先端技術の開発プロセスにはいくつかの「小さなエピソード」が混じっている可能性がありますが、大規模な AI モデルの開発経路はこれらのエピソードに圧倒されるべきではなく、それらから何らかの反省を引き出す必要があります。事件自体に戻ると、オープンソースデータセットを提供する組織であれ、公開データセットを使用する企業であれ、業界の収益を守り、業界標準を遵守して、AIアプリケーションが着実に実装されるようにする必要があります。 参考リンク:https://venturebeat.com/ai/a-free-ai-image-dataset-removed-for-child-sex-abuse-images-has-come-under-fire-before/ https://www.theverge.com/2023/12/20/24009418/generative-ai-image-laion-csam-google-stability-stanford https://zhuanlan.zhihu.com/p/621678747 |
>>: トップエキスパートが語る: 生成型AIとロボット工学の未来
機械学習では、モデルをトレーニングするために大量のデータが必要であり、通常、このトレーニング データ...
機械学習モデルはますます洗練され、正確になってきていますが、その不透明性は依然として大きな課題となっ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
火災による被害は明らかですが、火災の予防と制御は容易ではありません。たとえば、森林火災は、その範囲が...
Google は、AI を使用して最適化された新世代の人工知能とインフラストラクチャの開発をリードす...
[[252833]]無人スーパーで買い物をすることに慣れている人なら、ある日のある瞬間、他のスーパ...
スタンフォード大学は最近、「人工知能指数(2018年グローバルAIレポート)」を発表しました。これは...
AI時代の陰の立役者として、チップ業界は徐々にかつ継続的な変化を遂げています。 2008 年以降、...
システムのスケーラビリティは、分散システムの調整、フェイルオーバー、リソース管理、その他多くの機能を...
ビッグデータダイジェスト制作ロシアとウクライナの紛争が始まると、カディロフ・ジュニアはチェチェンの首...
編集者注: サンスティーンは『インターネット共和国』でアルゴリズムが私たちの認知世界に影響を与えると...
最近、北京市南六環路の北京延尊物流園区付近の安坊線70号塔の下で、中飛Avi Dragon Nest...