オープンソースのデータセットは著作権侵害のため棚から削除されました。 例えば、LLaMA、GPT-J などがこれを使ってトレーニングされています。 現在、3年間これをホストしていたウェブサイトは、一夜にして関連コンテンツをすべて削除しました。 これは Books3 で、約 200,000 冊の本で構成され、サイズが約 37 GB のデータセットです。 写真 デンマークの著作権侵害対策団体は、データセットの中に会員所有の書籍150冊が見つかり、著作権侵害にあたるとして、プラットフォームにそれらの書籍を棚から削除するよう要請した。 現在、プラットフォーム上のBooks3 Webリンクは「404」に達しています。 データセットの元の開発者は、Books3 の削除はオープンソース コミュニティにとって悲劇であると無力感を表明しました。 Books3とは何ですか?Books3 は 2020 年にリリースされ、AI 開発者の Shawn Presser によってアップロードされ、Eleuther AI のオープンソース データセット Pile に含まれています。 海賊版サイト「Bibliotik」のすべての書籍を含む、合計 197,000 冊の書籍が含まれています。OpenAI のデータセットと比較できるように意図されていますが、主にオープンソースです。 これはBooks3という名前の由来でもあります—— GPT-3のリリース後、当局はトレーニングデータセットのコンテンツの15%が「Books1」と「Books2」という2つの電子書籍コーパスから取得されたことを明らかにしたが、具体的なコンテンツは明らかにされていない。 写真 オープンソースの Books3 は、より多くのプロジェクトに OpenAI と競争する機会を提供します。 たとえば、今年人気の LLaMA や Eleuther AI の GPT-J はすべて Books3 を使用しています。 書籍データは常に大規模モデルの事前トレーニングにおける中核的なコーパス資料であり、モデルが高品質の長いテキストを出力するための参照を提供できることを知っておく必要があります。 AI 大手が使用する書籍データセットの多くはオープンソースではなく、非常に謎めいています。例えば、Books 1/2 に関しては、情報の出所や規模は各方面からの推測がほとんどです。 したがって、オープンソースのデータセットは AI コミュニティにとって非常に重要です。 アクセスを容易にするために、Books3 は The Eye でホストされています。情報をアーカイブし、公開データを抽出できるプラットフォームです。 今回、アプリが販売中止になったのもプラットフォームのせいだった。 デンマークの著作権侵害対策団体「Rights Alliance」はThe Eyeに削除要請を提出し、承認された。 しかし、良いニュースとしては、Books3 は完全に消えたわけではなく、入手する方法はまだ他にもあるということです。 Wayback Machine でバックアップも入手可能です。また、Torrent クライアントからダウンロードすることもできます。 著者はTwitterでいくつかの方法を紹介しました。 写真 「Books3がなければ、独自のChatGPTを作成することはできません」実際、データセットの作成者は、この上場廃止事件について多くのことを語っています。 ChatGPTのようなモデルを作る唯一の方法はBooks3のようなデータセットを作成することだと彼は言いました。
作者の意見では、ChatGPT は 1990 年代の個人ウェブサイトのようなものです。誰でも作成できることが重要です。 しかし、Books3 のデータの大部分は海賊版ウェブサイトから来ているため、著者は将来誰かが Books3 よりも優れたデータセットを作成し、データの品質を向上させるだけでなく、書籍の著作権を尊重できるようになることを期待しているとも述べています。 写真 同様の状況がOpenAIでも発生しました。 1か月以上前、2人の専業著者が、OpenAIが彼らの著作を許可なく使用してChatGPTをトレーニングしたとして訴訟を起こした。 このようなことが起こった理由は、OpenAI のデータセット Books2 がシャドウ ライブラリ (海賊版 Web サイト) から大量のデータを取得したことにあると考えられます。 そのため、AI は新たな技術的進歩をもたらしただけでなく、著作権侵害対策組織に新たな課題をもたらしたと冗談を言う人もいました。 参考リンク: |
<<: 北京はインターネット診断と治療の監督を強化し、AIによる処方箋の自動生成を厳しく禁止する
>>: AIコードツールが人気、複雑な操作が数秒で簡単になり、ネットユーザー:VS Codeを放棄
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
6月19日のニュース:テクノロジーの進歩に伴い、人工知能(AI)が徐々に出版業界に参入し、特にオーデ...
著者: Xiao Yanghua、復旦大学コンピュータ科学技術学院准教授、博士課程指導教員、上海イン...
背景ディープラーニングは、AI時代の中核技術として、さまざまなシナリオに適用されてきました。システム...
[[198310]]第 18 回 KDnuggets ソフトウェア アンケートには、今年もアナリティ...
ガートナーの新しい調査*によると、人工知能 (AI) 技術計画を持つテクノロジーおよびサービス プロ...
みんなで思い出すと「サプライチェーン」が浮かび上がる最近、テスラは中国で国産テスラ車の一部をリコール...
[[265422]]人工知能はビジネスを変えています。自然言語処理やインテリジェント音声からモノのイ...
中国のバレンタインデーがちょうど終わったばかりで、編集者がオンラインにアクセスするとすぐに、偉大な芸...
先日蘇州で開催された中国人工知能産業2020年年次大会で発表された「2020年中国人工知能発展報告書...
[[417461]]人間の顔を使って面白いビデオを生成するにはどうすればいいでしょうか? [[417...
世界中で人気のiPhone Xがついに登場。バージョン番号を埋めるためだけに名付けられたiPhone...
今後 10 年間で AI が改善する必要がある領域が 1 つあります。それは透明性です。しかし、人工...
最近では、最新のスマートホームテクノロジーがプリインストールされている住宅を目にすることがますます一...