LLaMAが使用するオープンソースデータセットは棚から削除されました。これには約20万冊の本が含まれており、OpenAIデータセットに匹敵します。

LLaMAが使用するオープンソースデータセットは棚から削除されました。これには約20万冊の本が含まれており、OpenAIデータセットに匹敵します。

オープンソースのデータセットは著作権侵害のため棚から削除されました。

例えば、LLaMA、GPT-J などがこれを使ってトレーニングされています。

現在、3年間これをホストしていたウェブサイトは、一夜にして関連コンテンツをすべて削除しました。

これは Books3 で、約 200,000 冊の本で構成され、サイズが約 37 GB のデータセットです。

写真

デンマークの著作権侵害対策団体は、データセットの中に会員所有の書籍150冊が見つかり、著作権侵害にあたるとして、プラットフォームにそれらの書籍を棚から削除するよう要請した。

現在、プラットフォーム上のBooks3 Webリンクは「404」に達しています。

データセットの元の開発者は、Books3 の削除はオープンソース コミュニティにとって悲劇であると無力感を表明しました。

Books3とは何ですか?

Books3 は 2020 年にリリースされ、AI 開発者の Shawn Presser によってアップロードされ、Eleuther AI のオープンソース データセット Pile に含まれています。

海賊版サイト「Bibliotik」のすべての書籍を含む、合計 197,000 冊の書籍が含まれています。OpenAI のデータセットと比較できるように意図されていますが、主にオープンソースです。

これはBooks3という名前の由来でもあります——

GPT-3のリリース後、当局はトレーニングデータセットのコンテンツの15%が「Books1」と「Books2」という2つの電子書籍コーパスから取得されたことを明らかにしたが、具体的なコンテンツは明らかにされていない。

写真

オープンソースの Books3 は、より多くのプロジェクトに OpenAI と競争する機会を提供します。

たとえば、今年人気の LLaMA や Eleuther AI の GPT-J はすべて Books3 を使用しています。

書籍データは常に大規模モデルの事前トレーニングにおける中核的なコーパス資料であり、モデルが高品質の長いテキストを出力するための参照を提供できることを知っておく必要があります。

AI 大手が使用する書籍データセットの多くはオープンソースではなく、非常に謎めいています。例えば、Books 1/2 に関しては、情報の出所や規模は各方面からの推測がほとんどです。

したがって、オープンソースのデータセットは AI コミュニティにとって非常に重要です。

アクセスを容易にするために、Books3 は The Eye でホストされています。情報をアーカイブし、公開データを抽出できるプラットフォームです。

今回、アプリが販売中止になったのもプラットフォームのせいだった。

デンマークの著作権侵害対策団体「Rights Alliance」はThe Eyeに削除要請を提出し、承認された。

しかし、良いニュースとしては、Books3 は完全に消えたわけではなく、入手する方法はまだ他にもあるということです。

Wayback Machine でバックアップも入手可能です。また、Torrent クライアントからダウンロードすることもできます。

著者はTwitterでいくつかの方法を紹介しました。

写真

「Books3がなければ、独自のChatGPTを作成することはできません」

実際、データセットの作成者は、この上場廃止事件について多くのことを語っています。

ChatGPTのようなモデルを作る唯一の方法はBooks3のようなデータセットを作成することだと彼は言いました。

利益を上げている企業は、すべて密かにデータセットを作成しています。Books3がなければ、OpenAIなどのテクノロジー大手だけがこれらの書籍データにアクセスでき、独自のChatGPTを作成できなくなります。

作者の意見では、ChatGPT は 1990 年代の個人ウェブサイトのようなものです。誰でも作成できることが重要です。

しかし、Books3 のデータの大部分は海賊版ウェブサイトから来ているため、著者は将来誰かが Books3 よりも優れたデータセットを作成し、データの品質を向上させるだけでなく、書籍の著作権を尊重できるようになることを期待しているとも述べています。

写真

同様の状況がOpenAIでも発生しました。

1か月以上前、2人の専業著者が、OpenAIが彼らの著作を許可なく使用してChatGPTをトレーニングしたとして訴訟を起こした。

このようなことが起こった理由は、OpenAI のデータセット Books2 がシャドウ ライブラリ (海賊版 Web サイト) から大量のデータを取得したことにあると考えられます。

そのため、AI は新たな技術的進歩をもたらしただけでなく、著作権侵害対策組織に新たな課題をもたらしたと冗談を言う人もいました。

参考リンク:
[1] https://www.theatlantic.com/technology/archive/2023/08/books3-ai-meta-llama-pirated-books/675063/ [2] https://gizmodo.com/anti-piracy-group-takes-ai-training-dataset-books3-off-1850743763 [3] https://interestingengineering.com/innovation/anti-piracy-group-shuts-down-books3-a-popular-dataset-for-ai-models [4] https://torrentfreak.com/anti-piracy-group-takes-prominent-ai-training-dataset-books3-offline-230816/

<<:  北京はインターネット診断と治療の監督を強化し、AIによる処方箋の自動生成を厳しく禁止する

>>:  AIコードツールが人気、複雑な操作が数秒で簡単になり、ネットユーザー:VS Codeを放棄

ブログ    
ブログ    
ブログ    

推薦する

人工知能技術の成功と失敗を支える5つの中核要素

海外メディア(VentureBeat)によると、1980年代後半には、多くのスタートアップ企業、政府...

勾配降下法はAI専門家やネットユーザーの間で白熱した議論を巻き起こす:全員の答えは読む価値がある

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

91.3%の成長、「スマート」な製造業の実現は協働ロボットにかかっている

中国は、インダストリー4.0の提案と国家インテリジェント製造2025開発計画の公布により、製造大国か...

新しいソートアルゴリズムの発明から始まる

このような単純なアルゴリズムは、先代のエンジニアが考え出したものであるに違いありません。初心者であっ...

2023 年のエンタープライズ AI トレンド トップ 10

2022 年の AI に関する大きな話題は、研究室や概念実証から生まれ、ビジネス価値を獲得するため...

空中でスクリーンに文字を書くのは魔法のようです。指をつまむだけで実現します。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

世界初の人工知能地震監視システムが始動:1秒以内に正確な推定

最近、中国科学技術大学の研究チームは中国地震局と協力し、世界初の人工知能地震監視システム「スマート地...

...

マイクロソフトアジアリサーチは、知識蒸留を使用して小さなViTを改善するTinyMIMを提案

1. 研究の動機マスクモデリング (MIM、MAE) は、非常に効果的な自己教師ありトレーニング方法...

...

人工知能端末チップ研究レポート

1. 人工知能とディープラーニング2016年、AlphaGoとイ・セドルの囲碁対決は間違いなく、人工...

USTCとJD.comの最新の成果:AIが本物の人間のように話し、リアルなジェスチャーを披露

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

未来を待つ必要はありません。分析と AI の災害はすでに起こっています。

データと機械学習アルゴリズムから得られる洞察は非常に貴重ですが、ミスは評判、収益、さらには命を奪う可...

...

ヘルスケアにおける AI: 注目すべき 3 つのトレンド

COVID-19 パンデミック、メンタルヘルス危機、医療費の高騰、人口の高齢化により、業界のリーダ...