GPT-4 は宇宙のすべてのデータを消費します! OpenAI、データ不足で相次いで訴訟に直面、カリフォルニア大学バークレー校教授が警告

GPT-4 は宇宙のすべてのデータを消費します! OpenAI、データ不足で相次いで訴訟に直面、カリフォルニア大学バークレー校教授が警告

「ネットワーク全体」を使い果たすと、生成 AI はすぐにデータを使い果たします。

最近、カリフォルニア大学バークレー校の有名なコンピューター科学者であるスチュアート・ラッセル氏は、ChatGPTやその他のAIツールのトレーニングによって、まもなく「宇宙全体のテキスト」が使い果たされる可能性があると述べた。

言い換えれば、ChatGPT のような AI のトレーニングは、データが不十分なために妨げられることになります。

写真

これは、今後数年間で生成 AI 開発者がデータを収集し、AI をトレーニングする方法に影響を与える可能性があります。

同時に、ラッセル氏は「言語入力、言語出力」の作業において人工知能が人間に取って代わるだろうと信じている。

データが足りません。何を使用すればいいですか?

ラッセルの最近の予測は大きな注目を集めている。

OpenAI やその他の生成 AI 開発者は、大規模な言語モデルをトレーニングするためのデータの収集を開始しました。

しかし、ChatGPT やその他のチャットボットに不可欠なデータ収集方法は、ますます厳しく監視されています。

写真

これには、自分のアイデアが同意なく使用されたり、プラットフォームのデータが自由に使用されたりすることに不満を抱いている幹部も含まれています。

しかし、ラッセル氏の洞察は、別の潜在的な弱点を指摘している。それは、これらのデータセットをトレーニングするためのテキストが不足していることだ。

昨年11月、MITを含む研究者らによる調査では、機械学習データセットによって2026年までに「高品質な言語データ」がすべて使い果たされる可能性があると推定された。

写真

論文アドレス: https://arxiv.org/pdf/2211.04325.pdf

研究によると、「高品質」セットの言語データは、書籍、ニュース記事、科学論文、Wikipedia、フィルタリングされたウェブコンテンツなどのソースから取得されます。

人気の ChatGPT の基盤となるモデル GPT-4 も、大量の高品質テキストでトレーニングされています。

データは、公開されているオンライン ソース (デジタル ニュース ソースやソーシャル メディア サイトを含む) から取得されます。

ソーシャルメディアサイトからの「データスクレイピング」により、マスク氏はユーザーが1日に閲覧できるツイートの数を制限することにした。

写真

ラッセル氏は、多くの報告は未確認ではあるものの、OpenAIがテキストデータセットを民間の情報源から購入したことを詳述していると述べた。この購買行動には説明がつくかもしれませんが、当然の推論としては、質の高い公開データが十分に存在しないということが挙げられます。

これまで、OpenAI は GPT-4 のトレーニングデータを公開していませんでした。

現在、OpenAIは、同社のこれまでで最も強力で先進的な人工知能モデルであるGPT-4を作成するために、公開言語データを「プライベートデータ」で補完する必要がある。

これは、高品質のデータだけでは確かに不十分であることを示しています。

OpenAIは記事掲載前のコメント要請にすぐには応じなかった。

OpenAIはデータ論争に巻き込まれる

最近、OpenAI は大きな問題を抱えていますが、その理由はすべてデータに関係しています。

まず、16人が匿名でOpenAIとMicrosoftを訴え、プライベートな会話や医療記録などの機密データを使用したとして157ページに及ぶ訴訟を起こした。

写真

訴訟によれば、彼らの請求額は最大30億ドルに上るという。

個人情報の購入と使用に関するプロトコルが整備されているにもかかわらず、OpenAIとMicrosoftは、同意なく取得された何百万もの個人情報を含む3000億語をインターネットから体系的に収集した。

これには、アカウント情報、名前、連絡先情報、電子メール、支払い情報、取引記録、ブラウザデータ、ソーシャルメディア、チャットデータ、Cookie などが含まれます。

この情報は ChatGPT に埋め込まれていますが、個人の趣味、意見、職歴、さらには家族の写真も反映されています。

この訴訟を担当する法律事務所クラークソンは、これまでにもデータ漏洩や虚偽広告などの問題を含む大規模な集団訴訟を担当してきた。

写真

そして今週、数人の専業作家が、OpenAIが彼らの小説を無断でChatGPTのトレーニングに使用したことは著作権侵害に当たると主張した。

では、自分の小説をトレーニングに使うことをどうやって決めるのでしょうか?

証拠としては、ChatGPT が書籍の正確な要約を生成できることが挙げられます。これは、これらの書籍が ChatGPT をトレーニングするためのデータとして使用されていることを示すのに十分です。

著者のポール・トランブレイ氏とモナ・アワド氏は、「ChatGPTは何千冊もの本からデータを許可なくコピーし、著者の著作権を侵害した」と述べた。

写真

起訴状によると、OpenAIのトレーニングデータには少なくとも30万冊の書籍が含まれており、その多くは著作権を侵害するウェブサイトからのものだという。

例えば、GPT-3 のトレーニング データが公開されたとき、そこには 2 つのインターネット書籍コーパスが含まれており、約 15% を占めていました。

訴訟の原告2人は、これらのデータはZ-Library、Sci-Hubなどの無料ウェブサイトから来ていると考えている。

さらに、2018年にOpenAIは、GPT-1のトレーニングに使用されたデータには7,000冊以上の小説が含まれていることを明らかにしました。訴訟を起こした人々は、書籍が著者の許可なく直接使用されたと信じている。

別の方法を見つけますか?

OpenAI が使用するデータのソースについては確かに多くの論争があると言わざるを得ません。

今年2月、ウォール・ストリート・ジャーナルの記者フランチェスコ・マルコーニ氏は、ニュースメディアのデータもChatGPTのトレーニングに使用されたと述べている。

マルコーニ氏はChatGPTに20のメディアのリストを作成するよう依頼した。

写真

アルトマン氏は今年5月のインタビューで、OpenAIはしばらくの間、大規模言語モデルのトレーニングに有料顧客データを使用していないと述べていた。

顧客は明らかに自社のデータでトレーニングを行うことを望んでいなかったので、私たちは計画を変更し、それを行わなくなりました。

写真

実際、OpenAI は 3 月初旬にひっそりと利用規約を更新しました。

アルトマン氏は、同社が現在、より少ないデータでモデルをトレーニングできる新しい技術を開発中であると述べた。

おそらく OpenAI に触発されて、Google はまずこの抜け穴を塞ぐことを選択した。

7月1日、Googleはプライバシーポリシーを更新し、公開されているあらゆるデータを収集し、それを人工知能モデルのトレーニングに使用する権利をGoogleが有することを明記した。

写真

Google は、パブリック チャネルを通じて入手できるあらゆるコンテンツが、Bard や将来の AI のトレーニングに使用できることをすべてのユーザーに対して明確にしました。

参考文献:

https://www.businessinsider.com/ai-could-run-out-text-train-chatbots-chatgpt-llm-2023-7


<<:  GPT-4の知能は突然低下した。OpenAIがアーキテクチャを再設計し、コストを削減して効率を高めるためにMOEを使用したことが明らかになった。公式の噂は否定されたが、ネットユーザーはそれを信じなかった。

>>:  人工知能の環境コスト: 計算能力のために私たちは何を犠牲にする覚悟があるのでしょうか?

ブログ    
ブログ    

推薦する

海外AI界が騒然! Googleの黒人女性AI倫理研究者が「退職」し騒動を引き起こす

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AIと機械学習の統合アーキテクチャ:インテリジェントな意思決定を可能にする

人工知能 (AI) と機械学習の台頭により、あらゆる業界に大きな変化が起きています。データ量が増加し...

...

AI駆動型ソフトプラスチック選別ロボットがプラスチック廃棄物危機の解決に貢献

近年、プラスチックのリサイクルは改善されてきましたが、埋め立て地に廃棄されるプラスチック廃棄物は大き...

見逃せない AIOps 実装の重要なポイントを解説するガイド

[[280530]] [51CTO.com クイック翻訳] システムの効率性と複雑さが増すにつれて、...

Apple Store 店員から機械学習エンジニアへ: AI を学び始めた経緯

機械学習エンジニアの職は、AI 博士号取得者だけのものではありません。インターネット上の公開コースや...

Java スパニングツリー構造 ポイント間の最短経路アルゴリズム

まずは二分木についてお話しましょう。二分木は、各ポイントが 2 つのポイントに接続されているツリー構...

Sitechi スマートオペレーションプラットフォームがスマートシティの求心力を生み出す

デジタル トレントは、さまざまな新興テクノロジーが成熟し、新しいビジネスや新しいアプリケーションが出...

米空軍がAI技術を活用して「戦闘効率」を向上させる方法を明らかにする

データの規模を拡大し、関連するリテラシーを向上させることで、米空軍のさまざまな部門と人員は、意思決定...

清華大学、マイクロソフトなど大学がリマインダーエンジニアを排除? LLMと進化的アルゴリズムを組み合わせて強力なプロンプト最適化ツールを作成する

LLM の機能と従来のアルゴリズムを組み合わせることで、どのような火花が生まれるのでしょうか?清華大...

AIプロジェクトが失敗する6つの理由

データの問題は、企業の AI プロジェクトが意図した目標を達成できない主な理由です。しかし、企業が失...

原子力 + AI: 原子力技術の未来を創造するのか?

近年、原子力技術と人工知能(AI)の融合により、原子力AIと呼ばれる強力な相乗効果が生み出されていま...

DNAを使って画像を直接保存する「生きた細胞カメラ」は96ピクセルの解像度を持つ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ベイズの定理から確率分布へ:確率論の基本定義の復習

この記事では、最も基本的な確率理論からさまざまな確率分布に至るまで、確率に関する基本的な知識と概念を...

アルゴリズムが消費者を「計算」するのを防ぐにはどうすればよいでしょうか?専門家:対策のためのアルゴリズムの研究は可能

デジタル経済の時代では、目に見えず、実体のないアルゴリズムが常に消費者の選択に影響を与えます。近年、...