OpenAIは、AIモデルのトレーニングにデータが使用されるのを防ぐために、ウェブサイトがウェブクローラーによるデータのクロールをブロックすることを許可しました。

OpenAIは、AIモデルのトレーニングにデータが使用されるのを防ぐために、ウェブサイトがウェブクローラーによるデータのクロールをブロックすることを許可しました。

8月8日、OpenAIのGPTモデルのトレーニングには大量のネットワークデータが必要であり、データのプライバシーや著作権などの問題が伴う可能性があると報じられた。これらの問題に対処するため、OpenAI は最近、Web クローラーが Web サイトからデータをスクレイピングして GPT モデルをトレーニングするのを Web サイトが防止できる新しい機能をリリースしました。

IT Home によると、Web クローラーは、インターネット上の情報を検索して取得できる自動プログラムです。 OpenAI の Web クローラーは GPTBot と呼ばれます。一定の頻度でさまざまな Web サイトにアクセスし、GPT モデルのトレーニング用に Web ページのコンテンツを保存します。

OpenAIはブログ投稿で、ウェブサイト運営者はウェブサイトのRobots.txtファイルでGPTBotへのアクセスを無効にするか、IPアドレスをブロックすることで、GPTBotがウェブサイトからデータを取得するのを防ぐことができると述べた。 OpenAIはまた、「GPTBotユーザーエージェントを使用してクロールされたウェブページは、将来のモデルを改善するために使用される可能性があり、有料アクセスを必要とするソース、個人を特定できる情報(PII)を収集することが知られているソース、または当社のポリシーに違反するテキストを含むソースは除外されます」と述べています。除外基準を満たさないソースについては、「GPTBotがWebサイトにアクセスできるようにすることで、AIモデルの精度が向上し、全体的な機能と安全性が向上します。」

ただし、これによって、以前にウェブサイトからスクレイピングされたコンテンツが ChatGPT のトレーニング データから遡及的に削除されるわけではありません。

OpenAIのGPTモデルやGoogleのBardなど、大規模な言語モデルのトレーニングデータの多くはインターネットから提供されており、AIトレーニング用のデータの取得はますます議論の的となっている。 RedditやTwitterを含む一部のサイトでは、AI企業によるユーザーの投稿の自由利用を取り締まる措置が取られており、一方で一部の作家やクリエイターは、自身の作品の無断使用を理由に訴訟を起こしている。

<<: 

>>:  顔認識技術の応用の安全管理に関する規定(試行)コメント:1万人以上の顔情報の保管は中国サイバースペース管理局に登録する必要がある

ブログ    
ブログ    

推薦する

ChatGPT のパフォーマンスが最大 214% 向上し、7 つのグラフが更新されました。 IDEA、HKUST GuazhouなどがToG思考マップを提案

大きなモデルは良いですが、「深刻なナンセンス」の問題をどのように解決するのでしょうか?金融、法律、医...

ChatGPT がまたトラブルに巻き込まれました! OpenAI が初の AI 名誉毀損訴訟に直面!

51CTOウェブサイトコンテンツ調査に参加するにはクリックしてください著者: 徐潔成ChatGPT...

グラフやグラフニューラルネットワークについて学びたいですか?論文を読むより良い方法はありません。

グラフ埋め込み、グラフ表現、グラフ分類、グラフニューラルネットワーク、この記事では必要なグラフモデリ...

...

...

AIの脳回路は人間と非常に似ている、OpenAIの最新研究は白熱した議論を引き起こしている

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

自動運転に関する期限の問題

少し前に、自称メディアスターの板狐仙人が「自動運転のいくつかの期限問題」を発表し、将来の自動運転の実...

...

GoogleのAIチップのアップグレード:大規模モデルと生成AIをターゲットとし、主流のディープラーニングフレームワークを統合

Google は、AI を使用して最適化された新世代の人工知能とインフラストラクチャの開発をリードす...

2020年から2024年までの中国のインテリジェント交通産業の予測分析

[[374436]] 1.1 中国の数千万規模のインテリジェント交通プロジェクトの競争環境中国投資産...

...

リアルタイムの洞察を強化: コンピューター ビジョンとエッジ コンピューティングの相乗効果

今日の急速に変化する世界では、最先端技術のシームレスな統合がイノベーションの基盤となっています。その...

phind: 開発者に特化したAI検索エンジンの誕生!

みなさんこんにちは、三元です。前回の記事では、AIを使いこなせない人は本当に将来淘汰されていくのか?...

...