8月8日、OpenAIのGPTモデルのトレーニングには大量のネットワークデータが必要であり、データのプライバシーや著作権などの問題が伴う可能性があると報じられた。これらの問題に対処するため、OpenAI は最近、Web クローラーが Web サイトからデータをスクレイピングして GPT モデルをトレーニングするのを Web サイトが防止できる新しい機能をリリースしました。 IT Home によると、Web クローラーは、インターネット上の情報を検索して取得できる自動プログラムです。 OpenAI の Web クローラーは GPTBot と呼ばれます。一定の頻度でさまざまな Web サイトにアクセスし、GPT モデルのトレーニング用に Web ページのコンテンツを保存します。 OpenAIはブログ投稿で、ウェブサイト運営者はウェブサイトのRobots.txtファイルでGPTBotへのアクセスを無効にするか、IPアドレスをブロックすることで、GPTBotがウェブサイトからデータを取得するのを防ぐことができると述べた。 OpenAIはまた、「GPTBotユーザーエージェントを使用してクロールされたウェブページは、将来のモデルを改善するために使用される可能性があり、有料アクセスを必要とするソース、個人を特定できる情報(PII)を収集することが知られているソース、または当社のポリシーに違反するテキストを含むソースは除外されます」と述べています。除外基準を満たさないソースについては、「GPTBotがWebサイトにアクセスできるようにすることで、AIモデルの精度が向上し、全体的な機能と安全性が向上します。」 ただし、これによって、以前にウェブサイトからスクレイピングされたコンテンツが ChatGPT のトレーニング データから遡及的に削除されるわけではありません。 OpenAIのGPTモデルやGoogleのBardなど、大規模な言語モデルのトレーニングデータの多くはインターネットから提供されており、AIトレーニング用のデータの取得はますます議論の的となっている。 RedditやTwitterを含む一部のサイトでは、AI企業によるユーザーの投稿の自由利用を取り締まる措置が取られており、一方で一部の作家やクリエイターは、自身の作品の無断使用を理由に訴訟を起こしている。 |
>>: 顔認識技術の応用の安全管理に関する規定(試行)コメント:1万人以上の顔情報の保管は中国サイバースペース管理局に登録する必要がある
[[192373]]業界分析2016 年、世界のディープラーニング市場規模は 2 億 2,700 万...
現在までに、C. elegans (ニューロン数 302) から Drosophila (ニューロン...
人工知能が人類を転覆させるのではないかと人々が心配する理由は2つしかありません。1つ目は、ロボットの...
中国科学院は、Adobe および Apple の研究者と共同で、画像編集における拡散モデルに関する主...
前回の記事では、PaddlePaddle を使用して手書きの数字を認識する例を示し、ネットワーク構造...
WeChatの「Take a Look」アプリの最もアクティブなユーザーは実は私たちの両親であり、...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
[51CTO.com クイック翻訳] 現在、世界中のあらゆる場所で大量のデータが絶えず生成されており...
ビッグモデルの発展、特に最近のさまざまなオープンソースのビッグモデルのリリースにより、さまざまなモデ...
(2019年11月21日、東京)Langogoは現地時間午前11時に神田明神文化交流センターで201...
新型コロナウイルスの武漢での感染拡大が続く中、米国でのインフルエンザも大きな注目を集めている。毎年の...
AIエージェントは今話題になっています。OpenAIの応用研究ディレクターであるLilian Wen...
調査機関Markets&Marketsの予測によると、2023年までに世界の教育業界における...