OpenAIは、AIモデルのトレーニングにデータが使用されるのを防ぐために、ウェブサイトがウェブクローラーによるデータのクロールをブロックすることを許可しました。

OpenAIは、AIモデルのトレーニングにデータが使用されるのを防ぐために、ウェブサイトがウェブクローラーによるデータのクロールをブロックすることを許可しました。

8月8日、OpenAIのGPTモデルのトレーニングには大量のネットワークデータが必要であり、データのプライバシーや著作権などの問題が伴う可能性があると報じられた。これらの問題に対処するため、OpenAI は最近、Web クローラーが Web サイトからデータをスクレイピングして GPT モデルをトレーニングするのを Web サイトが防止できる新しい機能をリリースしました。

IT Home によると、Web クローラーは、インターネット上の情報を検索して取得できる自動プログラムです。 OpenAI の Web クローラーは GPTBot と呼ばれます。一定の頻度でさまざまな Web サイトにアクセスし、GPT モデルのトレーニング用に Web ページのコンテンツを保存します。

OpenAIはブログ投稿で、ウェブサイト運営者はウェブサイトのRobots.txtファイルでGPTBotへのアクセスを無効にするか、IPアドレスをブロックすることで、GPTBotがウェブサイトからデータを取得するのを防ぐことができると述べた。 OpenAIはまた、「GPTBotユーザーエージェントを使用してクロールされたウェブページは、将来のモデルを改善するために使用される可能性があり、有料アクセスを必要とするソース、個人を特定できる情報(PII)を収集することが知られているソース、または当社のポリシーに違反するテキストを含むソースは除外されます」と述べています。除外基準を満たさないソースについては、「GPTBotがWebサイトにアクセスできるようにすることで、AIモデルの精度が向上し、全体的な機能と安全性が向上します。」

ただし、これによって、以前にウェブサイトからスクレイピングされたコンテンツが ChatGPT のトレーニング データから遡及的に削除されるわけではありません。

OpenAIのGPTモデルやGoogleのBardなど、大規模な言語モデルのトレーニングデータの多くはインターネットから提供されており、AIトレーニング用のデータの取得はますます議論の的となっている。 RedditやTwitterを含む一部のサイトでは、AI企業によるユーザーの投稿の自由利用を取り締まる措置が取られており、一方で一部の作家やクリエイターは、自身の作品の無断使用を理由に訴訟を起こしている。

<<: 

>>:  顔認識技術の応用の安全管理に関する規定(試行)コメント:1万人以上の顔情報の保管は中国サイバースペース管理局に登録する必要がある

ブログ    
ブログ    

推薦する

音声認識のクロスドメインおよびクロス言語移行の難しさを少しずつ軽減するにはどうすればよいでしょうか?

編集者注: ディープラーニングの継続的な発展により、音声認識技術は大幅に向上し、人々の日常生活に多く...

20,000語の記事を処理できる、初の商用32kコンテキストオープンソースモデル「Giraffe」が登場

注意メカニズムに依存する大規模言語モデル (LLM) は通常、トレーニング中に固定のコンテキスト長を...

Interspeech 2023 | Volcano Engine ストリーミングオーディオテクノロジー: 音声強化と AI オーディオコーディング

背景マルチデバイス、マルチパーソン、マルチノイズなどのさまざまな複雑なオーディオおよびビデオ通信シナ...

ヘルスケアにおける AI: 注目すべき 3 つのトレンド

COVID-19 パンデミック、メンタルヘルス危機、医療費の高騰、人口の高齢化により、業界のリーダ...

AIファースト戦略に移行する5つの方法

ガートナーによると、AI は 2022 年までに世界中で 2.9 兆ドルのビジネス価値と 62 億時...

自然言語処理(NLP)の歴史と方向性

自然言語処理の歴史は紆余曲折に満ちた物語です。それは無駄な研究から始まり、何年にもわたる実りある研究...

...

自動化されたAIで予期せぬ収益機会を発見

急速に変化する今日の市場で競争力を維持するために、企業は次の大きな成長機会や運用上の優位性を発見する...

データ分析とAIのミスが原因の注目度の高い事件9件

2017年、『エコノミスト』誌は、石油ではなくデータが世界で最も価値のある資源になったと宣言しました...

弁護士は直感に基づいて仕事をするのでしょうか? AIはそうは思わない

法曹界は、統計学や数学に関しては常に比較的消極的でした。伝統的に、彼らの意見は長年、あるいは数十年に...

...

携帯電話の AI 技術を使って撮影した写真は、本当に一眼レフカメラで撮影した写真に匹敵するのでしょうか?

最新世代のスマートフォンに搭載されつつある 3D センサーは、機械学習によって解き放たれた写真撮影技...

小さなモデル、大きなトレンド! Googleは2つのモデルを提案した。音量は7倍に減少し、速度は10倍に増加する。

[[426899]]ニューラル ネットワーク モデルとトレーニング データのサイズが大きくなるにつ...