OpenAI: ChatGPTはクローラープロトコルに準拠し、ウェブサイトは無料での使用を拒否できる

ChatGPT によってウェブサイトのデータが盗まれるのを防ぎたいですか?ついに解決策が見つかりました!

これは 2 行のコードで実行でき、OpenAI によって公式にリリースされたものです。

先ほど、OpenAI はユーザードキュメント内の GPTBot の説明を更新しました。

この説明によれば、コンテンツ所有者は、ChatGPT のクローラーによるウェブサイトデータのクロールを拒否できるようになります。

これは、ウェブアクセスの停止に続く、著作権とプライバシー保護に関する OpenAI のもう一つの大きな動きです。

写真

しかし、OpenAI は依然として、コンテンツ所有者が GPTBot へのアクセス権を解放することを期待しています。

GPTBot のこの説明で、OpenAI は次のように述べています。

クローラーがデータにアクセスできるようにすると、AI モデルの精度とセキュリティが向上します。

しかし、少なくともサイト所有者には選択する権利があります。

しかし、一部のネットユーザーは問題を指摘した。

モデルはすでにトレーニングされているので、今これについて言及する意味は何でしょうか?

写真

OpenAIはまだこれについて説明していないので、まずはその対策を見てみましょう。

GPTクローラーを防ぐ3つの方法

それで、OpenAIは何を発表したのでしょうか?

まずはGPTBotのユーザー情報です。

ユーザーエージェントトークン: GPTBot
完全なユーザーエージェント文字列: Mozilla/5.0 AppleWebKit/537.36 (KHTML、Gecko に類似、互換性あり、GPTBot/1.0、+https://openai.com/gptbot)

UA はブラウザの ID であり、訪問者のシステム環境、ブラウザカーネルのバージョン、言語など、多くの情報が含まれています。

HTML タグを使用すると、特定のブラウザが Web ページのコンテンツにアクセスできないようにすることができます。

この説明文書では、OpenAI は robots.txt を変更するという、クローラーをブロックするより簡単な方法も提供しています。

ウェブサイトの robots.txt に次のコードを追加するだけです。

ユーザーエージェント: GPTBot
許可しない: /

こうすることで、GPTBot はコンテンツをクロールするために Web サイトにアクセスしなくなります。

GPT による一部のコンテンツのクロールだけを禁止したい場合は、robots.txt を使用して設定することもできます。

上記の内容と同様に、アクセスを許可するディレクトリとアクセスを許可しないディレクトリを指定するだけです。

ユーザーエージェント: GPTBot
許可: /directory-1/
許可しない: /directory-2/

このうち、Allow の方が優先度が高く、つまり、Allow ディレクトリが Disallow ディレクトリのサブディレクトリである場合は、アクセスが許可されます。

さらに、OpenAIはクローラーロボットのIPアドレスも公開しました。

クローラーが本当に心配な場合は、関連する IP アドレスによる Web サイトへのアクセスを禁止するように設定できます。

写真

robots.txtとは

上記の robots.txt とは何ですか? また、なぜ GPT のクローラーをブロックするのですか?

これは実際にはユーザー契約であり、サイト所有者はクローラーによるウェブサイトへのアクセスを禁止したり、クローラーによるコンテンツのクロールを禁止する設定を行うことができます。

この合意によれば、クローラーがそれにアクセスする能力を持っていたとしても、関連するコンテンツに遭遇したときには積極的にそれを避けることを選択します。

ChatGPT 自体も robots.txt を使用して、クローラーがユーザーの共有以外のコンテンツをクロールするのを防ぎます。

写真

実際、このプロトコルは AI が普及する前から存在しており、主に検索エンジンを制限するために使用されていました。

これは、検索エンジンでWeChatパブリックアカウントの記事が見つからない理由でもあります。

写真

これは紳士協定ですが、業界のルールとユーザーのプライバシーを尊重しているため、ほとんどのメーカーはこれに従うことを選択します。

今では、OpenAI もその仲間入りを果たしました。

もう一つ

同時に、Google のクローラーは Web 全体のコンテンツをクロールしています。

しかし、ネットユーザーはこれに対してより寛容であるようだ。

少なくとも Google はあなたのウェブサイトにリンクしていますが、ChatGPT は説明なしにあなたのコンテンツを使用しています。

写真

モデルの品質向上とクリエイターの保護のバランスをどのように取るべきだとお考えですか?

参考リンク:

[1] https://platform.openai.com/docs/gptbot
[2] https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai
[3] https://news.ycombinator.com/item?id=37030568

<<: 企業における生成AIのセキュリティリスクを管理する方法

>>: 清華大学のFaceWall Intelligenceは、大規模なモデルを16,000以上の実際のAPIに接続し、オープンソースのToolLLMはChatGPTに近い

人工知能の時代、栄智連は新しいメディアが新しいエコシステムを構築するのを支援します

ブログ

人工知能が詩を書きました。この詩の知的財産権は誰が所有しているのでしょうか?

ブログ

AI革命をリードする：企業がAIアプリケーションを推進するためのベストプラクティス

ブログ

舌先にAI：人工知能技術が食卓に並ぶ

ブログ

GPT-4 モデルアーキテクチャが漏洩: 1.8 兆個のパラメータを含み、混合エキスパートモデルを使用

ブログ

AIGCと因果推論により双方向の

ブログ

貴州省はアリババクラウドの最適アルゴリズムを使用して交通渋滞を減らし、赤信号の時間を86％削減する予定

ブログ

PageRankアルゴリズムとPR値の転送の詳細な分析

ブログ

OpenAI: ChatGPTはクローラープロトコルに準拠し、ウェブサイトは無料での使用を拒否できる

GPTクローラーを防ぐ3つの方法

robots.txtとは

もう一つ

参考リンク:

人工知能の時代、栄智連は新しいメディアが新しいエコシステムを構築するのを支援します

人工知能が詩を書きました。この詩の知的財産権は誰が所有しているのでしょうか?

AI革命をリードする：企業がAIアプリケーションを推進するためのベストプラクティス

舌先にAI：人工知能技術が食卓に並ぶ

GPT-4 モデルアーキテクチャが漏洩: 1.8 兆個のパラメータを含み、混合エキスパートモデルを使用

AIGCと因果推論により双方向の

貴州省はアリババクラウドの最適アルゴリズムを使用して交通渋滞を減らし、赤信号の時間を86％削減する予定

PageRankアルゴリズムとPR値の転送の詳細な分析

推薦する

Google、AIコードエディタIDXをリリース：クラウド仮想マシンで開発環境の構成を簡素化

バイトダンスのGPTアカウントが突然凍結、OpenAIが不正行為を調査

画像とテキストを統合的に生成するMiniGPT-5が登場:トークンがVokenになり、モデルは書き込みを継続できるだけでなく、自動的に画像を追加することもできます

人工知能がサイバーセキュリティの世界に及ぼす影響

AI が企業のランサムウェア対策やクラウドセキュリティ侵害防止にどのように役立つか

次回の組み込み設計に人工知能を使用する4つの理由

マスク氏の最新チップ：脳とコンピューターの相互作用に特化し、視覚障害者が「見る」ことを可能にする

人工知能と機械学習が進化する10の方法

人工知能2.0の時代、機械にスマートな脳を搭載する方法

Google の AI 振付師は、音楽に合わせて 10 種類のフリースタイルを披露できます。ジャズやバレエを観たいですか?

「顔認識」時代の準備はできていますか?

2021年、多くのAI企業が株式公開に向けて競争を始めました。どの企業がより有望だと思いますか？