OpenAI: ChatGPTはクローラープロトコルに準拠し、ウェブサイトは無料での使用を拒否できる

OpenAI: ChatGPTはクローラープロトコルに準拠し、ウェブサイトは無料での使用を拒否できる

ChatGPT によってウェブサイトのデータが盗まれるのを防ぎたいですか?ついに解決策が見つかりました!

これは 2 行のコードで実行でき、OpenAI によって公式にリリースされたものです。

先ほど、OpenAI はユーザー ドキュメント内の GPTBot の説明を更新しました。

この説明によれば、コンテンツ所有者は、ChatGPT のクローラーによるウェブサイトデータのクロールを拒否できるようになります。

これは、ウェブアクセスの停止に続く、著作権とプライバシー保護に関する OpenAI のもう一つの大きな動きです。

写真

しかし、OpenAI は依然として、コンテンツ所有者が GPTBot へのアクセス権を解放することを期待しています。

GPTBot のこの説明で、OpenAI は次のように述べています。

クローラーがデータにアクセスできるようにすると、AI モデルの精度とセキュリティが向上します。

しかし、少なくともサイト所有者には選択する権利があります。

しかし、一部のネットユーザーは問題を指摘した。

モデルはすでにトレーニングされているので、今これについて言及する意味は何でしょうか?

写真

OpenAIはまだこれについて説明していないので、まずはその対策を見てみましょう。

GPTクローラーを防ぐ3つの方法

それで、OpenAIは何を発表したのでしょうか?

まずはGPTBotのユーザー情報です。

ユーザーエージェントトークン: GPTBot
完全なユーザーエージェント文字列: Mozilla/5.0 AppleWebKit/537.36 (KHTML、Gecko に類似、互換性あり、GPTBot/1.0、+https://openai.com/gptbot)

UA はブラウザの ID であり、訪問者のシステム環境、ブラウザ カーネルのバージョン、言語など、多くの情報が含まれています。

HTML タグを使用すると、特定のブラウザが Web ページのコンテンツにアクセスできないようにすることができます。

この説明文書では、OpenAI は robots.txt を変更するという、クローラーをブロックするより簡単な方法も提供しています。

ウェブサイトの robots.txt に次のコードを追加するだけです。

ユーザーエージェント: GPTBot
許可しない: /

こうすることで、GPTBot はコンテンツをクロールするために Web サイトにアクセスしなくなります。

GPT による一部のコンテンツのクロールだけを禁止したい場合は、robots.txt を使用して設定することもできます。

上記の内容と同様に、アクセスを許可するディレクトリとアクセスを許可しないディレクトリを指定するだけです。

ユーザーエージェント: GPTBot
許可: /directory-1/
許可しない: /directory-2/

このうち、Allow の方が優先度が高く、つまり、Allow ディレクトリが Disallow ディレクトリのサブディレクトリである場合は、アクセスが許可されます。

さらに、OpenAIはクローラーロボットのIPアドレスも公開しました。

クローラーが本当に心配な場合は、関連する IP アドレスによる Web サイトへのアクセスを禁止するように設定できます。

写真

robots.txtとは

上記の robots.txt とは何ですか? また、なぜ GPT のクローラーをブロックするのですか?

これは実際にはユーザー契約であり、サイト所有者はクローラーによるウェブサイトへのアクセスを禁止したり、クローラーによるコンテンツのクロールを禁止する設定を行うことができます。

この合意によれば、クローラーがそれにアクセスする能力を持っていたとしても、関連するコンテンツに遭遇したときには積極的にそれを避けることを選択します。

ChatGPT 自体も robots.txt を使用して、クローラーがユーザーの共有以外のコンテンツをクロールするのを防ぎます。

写真

実際、このプロトコルは AI が普及する前から存在しており、主に検索エンジンを制限するために使用されていました。

これは、検索エンジンでWeChatパブリックアカウントの記事が見つからない理由でもあります。

写真

これは紳士協定ですが、業界のルールとユーザーのプライバシーを尊重しているため、ほとんどのメーカーはこれに従うことを選択します。

今では、OpenAI もその仲間入りを果たしました。

もう一つ

同時に、Google のクローラーは Web 全体のコンテンツをクロールしています。

しかし、ネットユーザーはこれに対してより寛容であるようだ。

少なくとも Google はあなたのウェブサイトにリンクしていますが、ChatGPT は説明なしにあなたのコンテンツを使用しています。

写真

モデルの品質向上とクリエイターの保護のバランスをどのように取るべきだとお考えですか?

参考リンク:

[1] https://platform.openai.com/docs/gptbot
[2] https://www.theverge.com/2023/8/7/23823046/openai-data-scrape-block-ai
[3] https://news.ycombinator.com/item?id=37030568

<<:  企業における生成AIのセキュリティリスクを管理する方法

>>:  清華大学のFaceWall Intelligenceは、大規模なモデルを16,000以上の実際のAPIに接続し、オープンソースのToolLLMはChatGPTに近い

ブログ    
ブログ    

推薦する

Google、AIコードエディタIDXをリリース:クラウド仮想マシンで開発環境の構成を簡素化

Googleは8月9日、「Project IDX」プロジェクトを公開し、AI技術を統合したコードエデ...

バイトダンスのGPTアカウントが突然凍結、OpenAIが不正行為を調査

バイトダンスは、この大規模モデルをめぐる世論の嵐に巻き込まれている。 The Vergeによると: ...

画像とテキストを統合的に生成するMiniGPT-5が登場:トークンがVokenになり、モデルは書き込みを継続できるだけでなく、自動的に画像を追加することもできます

ビッグモデルは言語から視覚へと飛躍し、テキストと画像のコンテンツをシームレスに理解して生成する可能性...

人工知能がサイバーセキュリティの世界に及ぼす影響

サイバーセキュリティは、今日世界中の企業が直面している戦略的な課題です。パンデミックによって加速した...

AI が企業のランサムウェア対策やクラウド セキュリティ侵害防止にどのように役立つか

サイバーセキュリティの状況は毎年、組織が対処する必要のある新たな課題や障害をもたらしており、たとえば...

次回の組み込み設計に人工知能を使用する4つの理由

次のプロジェクトに機械学習を取り入れるべき 4 つの理由をご紹介します。 理由その1 – マーケティ...

マスク氏の最新チップ:脳とコンピューターの相互作用に特化し、視覚障害者が「見る」ことを可能にする

自分で認めなさい!マスク氏のニューラリンクはチップを開発している。この技術は「数年以内」にリリースさ...

人工知能と機械学習が進化する10の方法

[[411678]]人工知能は現在、多くの CEO にとって最重要課題となっています。この話題は目新...

人工知能2.0の時代、機械にスマートな脳を搭載する方法

[[419760]] 「クラブアップルの木は、その赤みがかった色にもかかわらず、霧雨の中にひとりぼっ...

「顔認識」時代の準備はできていますか?

[51CTO.comからのオリジナル記事] 近年、生体認証技術はますます成熟し、私たちの生活の中に...

2021年、多くのAI企業が株式公開に向けて競争を始めました。どの企業がより有望だと思いますか?

[[382172]]人工知能企業が株式を公開すると、株主は成長の配当を分け合えるようになるのでしょ...

...

...

...