Googleによると、特定のキーワードを繰り返すとChatGPTのトレーニングデータが明らかになる可能性があるという。OpenAI:利用規約違反

Googleによると、特定のキーワードを繰り返すとChatGPTのトレーニングデータが明らかになる可能性があるという。OpenAI:利用規約違反

12月5日、Googleの研究者グループは、OpenAIの人工知能チャットボットChatGPTのトレーニングデータの一部を入手する方法を発見したと主張した。

新しく公開された論文の中で、Google の研究者は、特定のキーワードによって ChatGPT がトレーニングに使用したデータセットの一部を漏洩させる可能性があることを明らかにしました。

例えば、モデルは「poem」という単語を永遠に繰り返すように指示された後、本物の電子メールアドレスと電話番号のように見えるものを生成したという。研究者らは、懸念すべきことに、攻撃中に個人情報の漏洩が頻繁に発生したと述べている。

別の例では、モデルに「company」という単語を永遠に繰り返すように要求したときに、同様のトレーニング データの漏洩が発生しました。

研究者らは、この単純な攻撃を「少しばかげている」としながらも、ブログ投稿で「我々の攻撃が成功したとは信じられない!もっと早く発見すべきだったし、発見できたはずだ」と述べた。

わずか200ドル相当のクエリを使用して、「10,000件を超える逐語的なトレーニング例を抽出」することができたと論文で述べています。 「われわれの推測によれば、競合他社はより大きな予算を動員すれば、さらに多くのデータを抽出できる可能性がある」と研究者らは付け加えた。

OpenAIは現在、ChatGPTの秘密のトレーニングデータに関していくつかの訴訟に直面している。 ChatGPTを動かすAIモデルは、インターネット上のテキストのデータベースを使用してトレーニングされており、約3000億語、つまり570GBのデータでトレーニングされたと考えられています。

提案されている集団訴訟では、OpenAIがChatGPTをトレーニングするために、医療記録や子供の情報を含む「膨大な量の個人データ」を「秘密裏に」盗んだと主張している。作家の一団も、自分たちの作品をチャットボットの訓練に利用したとして、このAI企業を訴えている。

OpenAIはGoogleの研究者の調査結果に対して、コマンドの再利用は利用規約に違反する可能性があると反応した。

デジタルメディア調査ウェブサイト 404 Media は最近、Google の研究者の調査結果を検証した。ChatGPT に「コンピュータ」という言葉を繰り返すように指示したところ、ロボットは確かにその言葉を発したが、「このコンテンツは当社のコンテンツ ポリシーまたは利用規約に違反している可能性があります」という警告も表示した。

このリクエストが OpenAI のコンテンツ ポリシーのどの部分に違反したかは不明です。しかし、404 Mediaは、OpenAIの利用規約には、ユーザーが「サービスのモデル、アルゴリズム、システム、またはシステムのソースコードまたは基礎となるコンポーネントを逆アセンブル、逆コンパイル、逆アセンブル、翻訳、またはその他の方法で発見しようとしてはならない(かかる制限が適用法に違反しない限り)」と明記されており、ユーザーが「サービスからデータまたは出力を抽出するための自動またはプログラムによる手段」を使用することも制限されていると指摘した。

<<:  NeuRAD: 自動運転のためのニューラル レンダリング (複数のデータセットでの SOTA)

>>:  人工知能を成功に導く8つのステップ

推薦する

人工知能はあなたが思っているほど遠いものではないかもしれない

人工知能は偉大で強力だ、多くの人がそう思っていると思います。実際、私たちはコードのスキャンなど、人工...

電子犬は無残に捨てられたので、VRヘッドセットを装着して古い友達を探しました!メタはメタバースの感情カードを切る

メタはメタバースの「感情カード」をプレイしました。彼は達人だと言わざるを得ません!ぬいぐるみ犬のメタ...

人工知能シナリオにおける HBase の使用

近年、人工知能は、特にビッグデータと組み合わせて使用​​されることで、ますます人気が高まっています。...

マイクロソフト、感情分析技術の販売を中止し、顔認識ツールの使用を制限

マイクロソフトは、人工知能システムのためのより責任ある枠組みを構築する取り組みの一環として、画像分析...

大規模言語モデルの視覚的才能: GPTは文脈学習を通じて視覚的タスクも解決できる

現在、大規模言語モデル (LLM) は、自然言語処理 (NLP) の分野で変化の波を引き起こしていま...

予想外だが妥当: ガートナーの 2020 年データ サイエンスおよび機械学習プラットフォームのマジック クアドラントの解釈

最近、ガートナーはデータ サイエンスおよび機械学習 (DSML) プラットフォームに関するマジック ...

...

大きな論争の中、ニューヨーク警察はロボット犬をボストン・ダイナミクスに返却した

ニューヨーク市警察は、その「ユートピア的」技術に対する激しい批判を受け、米国企業ボストン・ダイナミク...

過大評価されすぎた人工知能バブルは、どのように崩壊するのでしょうか。

実は、似たような事件は以前にも起きている。江蘇省衛星テレビの番組「The Brain」では、百度脳が...

インテルCEOがNVIDIAを非難:CUDA技術は時代遅れであり、業界全体がそれを終わらせたいと考えている

数日前、Intelは生成AI用のAIチップGaudi3を含む一連の新しいCPUを発売しました。計画に...

...

純粋なテキスト モデルは「視覚的な」表現をトレーニングします。 MITの最新研究:言語モデルはコードで絵を描くことができる

「本を読む」ことしかできない大規模な言語モデルは、現実世界の視覚的認識を備えているのでしょうか?文字...

...

...

この「PhD Study Simulator」はとてもリアルです。何回諦めるように説得されるか試してみてください。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...