Googleによると、特定のキーワードを繰り返すとChatGPTのトレーニングデータが明らかになる可能性があるという。OpenAI：利用規約違反

12月5日、Googleの研究者グループは、OpenAIの人工知能チャットボットChatGPTのトレーニングデータの一部を入手する方法を発見したと主張した。

新しく公開された論文の中で、Google の研究者は、特定のキーワードによって ChatGPT がトレーニングに使用したデータセットの一部を漏洩させる可能性があることを明らかにしました。

例えば、モデルは「poem」という単語を永遠に繰り返すように指示された後、本物の電子メールアドレスと電話番号のように見えるものを生成したという。研究者らは、懸念すべきことに、攻撃中に個人情報の漏洩が頻繁に発生したと述べている。

別の例では、モデルに「company」という単語を永遠に繰り返すように要求したときに、同様のトレーニングデータの漏洩が発生しました。

研究者らは、この単純な攻撃を「少しばかげている」としながらも、ブログ投稿で「我々の攻撃が成功したとは信じられない！もっと早く発見すべきだったし、発見できたはずだ」と述べた。

わずか200ドル相当のクエリを使用して、「10,000件を超える逐語的なトレーニング例を抽出」することができたと論文で述べています。「われわれの推測によれば、競合他社はより大きな予算を動員すれば、さらに多くのデータを抽出できる可能性がある」と研究者らは付け加えた。

OpenAIは現在、ChatGPTの秘密のトレーニングデータに関していくつかの訴訟に直面している。 ChatGPTを動かすAIモデルは、インターネット上のテキストのデータベースを使用してトレーニングされており、約3000億語、つまり570GBのデータでトレーニングされたと考えられています。

提案されている集団訴訟では、OpenAIがChatGPTをトレーニングするために、医療記録や子供の情報を含む「膨大な量の個人データ」を「秘密裏に」盗んだと主張している。作家の一団も、自分たちの作品をチャットボットの訓練に利用したとして、このAI企業を訴えている。

OpenAIはGoogleの研究者の調査結果に対して、コマンドの再利用は利用規約に違反する可能性があると反応した。

デジタルメディア調査ウェブサイト 404 Media は最近、Google の研究者の調査結果を検証した。ChatGPT に「コンピュータ」という言葉を繰り返すように指示したところ、ロボットは確かにその言葉を発したが、「このコンテンツは当社のコンテンツポリシーまたは利用規約に違反している可能性があります」という警告も表示した。

このリクエストが OpenAI のコンテンツポリシーのどの部分に違反したかは不明です。しかし、404 Mediaは、OpenAIの利用規約には、ユーザーが「サービスのモデル、アルゴリズム、システム、またはシステムのソースコードまたは基礎となるコンポーネントを逆アセンブル、逆コンパイル、逆アセンブル、翻訳、またはその他の方法で発見しようとしてはならない（かかる制限が適用法に違反しない限り）」と明記されており、ユーザーが「サービスからデータまたは出力を抽出するための自動またはプログラムによる手段」を使用することも制限されていると指摘した。

<<: NeuRAD: 自動運転のためのニューラルレンダリング (複数のデータセットでの SOTA)

>>: 人工知能を成功に導く8つのステップ

ブログ

Googleによると、特定のキーワードを繰り返すとChatGPTのトレーニングデータが明らかになる可能性があるという。OpenAI：利用規約違反

テスラとモメンタの「自動運転アルゴリズム」の秘密を研究した

普通の文書も会話に変えられる：会話補完技術の深い理解

ChatGPTに6つの新機能が追加され、GPT-4がデフォルトモデルとなり、ショートカットキーを使用してファイルのアップロードがサポートされるようになりました。

ちょっとした会話の後に心を開いてみませんか?この世代の人工知能はあなたのプライバシーを会話の話題に変えました

OpenAI セキュリティシステムディレクターが長文記事を執筆: 大規模モデルに対する敵対的攻撃と防御

推薦する

機械学習は、モノのインターネットの発展に欠かせない未来となるだろう

未来を受け入れる: AIと教育テクノロジーによる教育の変革

兆パラメータ規模を突破し、究極の効率性と費用対効果を追求：中国チームが初の異種並列推奨システムトレーニングフレームワークをオープンソース化ペルシャ

Python が機械学習プロジェクトに最適な言語である理由は何ですか?

企業向けの優れたビジネスインテリジェンスツール 10 選

Pythonで完全な異常検出アルゴリズムをゼロから実装する

App Store 中国地域がアルゴリズムを調整？一部のアプリではフルネームによる検索が機能しません

P-Careは人間の知的生活の新たなトレンドをリードしています。中瑞富寧と世界をリードする科学者たちが2018年世界ロボット会議（WRC）に輝かしい登場を果たしました。

2021年のMLとNLPの学術統計：Googleが1位、強化学習の専門家Sergey Levineが1位に