OpenAI: ニューヨークタイムズは私を攻撃するためにハッカーを雇った

新聞社が雇ったハッカーが AI の巨人を攻撃するのはなぜでしょうか?

ニューヨーク・タイムズがOpenAIに対して著作権侵害で起こした数十億ドル規模の訴訟の最新動向:

最新の裁判所提出書類で、OpenAIはニューヨーク・タイムズがハッカーに金銭を支払ってChatGPTを攻撃させ、侵害結果を人為的に作り出したと主張した。

非常に異常な結果を得るためには、欺瞞的な手段を用いた何万回もの試行が必要でした。

写真

この訴訟で敗訴すれば、OpenAIにとって壊滅的な打撃となる可能性がある。

数十億ドルの罰金は大したことではありません。法的分析によると、ChatGPT でさえも完全に排除され、最初から再度トレーニングを強いられる可能性があります。

周知のとおり、アメリカの法律は過去の判例の原則に従っています。

過去数十年間のテクノロジー企業と著作権保有者を巻き込んだ訴訟において、裁判所は必ずしもテクノロジー企業の側に立っていたわけではない。

今回、OpenAI がニューヨーク・タイムズにハッカーを雇うよう提唱したことは、本当に重要です。

ニューヨークタイムズがChatGPTを攻撃した経緯

昨年12月、ニューヨーク・タイムズは、ChatGPTとCopilotの両社が許可なくコンテンツをトレーニングに使用したとして、OpenAIとその親会社であるマイクロソフトを訴えた。

当時、ニューヨークタイムズは、GPT-4 が実際の報道の段落を逐語的に暗唱する例を 100 件公開しました。

このように、ChatGPT は新聞の競合相手と見なすことができます。

写真

OpenAIは、これは脆弱性であると主張し、すでに修正中であると約束した。

具体的には、AI がトレーニングデータと非常によく似たサンプルを生成すると、人間が前の文を聞いた後に条件反射として次の文を続けるのと同じように、「トレーニングデータの逆流」が発生する可能性があり、誰もそれを止めることはできません。

彼らは、ニューヨークタイムズが特別なプロンプトを使用して ChatGPT に特定の記事の冒頭を出力するように要求し、次の文を要求し続けることでこの抜け穴を利用したと考えています。

OpenAI は、これらの記事全体を生成するには何万回もの試行が必要で、記事は順序どおりではなく「散在して無秩序な引用」になると見積もっています。

普通の人は ChatGPT をこのように使用したり、それを The New York Times の代わりとして考えたりはしないでしょう。

OpenAIは、ChatGPTが記事のスニペットを吐き出す順序を「省略記号を使って不明瞭にし」、ChatGPTが記事の連続した途切れないスニペットを生成したという誤った印象を与えることで、ニューヨーク・タイムズが意図的に裁判所を誤解させたと非難した。

さらに、ニューヨークタイムズは、これらの証拠を生成するために使用した特定のプロンプト、システムプロンプトが変更されたかどうか、およびその他の詳細を一度も公開しておらず、これは非常に有罪です。

プロンプトワード攻撃がハッキング行為とみなされるかどうかについては、一部のネットユーザーは、もちろんそうではないと述べている。プロンプトワードエンジニアリングが確かにエンジニアリングの一種であると認識されれば、プロンプトワード攻撃は攻撃とみなされる。

写真

現在、OpenAI は次の 2 つの主な側面から反撃しています。

1つは、この種のキューワード攻撃はOpenAIの製品利用規約の明白な違反であると主張することです。

写真

2つ目は、インターネット上の公開コンテンツが合理的に利用できることを主張することです。

そのためには、Google に頼らなければなりません。20 年前、Google は数百万冊もの書籍をスキャンして検索エンジンに載せるという大事業を行い、多くの出版社や作家協会から訴えられました。

訴訟は10年以上続き、Googleはようやく非常に苦労して勝訴し、データは公正に使用されたとの判決が下された。

当時の判決では、ユーザーは書籍の短い断片しか見ることができず、著作権で保護された書籍から長い文章を復元することは決してできないとされていた。

Google が検索機能を提供するために書籍のデジタルコピーを作成したことは、書籍の実質的な代替品を公衆に提供することなく原告の書籍に関する情報を提供することで公衆の知識を増やすという変革的な使用であった。

OpenAIだけでなく、同じく著作権訴訟に直面しているStability AIなどのAI画像生成企業も、当時のGoogleと同じことをしていると主張している。

どちらも「トレーニングデータ内の作品に関する情報を学習しますが、作品自体の創造的な表現を再現するものではありません。」

しかし、AIGC 製品が、トレーニング対象の作品と直接競合する創造的な作品を生み出すという点には議論の余地があります。

したがって、この AI 企業グループが直面している危機は、当時 Google が直面していた危機よりもさらに大きいのです。

データを売るのは遅すぎる

実際、ニューヨーク・タイムズのように AI に関して不快な経験をしたコンテンツ企業はまれです。

より多くのインターネット企業が自社のデータを売ろうと躍起になっている。結局のところ、これらの AI 企業は資金に困っているわけではない。

ソラのビデオには、OpenAIのパートナーであるShutterstockの素材の明らかな痕跡が見つかった。

写真

先週、アメリカのフォーラムであるRedditはGoogleと年間6000万ドルの契約を結び、GoogleがAIトレーニングのためにフォーラムのデータをリアルタイムで取得できるようにした。

OpenAIはずっと前から使っていたはずです。何しろサム・アルトマン自身もRedditと密接な関係があり、GPT-1よりも前のプロトタイプ研究はRedditのデータを元にチャットボットをトレーニングするというものでした。

現在、TumblrとWordPressもこれに追随し、ユーザーデータをOpenAIとMidjourneyに販売している。

写真

ユーザーはこのニュースを聞いて残念に思ったが、どうすることもできなかった。アカウントを登録する際には、データの所有権を明記した利用規約に同意する必要があった。

写真

もちろん、AI企業はこれらのデータをただ購入してAIに詰め込むだけではありません。学術界も現在、データを効率的に使用する方法を研究しています。

言語モデルのトレーニングのためのデータ選択に関する最近のレビューが公開され、さまざまなデータ選択方法を比較対照するためのフレームワークが提案され、次のことが提唱されています。

データ品質を直接評価し、高価なモデルトレーニングへの依存を減らすメトリックの開発など、データ選択の研究を加速します。
データ分布の特性をより深く理解することで、より正確なデータ選択が可能になります。
計算時間をモデルトレーニングからデータ処理にシフトします。

写真

AI 生成コンテンツがインターネット上に広がるにつれ、将来的に大規模モデルのトレーニングを行う際には AI 生成データの使用を避けられなくなります。OpenAI によってトレーニングされたことを「認めた」大規模モデルがいくつあるかを見ればわかります。

同様に、中国のデータも文欣の言葉を避けることはできず、Google Gemini もジョークを飛ばしたほどだ（修正済み）。

写真

人間が昔ながらの方法で手作業で生成した大量のデータを所有するインターネット企業が、それをすぐに販売しなければ、AI は自立するようになるだろう。

参考リンク:
[1]https://s3.documentcloud.org/documents/24443836/nysd-case-612697.pdf

[2] https://arstechnica.com/tech-policy/2024/02/openai-accuses-nyt-of-hacking-chatgpt-to-set-up-copyright-suit/

[3] https://arxiv.org/abs/2402.16827

<<: GenAI が近づくにつれて、データガバナンスはどのように進化するべきでしょうか?

>>: 人間と踊る！中国の6団体が制作したヒューマノイドロボットがストリートショーに進出

分析: 人工知能について私が心配しているのはなぜでしょうか?

ブログ

OpenAI: ニューヨークタイムズは私を攻撃するためにハッカーを雇った

ニューヨークタイムズがChatGPTを攻撃した経緯

データを売るのは遅すぎる

参考リンク:
[1]https://s3.documentcloud.org/documents/24443836/nysd-case-612697.pdf

分析: 人工知能について私が心配しているのはなぜでしょうか?

李菲菲の「具現化された知能」はどこまで進歩したのか？

雲智盛梁嘉恩: インテリジェントインタラクション技術とモノのインターネットアプリケーション

データサイエンティストと開発者向けの新しいツールであるAmazon SageMakerが中国で利用可能になりました

IBM Li Hongyan: 顧客の視点から「クラウドコンピューティングとデジタルインテリジェンスの活用」を考える

GPT-4 を搭載した初のヒューマノイドロボット!プログラミングは不要 + ゼロショット学習、口頭フィードバックに基づいて動作を調整可能

Python コードを書くことができる人工知能 Kite が Linux のサポートを発表。プログラマーは職を失うことになるのでしょうか?

推薦する

トヨタのAIの旅：車だけにとどまらない

AIシステムが初めて真の自律プログラミングを実現：遺伝的アルゴリズムを使用して初心者プログラマーを上回る

機械学習を超簡単にする 8 つのオープンソースツール

Midjourney V6は大幅に進化しており、トップネットユーザーによる徹底レビューがここにあります!画質は恐ろしいほどリアルで、ポートレート写真は素晴らしいです

シリコンバレーの大企業も「名門校の学位」を重視するのでしょうか？ Redditの男の魂を問う質問が白熱した議論を巻き起こす

自動運転は道路安全の問題をどのように解決するのでしょうか?

最初の機械学習APIをデプロイする

人工知能に関してどのような基礎教育が必要でしょうか?

ロボット対コンベア：倉庫物流における戦い

2021 年に注目すべき 3 つのデータ分析と AI のトレンド

ニューヨークタイムズがChatGPTを攻撃した経緯

データを売るのは遅すぎる

参考リンク: [1]https://s3.documentcloud.org/documents/24443836/nysd-case-612697.pdf

推薦する

参考リンク:
[1]https://s3.documentcloud.org/documents/24443836/nysd-case-612697.pdf