OpenAI: ニューヨークタイムズは私を攻撃するためにハッカーを雇った

OpenAI: ニューヨークタイムズは私を攻撃するためにハッカーを雇った

新聞社が雇ったハッカーが AI の巨人を攻撃するのはなぜでしょうか?

ニューヨーク・タイムズがOpenAIに対して著作権侵害で起こした数十億ドル規模の訴訟の最新動向:

最新の裁判所提出書類で、OpenAIはニューヨーク・タイムズがハッカーに金銭を支払ってChatGPTを攻撃させ、侵害結果を人為的に作り出したと主張した。

非常に異常な結果を得るためには、欺瞞的な手段を用いた何万回もの試行が必要でした。

写真

この訴訟で敗訴すれば、OpenAIにとって壊滅的な打撃となる可能性がある。

数十億ドルの罰金は大したことではありません。法的分析によると、ChatGPT でさえも完全に排除され、最初から再度トレーニングを強いられる可能性があります。

周知のとおり、アメリカの法律は過去の判例の原則に従っています。

過去数十年間のテクノロジー企業と著作権保有者を巻き込んだ訴訟において、裁判所は必ずしもテクノロジー企業の側に立っていたわけではない。

今回、OpenAI がニューヨーク・タイムズにハッカーを雇うよう提唱したことは、本当に重要です。

ニューヨークタイムズがChatGPTを攻撃した経緯

昨年12月、ニューヨーク・タイムズは、ChatGPTとCopilotの両社が許可なくコンテンツをトレーニングに使用したとして、OpenAIとその親会社であるマイクロソフトを訴えた。

当時、ニューヨークタイムズは、GPT-4 が実際の報道の段落を逐語的に暗唱する例を 100 件公開しました。

このように、ChatGPT は新聞の競合相手と見なすことができます。

写真

OpenAIは、これは脆弱性であると主張し、すでに修正中であると約束した。

具体的には、AI がトレーニング データと非常によく似たサンプルを生成すると、人間が前の文を聞いた後に条件反射として次の文を続けるのと同じように、「トレーニング データの逆流」が発生する可能性があり、誰もそれを止めることはできません。

彼らは、ニューヨークタイムズが特別なプロンプトを使用して ChatGPT に特定の記事の冒頭を出力するように要求し、次の文を要求し続けることでこの抜け穴を利用したと考えています。

OpenAI は、これらの記事全体を生成するには何万回もの試行が必要で、記事は順序どおりではなく「散在して無秩序な引用」になると見積もっています。

普通の人は ChatGPT をこのように使用したり、それを The New York Times の代わりとして考えたりはしないでしょう。

OpenAIは、ChatGPTが記事のスニペットを吐き出す順序を「省略記号を使って不明瞭にし」、ChatGPTが記事の連続した途切れないスニペットを生成したという誤った印象を与えることで、ニューヨーク・タイムズが意図的に裁判所を誤解させたと非難した。

さらに、ニューヨークタイムズは、これらの証拠を生成するために使用した特定のプロンプト、システムプロンプトが変更されたかどうか、およびその他の詳細を一度も公開しておらず、これは非常に有罪です。

プロンプトワード攻撃がハッキング行為とみなされるかどうかについては、一部のネットユーザーは、もちろんそうではないと述べている。プロンプトワードエンジニアリングが確かにエンジニアリングの一種であると認識されれば、プロンプトワード攻撃は攻撃とみなされる。

写真

現在、OpenAI は次の 2 つの主な側面から反撃しています。

1つは、この種のキューワード攻撃はOpenAIの製品利用規約の明白な違反であると主張することです。

写真

2つ目は、インターネット上の公開コンテンツが合理的に利用できることを主張することです。

そのためには、Google に頼らなければなりません。20 年前、Google は数百万冊もの書籍をスキャンして検索エンジンに載せるという大事業を行い、多くの出版社や作家協会から訴えられました。

訴訟は10年以上続き、Googleはようやく非常に苦労して勝訴し、データは公正に使用されたとの判決が下された。

当時の判決では、ユーザーは書籍の短い断片しか見ることができず、著作権で保護された書籍から長い文章を復元することは決してできないとされていた。

Google が検索機能を提供するために書籍のデジタルコピーを作成したことは、書籍の実質的な代替品を公衆に提供することなく原告の書籍に関する情報を提供することで公衆の知識を増やすという変革的な使用であった。

OpenAIだけでなく、同じく著作権訴訟に直面しているStability AIなどのAI画像生成企業も、当時のGoogleと同じことをしていると主張している。

どちらも「トレーニングデータ内の作品に関する情報を学習しますが、作品自体の創造的な表現を再現するものではありません。」

しかし、AIGC 製品が、トレーニング対象の作品と直接競合する創造的な作品を生み出すという点には議論の余地があります。

したがって、この AI 企業グループが直面している危機は、当時 Google が直面していた危機よりもさらに大きいのです。

データを売るのは遅すぎる

実際、ニューヨーク・タイムズのように AI に関して不快な経験をしたコンテンツ企業はまれです。

より多くのインターネット企業が自社のデータを売ろうと躍起になっている。結局のところ、これらの AI 企業は資金に困っているわけではない。

ソラのビデオには、OpenAIのパートナーであるShutterstockの素材の明らかな痕跡が見つかった。

写真

先週、アメリカのフォーラムであるRedditはGoogleと年間6000万ドルの契約を結び、GoogleがAIトレーニングのためにフォーラムのデータをリアルタイムで取得できるようにした。

OpenAIはずっと前から使っていたはずです。何しろサム・アルトマン自身もRedditと密接な関係があり、GPT-1よりも前のプロトタイプ研究はRedditのデータを元にチャットボットをトレーニングするというものでした。

現在、TumblrとWordPressもこれに追随し、ユーザーデータをOpenAIとMidjourneyに販売している。

写真

ユーザーはこのニュースを聞いて残念に思ったが、どうすることもできなかった。アカウントを登録する際には、データの所有権を明記した利用規約に同意する必要があった。

写真

もちろん、AI企業はこれらのデータをただ購入してAIに詰め込むだけではありません。学術界も現在、データを効率的に使用する方法を研究しています。

言語モデルのトレーニングのためのデータ選択に関する最近のレビューが公開され、さまざまなデータ選択方法を比較対照するためのフレームワークが提案され、次のことが提唱されています。

  • データ品質を直接評価し、高価なモデルトレーニングへの依存を減らすメトリックの開発など、データ選択の研究を加速します。
  • データ分布の特性をより深く理解することで、より正確なデータ選択が可能になります。
  • 計算時間をモデルトレーニングからデータ処理にシフトします。

写真

AI 生成コンテンツがインターネット上に広がるにつれ、将来的に大規模モデルのトレーニングを行う際には AI 生成データの使用を避けられなくなります。OpenAI によってトレーニングされたことを「認めた」大規模モデルがいくつあるかを見ればわかります。

同様に、中国のデータも文欣の言葉を避けることはできず、Google Gemini もジョークを飛ばしたほどだ(修正済み)。

写真

人間が昔ながらの方法で手作業で生成した大量のデータを所有するインターネット企業が、それをすぐに販売しなければ、AI は自立するようになるだろう。

参考リンク:
[1]https://s3.documentcloud.org/documents/24443836/nysd-case-612697.pdf

[2] https://arstechnica.com/tech-policy/2024/02/openai-accuses-nyt-of-hacking-chatgpt-to-set-up-copyright-suit/

[3] https://arxiv.org/abs/2402.16827

<<:  GenAI が近づくにつれて、データ ガバナンスはどのように進化するべきでしょうか?

>>:  人間と踊る!中国の6団体が制作したヒューマノイドロボットがストリートショーに進出

ブログ    
ブログ    

推薦する

顔認識におけるコモンズの悲劇

現在、顔認識などの個人情報の所有権と保護に関する権威ある解釈や体系的な政策や法的規範は存在せず、商業...

人工知能の登場により、将来的にこれらの 6 つの職業は失業する可能性があります。あなたは準備ができていますか?

科学技術の発展とビッグデータの登場により、人工知能は私たちの生活にますます近づいてきました。しかし、...

CUDA と TensorRT モデルの展開の最適化: 重要な考慮事項と実践的な戦略

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

Python 向け 5 つの強化学習フレームワーク

独自の強化学習実装をゼロから作成するのは大変な作業になる可能性がありますが、そうする必要はありません...

2000億回のオープン学習を経て、DeepMindのAIはさらに洗練されてきた

[[415688]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

ナノロボットは将来さまざまな場面で使用される可能性がある

最近、米国ペンシルベニア州立大学の科学者たちが新しいタイプのナノロボットを開発しました。このロボット...

MySQL: データ構造とアルゴリズムの原則

[[190898]]この記事では、MySQL データベースを研究対象として取り上げ、データベース イ...

面白いですね!プログラマーが AI を使って双子の息子を認識するんです! 「この Raspberry Pi の顔認識システムは私のものほど正確ではありません」

2021年までに、学習アルゴリズムと人工知能の研究を通じて、機械は多くの面で人間よりも優れていると...

IoTが災害管理にどのように役立つか

[[405572]]災害管理における IoT の活用は、災害を予測し、早期に当局に警告し、災害の影響...

データマイニングにおけるトップ10の古典的なアルゴリズム

国際的に有名な学術組織である IEEE 国際データマイニング会議 (ICDM) は、データマイニング...

人工知能とロボットがすべてを変えているのでしょうか?準備はできたか?

[[227859]]ロボットはかつて、製造業の周辺に限定され、スキルや制御された動作を必要としない...

AIに勝てずイ・セドルが引退を発表

[[284089]] AI囲碁プログラム「アルファ碁」を破った唯一の人間である韓国の九段、イ・セドル...

IDC:中国のAIパブリッククラウド市場は2022年にトレンドに逆らって成長し、成長率は80.6%になる

最近、IDCは「IDC中国AIパブリッククラウドサービス市場シェア、2022」レポートを発表しました...