OpenAI: ニューヨークタイムズは私を攻撃するためにハッカーを雇った

OpenAI: ニューヨークタイムズは私を攻撃するためにハッカーを雇った

新聞社が雇ったハッカーが AI の巨人を攻撃するのはなぜでしょうか?

ニューヨーク・タイムズがOpenAIに対して著作権侵害で起こした数十億ドル規模の訴訟の最新動向:

最新の裁判所提出書類で、OpenAIはニューヨーク・タイムズがハッカーに金銭を支払ってChatGPTを攻撃させ、侵害結果を人為的に作り出したと主張した。

非常に異常な結果を得るためには、欺瞞的な手段を用いた何万回もの試行が必要でした。

写真

この訴訟で敗訴すれば、OpenAIにとって壊滅的な打撃となる可能性がある。

数十億ドルの罰金は大したことではありません。法的分析によると、ChatGPT でさえも完全に排除され、最初から再度トレーニングを強いられる可能性があります。

周知のとおり、アメリカの法律は過去の判例の原則に従っています。

過去数十年間のテクノロジー企業と著作権保有者を巻き込んだ訴訟において、裁判所は必ずしもテクノロジー企業の側に立っていたわけではない。

今回、OpenAI がニューヨーク・タイムズにハッカーを雇うよう提唱したことは、本当に重要です。

ニューヨークタイムズがChatGPTを攻撃した経緯

昨年12月、ニューヨーク・タイムズは、ChatGPTとCopilotの両社が許可なくコンテンツをトレーニングに使用したとして、OpenAIとその親会社であるマイクロソフトを訴えた。

当時、ニューヨークタイムズは、GPT-4 が実際の報道の段落を逐語的に暗唱する例を 100 件公開しました。

このように、ChatGPT は新聞の競合相手と見なすことができます。

写真

OpenAIは、これは脆弱性であると主張し、すでに修正中であると約束した。

具体的には、AI がトレーニング データと非常によく似たサンプルを生成すると、人間が前の文を聞いた後に条件反射として次の文を続けるのと同じように、「トレーニング データの逆流」が発生する可能性があり、誰もそれを止めることはできません。

彼らは、ニューヨークタイムズが特別なプロンプトを使用して ChatGPT に特定の記事の冒頭を出力するように要求し、次の文を要求し続けることでこの抜け穴を利用したと考えています。

OpenAI は、これらの記事全体を生成するには何万回もの試行が必要で、記事は順序どおりではなく「散在して無秩序な引用」になると見積もっています。

普通の人は ChatGPT をこのように使用したり、それを The New York Times の代わりとして考えたりはしないでしょう。

OpenAIは、ChatGPTが記事のスニペットを吐き出す順序を「省略記号を使って不明瞭にし」、ChatGPTが記事の連続した途切れないスニペットを生成したという誤った印象を与えることで、ニューヨーク・タイムズが意図的に裁判所を誤解させたと非難した。

さらに、ニューヨークタイムズは、これらの証拠を生成するために使用した特定のプロンプト、システムプロンプトが変更されたかどうか、およびその他の詳細を一度も公開しておらず、これは非常に有罪です。

プロンプトワード攻撃がハッキング行為とみなされるかどうかについては、一部のネットユーザーは、もちろんそうではないと述べている。プロンプトワードエンジニアリングが確かにエンジニアリングの一種であると認識されれば、プロンプトワード攻撃は攻撃とみなされる。

写真

現在、OpenAI は次の 2 つの主な側面から反撃しています。

1つは、この種のキューワード攻撃はOpenAIの製品利用規約の明白な違反であると主張することです。

写真

2つ目は、インターネット上の公開コンテンツが合理的に利用できることを主張することです。

そのためには、Google に頼らなければなりません。20 年前、Google は数百万冊もの書籍をスキャンして検索エンジンに載せるという大事業を行い、多くの出版社や作家協会から訴えられました。

訴訟は10年以上続き、Googleはようやく非常に苦労して勝訴し、データは公正に使用されたとの判決が下された。

当時の判決では、ユーザーは書籍の短い断片しか見ることができず、著作権で保護された書籍から長い文章を復元することは決してできないとされていた。

Google が検索機能を提供するために書籍のデジタルコピーを作成したことは、書籍の実質的な代替品を公衆に提供することなく原告の書籍に関する情報を提供することで公衆の知識を増やすという変革的な使用であった。

OpenAIだけでなく、同じく著作権訴訟に直面しているStability AIなどのAI画像生成企業も、当時のGoogleと同じことをしていると主張している。

どちらも「トレーニングデータ内の作品に関する情報を学習しますが、作品自体の創造的な表現を再現するものではありません。」

しかし、AIGC 製品が、トレーニング対象の作品と直接競合する創造的な作品を生み出すという点には議論の余地があります。

したがって、この AI 企業グループが直面している危機は、当時 Google が直面していた危機よりもさらに大きいのです。

データを売るのは遅すぎる

実際、ニューヨーク・タイムズのように AI に関して不快な経験をしたコンテンツ企業はまれです。

より多くのインターネット企業が自社のデータを売ろうと躍起になっている。結局のところ、これらの AI 企業は資金に困っているわけではない。

ソラのビデオには、OpenAIのパートナーであるShutterstockの素材の明らかな痕跡が見つかった。

写真

先週、アメリカのフォーラムであるRedditはGoogleと年間6000万ドルの契約を結び、GoogleがAIトレーニングのためにフォーラムのデータをリアルタイムで取得できるようにした。

OpenAIはずっと前から使っていたはずです。何しろサム・アルトマン自身もRedditと密接な関係があり、GPT-1よりも前のプロトタイプ研究はRedditのデータを元にチャットボットをトレーニングするというものでした。

現在、TumblrとWordPressもこれに追随し、ユーザーデータをOpenAIとMidjourneyに販売している。

写真

ユーザーはこのニュースを聞いて残念に思ったが、どうすることもできなかった。アカウントを登録する際には、データの所有権を明記した利用規約に同意する必要があった。

写真

もちろん、AI企業はこれらのデータをただ購入してAIに詰め込むだけではありません。学術界も現在、データを効率的に使用する方法を研究しています。

言語モデルのトレーニングのためのデータ選択に関する最近のレビューが公開され、さまざまなデータ選択方法を比較対照するためのフレームワークが提案され、次のことが提唱されています。

  • データ品質を直接評価し、高価なモデルトレーニングへの依存を減らすメトリックの開発など、データ選択の研究を加速します。
  • データ分布の特性をより深く理解することで、より正確なデータ選択が可能になります。
  • 計算時間をモデルトレーニングからデータ処理にシフトします。

写真

AI 生成コンテンツがインターネット上に広がるにつれ、将来的に大規模モデルのトレーニングを行う際には AI 生成データの使用を避けられなくなります。OpenAI によってトレーニングされたことを「認めた」大規模モデルがいくつあるかを見ればわかります。

同様に、中国のデータも文欣の言葉を避けることはできず、Google Gemini もジョークを飛ばしたほどだ(修正済み)。

写真

人間が昔ながらの方法で手作業で生成した大量のデータを所有するインターネット企業が、それをすぐに販売しなければ、AI は自立するようになるだろう。

参考リンク:
[1]https://s3.documentcloud.org/documents/24443836/nysd-case-612697.pdf

[2] https://arstechnica.com/tech-policy/2024/02/openai-accuses-nyt-of-hacking-chatgpt-to-set-up-copyright-suit/

[3] https://arxiv.org/abs/2402.16827

<<:  GenAI が近づくにつれて、データ ガバナンスはどのように進化するべきでしょうか?

>>:  人間と踊る!中国の6団体が制作したヒューマノイドロボットがストリートショーに進出

ブログ    
ブログ    
ブログ    

推薦する

2019 年に CIO が AI 導入をリードできる 5 つの方法

[[261760]]詳細な宿題のレビューからバックオフィスの自動化まで、AI の進歩は今後 1 年間...

...

5つのリソースカテゴリー:大規模言語モデルのリソース効率を向上させる方法、超詳細なレビューはこちら

近年、OpenAI の GPT-3 などの大規模言語モデル (LLM) は、人工知能の分野で大きな進...

プラットフォームの後は、モジュラーシャーシが主流になるのでしょうか?

自動車プラットフォームはどれほど重要ですか?この質問に答える必要はありません。市場で主流の自動車モデ...

...

新しいIT運用・保守管理にはインフラストラクチャとデータの両方が必要

AIビッグモデルの時代、データはIT担当者に「新たな使命」を与える今日、IT プロフェッショナルは企...

この方法を使えば誰でもLeetCodeで1位を獲得できる(再現可能)

数日前、GPT を使用して LeetCode の問題を練習し、アルゴリズムを学び、アイデアを刺激し、...

新たな自動運転ランキングが発表

最近、米国の市場調査機関であるナビガントリサーチが、自動運転の競争力に関する新たなランキングを発表し...

コードを書けるAIが登場

テクノロジー・トラベラーは2月10日、北京から次のように報じた。「人工知能技術はコーディング開発の結...

OpenAI CEOアルトマン氏の突然の解任に関する分析

今日は一緒に楽しく OpenAI について話し合いましょう。もともと書きたくなかったのですが、自メデ...

ナレッジグラフリテラシー

過去 2 年間で、Linking Open Data などのプロジェクトの本格的な開発により、セマン...

都市 AI アプリケーションの失敗事例: 善意の自治体 AI プロジェクトはなぜ失敗したのか?

編集者注: AI をどのように実装できるかを検討してきた私たちにとって、この Flint の事例は目...

自動運転分野における機械学習アルゴリズムの応用に関する包括的なレビュー

機械学習は、車内外のセンサーからのデータを融合して、運転者の状態を評価し、運転シナリオを分類するため...

AIイノベーションを奨励する100万ドルの賞金:2021 DIGIXグローバルキャンパスAIアルゴリズムエリートコンペティションが開幕

6月10日、江蘇省人工知能学会、ファーウェイ端末クラウドサービス、ファーウェイ南京研究所が共催する2...

AI基盤を強化し、業界の実践に注力する---WOTグローバル人工知能技術サミット機械学習実践フォーラムの記録

[51CTO.comよりオリジナル記事] 6月21日、51CTO主催のWOT2019グローバル人工知...