史上最大のAI著作権訴訟を徹底分析！ OpenAI は失敗する運命にあるのでしょうか、それともニューヨーク・タイムズが勝つ可能性はゼロなのでしょうか?

ニューヨーク・タイムズによるOpenAIとマイクロソフトに対する訴訟は、AI技術の発展に影響を及ぼす画期的な訴訟となるかもしれない。

最も影響力のある伝統的な西洋メディアの一つであるニューヨーク・タイムズは、AI技術の「最先端の生産性」を代表するOpenAIとの対立で話題となっている。

写真

伝統的メディア関係者のジェイソン・キント氏は、ニューヨーク・タイムズの訴訟を読んで、ニューヨーク・タイムズには十分な理由があると感じた。

起訴状の要点を要約してツイッターに投稿したところ、１日で２８０万回閲覧された。

写真

もう一人の大物、ダニエル・ジェフリーズ氏はジェイソン・キント氏の顔を平手打ちし、彼の記事は「過度に楽観的な空想」と「著作権法の誤解」に満ちていると述べた。

提唱者：NYTの訴訟は確固たる証拠に基づいている

ジェイソン・キント氏はニューヨーク・タイムズの訴訟の概要の中で、著作権法の起源から始め、従来のメディアのニュースへのアクセスにおける著作権保護の重要性を要約した。

写真

ChatGPT の侵害の最も重要な証拠は、ニューヨークタイムズが提供した 100 を超える例であり、GPT-4 の出力コンテンツがニューヨークタイムズのレポートと非常に類似していることを示しています。

写真

これらの非常に類似した出力事例は、著作権侵害が存在するかどうかを裁判官が判断する上で重要な役割を果たすことになります。

写真

苦情には、OpenAIのトレーニングデータソースの好みと重みも詳しく記載されており、OpenAIがChatGPTをトレーニングするために使用した主要なソースはニューヨークタイムズのコンテンツであったと述べている。

OpenAIが自社製品のトレーニングにニューヨーク・タイムズのコンテンツを無料で利用できるとすれば、ニュース制作における従来のメディアの投資と利益のエコロジーが損なわれ、ニュース市場全体が破壊されることになる。

写真

ニューヨーク・タイムズ紙は、検索エンジンの結果とBing Chatによって生成されたコンテンツも比較しました。

写真

訴訟では、検索エンジンが提供するコンテンツではユーザーがニューヨーク・タイムズのコンテンツに直接アクセスできるのに対し、Bing Chat が提供する回答ではニューヨーク・タイムズへの元のリンクが小さな脚注になっており、ユーザーが気づきにくいと主張している。

同時に、ニューヨーク・タイムズは、裁判所がOpenAIと他の執筆者との間の紛争を自社の訴訟と統合し、自社の主張が支持される可能性が高まることを期待している。

写真

反対派：NYTの勝率はほぼゼロ

ニューヨーク・タイムズ紙などが著作権侵害でOpenAIを相手取って起こした現在の訴訟では、ChatGPTの成果物が著作権で保護されている場合、著作権者の権利の侵害とみなされるべきかどうかに焦点が当てられている。

この問題に関して、OpenAIを支持する声の多くは、ニューヨーク・タイムズが提出した証拠では侵害の存在を証明できないと考えている。

しかし、もう一人の大物記者ダニエル・ジェフリーズは、ニューヨーク・タイムズがこの訴訟に勝つことはほぼ不可能だと考えている。

写真

ジェイソン・キント氏は、訴訟に関する自身の解釈が正確であると確信しているようだった。しかし実際には、彼の記事は過度に楽観的な空想、著作権法の誤解、そして無関係な逸脱に満ちている。

彼は、この訴訟が画期的な出来事となり、メディアが機器に課金する権利があることを立証することを強く望んでいるが、実際には著作権法では全く規定されていない。彼が理解しているテキストの内容は彼が考えているものとは異なっており、「訴訟に勝つ」可能性すらないのだ。

実際は、その逆です。

まず、先ほど述べたように、トレーニングデータのライセンス料を全員に支払うよう要求するのは非現実的です。これは著作権法が扱う問題ではないためです。

第二に、キントが提示したいわゆる証拠のほとんどは、単なるレトリックと主題の意図的な逸脱であり、実際の侵害を証明するには不十分である。なぜなら、侵害の鍵となるのは、作品の入力内容ではなく出力内容にあるからである。

- 人間も学習できますが、機械も学習できます。そうでなければ、まずはヘミングウェイから学ぶための「研修料」を払ってみてはいかがでしょうか？

私たちは皆、無料で学習し、周囲の世界から知識を吸収しており、機械も同じことができるはずです。

ニューヨーク・タイムズの記者たちは、簡潔で力強い文章の書き方を独学で学んだとき、ヘミングウェイの遺産を支払わなかった。

若いクォーターバックはトム・ブレイディの動きを研究し、ボールの投げ方を学ぶのに彼の許可を必要としない。

著作権法の目的は、人々がコンテンツのコピーまたはそれに近いものを作成し、それを商業目的で配布することを防ぐことです。それだけです。

- 公共の利益と企業の市場価値を結びつけるのは無意味である

マイクロソフトの時価総額の 1 兆ドルの増加とトレーニングに使用されたデータを比較するのはまったく不合理です。

ニューヨーク・タイムズは、戦争、殺人、政治を報道する同社の報道価値をこの事件と結び付けようとしているのだろうか？これは全く関係ありません。これを持ち出すことは、注意をそらすための試みに過ぎず、実際的な意味はありません。

彼らは、とらえどころのない公共の利益の価値に結び付けようとしますが、それはうまくいきません。

- いくつかのヒントのみが表示され、RAGを使用してGPT出力を偽装しても再現できません

彼らが挙げる最も刺激的な証拠、つまりGPTがニューヨークタイムズのコンテンツを正確にコピーしたという主張でさえ、明らかに人間による操作の結果である。

AI に携わる人なら誰でもこれをすぐに理解できます。さらに、いわゆるプロンプトを使用してその出力をそのまま再現できる人は誰もいませんでした。

なぜ？

なぜなら、その逐語的な出力は、ほぼ間違いなく記憶から取得されたものではなく、Web 検索と組み合わせた検索拡張生成 (RAG) から取得されたものであるからです。

プログラマーが API を通じて特定の記事を検索し、その記事の一部を出力するように具体的に指示し、記事全体ではなく部分的なヒントのみを提供した可能性があります。

ニューヨークタイムズの記事を見つけて出力するように指示した場合、その責任はモデルではなく私にあります。

さらに、何十年も前のプログラミングライブラリでは、機械学習技術を必要とせずにこれを実行できます。

もしこの主張が含まれていたなら、弁護士が現実世界でそのプロセスを再現することができなかったため、訴訟は確実に失敗していたでしょう。

- OpenAIを活用したいが、これは非常に悪い前例だ

この訴訟の最も可能性の高い結末は、マイクロソフトとOpenAIがトレーニングデータの使用に対するライセンス料を支払うという法廷外和解だ。

そして、これが実際に論争の焦点なのです。

この「和解」は、実質的な判決がないため、まるでトレーニングデータにアクセスするために高額を支払う必要があるかのような誤った勝利感を人々に与えることになり、すべての人にとって悪い前例となるでしょう。

反対意見 +1

テックダートの記者マイク・マスニック氏も、ニューヨーク・タイムズの訴訟自体が「言語道断」だと述べた。

写真

同氏は、ニューヨーク・タイムズが起こした訴訟は、自分にとって「馴染みのあるレシピ、馴染みのある味」のように思えると語った。

多くの著作権所有者がAI企業に対して同様の訴訟を起こしており、その数は10件を超えている。しかし、訴訟を起こした人々の多くは愚かで、著作権法を全く理解していないようでした。

さらに、たとえ裁判所がニューヨーク・タイムズに有利な判決を下したとしても、ニューヨーク・タイムズがそれを巨額の利益に変えることはできないだろう。

この状況を変えることができる唯一の方法は、この巨額の金を支払って渡すことができる愚かな AI 企業を数社騙すための集金ポイントを設立することです。

彼の目には、ニューヨーク・タイムズはAIの侵略を防ぐために戦う報道の自由の偉大な擁護者として自らを描いていたが、実際には、同社が行ったのは、OpenAIにデータトレーニングの費用を支払わせるための交渉戦略に過ぎなかった。

数週間前、OpenAIは訴訟の可能性を回避するために業界大手のアクセル・シュプリンガーに多額の料金を支払った。しかし、OpenAIとニューヨーク・タイムズ紙との交渉では同様の結果は得られなかったため、ニューヨーク・タイムズ紙は控訴することを選択した。

ニューヨークタイムズの最も正当な見解は、GPT 大規模モデルは Common Crawl のデータを使用して部分的にトレーニングされたというものですが、Common Crawl の本来の目的はオープンネットワークリソースライブラリを構築することでした。

Google のキャッシュやインターネットアーカイブのタイムマシンと同様に、このツールは歴史のアーカイブであり、常に「公正使用」の原則によって保護されてきました。

しかし、今度はニューヨーク・タイムズが非難に乗り出した。

マイク・マズニック氏は、データの読み取り/処理は著作権法によって制限される権利ではないと強調した。

複数の訴訟において、原告らは、裁判官がこの斬新な「生成AI」技術に驚嘆し、著作権法の基本原則を無視して、実際には存在しない権利が存在すると仮定することを期待している。

ニューヨークタイムズの訴訟がユニークなのは、内容が同一の一連の記事の証拠を提示している点だ。しかし、生成AIの原理を詳しく見てみると、この問題はそれほどセンセーショナルなものではないことがわかる。

法廷で提出された証拠のみに基づいて、ChatGPT が著作権を侵害したと立証することは困難です。

GPT-4 が New York Times のレポートに非常に類似した記事を生成するように導くために、New York Times は GPT-4 を次のように操作しました。

まず、レポートへのリンク (URL) が GPT-4 に提供され、次に記事のタイトルと最初の 7 段落半が「ガイド」として与えられ、GPT-4 に記事の完成を続行するように求められました。

写真

裁判官が GPT-4 の仕組みを理解できれば、GPT-4 によって生成されたコンテンツが元のテキストとほぼ同じになるのは正常だと理解するでしょう。

GPT のような生成 AI にプロンプトを与えると、出力の範囲と制限を決定する一連のパラメータが設定されます。これらの制約内で可能な限り最善の応答を生成しようとします。

しかし、ニューヨークタイムズがこれらの記事の文章を長さで提供したとき、実際には GPT-4 は元のニューヨークタイムズの記事に非常に近いコンテンツのみを生成するように制限されていました。

しかし、訴状の不合理さはそれだけでは終わらない。

なぜなら、ChatGPT に記事の最初の数段落を引用させ、一度に小さな段落だけを引用させることで、このようにして New York Times のペイウォールをある程度回避できるからです。

このように ChatGPT に指示することは、The New York Times が ChatGPT に元のテキストと一致するコンテンツを生成するように強制することとほぼ同等であることがわかります。

写真

もちろん、ニュース記事から個々の段落を引用することは、ほぼ確実にフェアユースとして認められます。

そして注目すべきことに、ニューヨーク・タイムズ自身も、この慣行は実際には記事全体の原文ではなく、書き直されたバージョンを提供したことを認めた。

さらに、訴訟では、記事の内容を単に要約するだけでも著作権侵害に当たると示唆しているようだ。

写真

ここで重要なのは、GPT がどのようにトレーニングされるかではなく、NYT がその出力をどのように制限するかです。

LLM の原理は、スキャンされたコンテンツを単に繰り返すのではなく、指定されたプロンプトの下で次のトークンが表示される可能性が最も高い確率を計算することです。

NYT がこのようにプロンプトを制限して、データセットが 1 つの記事だけに限定されると、出力は当然元のテキストになります。

一方、タイムズ紙は、GPT によって返された実際の情報は著作権法で保護されていないと再度不満を述べた。

一方、NYTが苦情を申し立てたGPTから返された実際の情報は著作権法で保護されていません。

写真

ニューヨーク・タイムズ紙は、訴状の後半で「GPTは時々間違った製品を推奨したり、幻覚を作り出すためにコンテンツを捏造したりする」と指摘した。

それで、ニューヨークタイムズは、GPT の再現が正確すぎる、あるいは正確さが足りないと不満を言っているのでしょうか?

ニューヨークタイムズが、記者がニュース記事を書く前にニュースの内容を知るために第三者の記事を読むことは著作権侵害に当たると主張して勝訴した場合。 NYT は絶対にこのアプローチを受け入れないだろう。

もしそうなら、OpenAI が NYT の記事を分析することと、NYT が許可なく他の記事、文書、研究を分析することの違いは何でしょうか?

あるいは、ニューヨークタイムズの記者が情報源から著作権で保護された資料 (おそらく記事、書籍、写真など) を受け取ったが、ニューヨークタイムズがその資料の著作権を所有していないと想像してください。

それで、ジャーナリストはこの資料を使って記事を書くことができるのでしょうか?

参考文献:

https://www.techdirt.com/2023/12/28/the-ny-times-lawsuit-against-openai-would-open-up-the-ny-times-to-all-sorts-of-lawsuits-should-it-win/

https://twitter.com/jason_kint/status/1740141400443035785

https://twitter.com/Dan_Jeffries1/status/1740303405254377808

<<:

>>:

ブログ

Google の最新 AI モデル「Gemini」について知っておくべきことすべて

ブログ

史上最大のAI著作権訴訟を徹底分析！ OpenAI は失敗する運命にあるのでしょうか、それともニューヨーク・タイムズが勝つ可能性はゼロなのでしょうか?

- 人間も学習できますが、機械も学習できます。そうでなければ、まずはヘミングウェイから学ぶための「研修料」を払ってみてはいかがでしょうか？

- 公共の利益と企業の市場価値を結びつけるのは無意味である

- いくつかのヒントのみが表示され、RAGを使用してGPT出力を偽装しても再現できません

- OpenAIを活用したいが、これは非常に悪い前例だ

コンピュータビジョンにおける物体検出のためのデータ前処理

ビジネスの自動化は、企業のデジタル変革における重要な課題となっている。

ChatGPTでユーザーは何をするのでしょうか？プログラミングは30％を占めています。数千万人のユーザーを分析すると答えが見つかります

CNN の弱点を見つけ、MNIST の「ルーチン」に注意する

Python による AI 音声クローン作成のエンドツーエンドガイド

変革のトレンド: ジェネレーティブ AI とソフトウェア開発への影響

医療や旅行など多くの分野で人工知能が導入され、生産と生活の変革が加速している。

Google の最新 AI モデル「Gemini」について知っておくべきことすべて

推薦する

AIと機械学習を活用して工場の安全を守る

IoT、エッジコンピューティング、AIプロジェクトが企業にもたらす利益

AmazonがTitanシリーズのAIモデルを発売：画像やテキストを生成でき、価格と性能のバランスが取れていると主張

米国のテクノロジー業界が冬を乗り切る中、プログラマーたちは仕事を維持するために率先して給与を削減している。 35歳の会社員：給料をもう少し下げてもいい

GoogleはAIチップに出産を学習させ、次世代のTPUはAI自身によって設計される

シリコンバレーの大企業も「名門校の学位」を重視するのでしょうか？ Redditの男の魂を問う質問が白熱した議論を巻き起こす

人工知能のトップ 10 トレンド。チャンスをつかんで全力で取り組みましょう。さもないと、私たち全員が解雇されてしまいます。

AIは自分が生成したものを理解できるのか？GPT-4とMidjourneyを試した後、誰かがこの問題を解決した

二次編集やUnreal Engine 5へのインポートをサポートし、Stable Diffusionは3D生成機能に進化

AI コードアクセラレータが近日登場します!傅盛：プログラマーが特定のコードを書くだけで仕事を見つけることができた時代は永遠に終わった

ディープラーニングがインターネットにパーソナライゼーションをもたらす仕組み

EasyDLが新しくアップグレードされ、ERNIEの3つの機能によりエンタープライズレベルのNLPモデルを迅速にカスタマイズできるようになりました。

平安生命保険の謝家彪氏: ビッグデータでの機械学習に Microsoft R Server を使用する