ニューヨーク・タイムズによるOpenAIとマイクロソフトに対する訴訟は、AI技術の発展に影響を及ぼす画期的な訴訟となるかもしれない。 最も影響力のある伝統的な西洋メディアの一つであるニューヨーク・タイムズは、AI技術の「最先端の生産性」を代表するOpenAIとの対立で話題となっている。 写真 伝統的メディア関係者のジェイソン・キント氏は、ニューヨーク・タイムズの訴訟を読んで、ニューヨーク・タイムズには十分な理由があると感じた。 起訴状の要点を要約してツイッターに投稿したところ、1日で280万回閲覧された。 写真 もう一人の大物、ダニエル・ジェフリーズ氏はジェイソン・キント氏の顔を平手打ちし、彼の記事は「過度に楽観的な空想」と「著作権法の誤解」に満ちていると述べた。 提唱者:NYTの訴訟は確固たる証拠に基づいている ジェイソン・キント氏はニューヨーク・タイムズの訴訟の概要の中で、著作権法の起源から始め、従来のメディアのニュースへのアクセスにおける著作権保護の重要性を要約した。 写真 ChatGPT の侵害の最も重要な証拠は、ニューヨーク タイムズが提供した 100 を超える例であり、GPT-4 の出力コンテンツがニューヨーク タイムズのレポートと非常に類似していることを示しています。 写真 これらの非常に類似した出力事例は、著作権侵害が存在するかどうかを裁判官が判断する上で重要な役割を果たすことになります。 写真 苦情には、OpenAIのトレーニングデータソースの好みと重みも詳しく記載されており、OpenAIがChatGPTをトレーニングするために使用した主要なソースはニューヨークタイムズのコンテンツであったと述べている。 OpenAIが自社製品のトレーニングにニューヨーク・タイムズのコンテンツを無料で利用できるとすれば、ニュース制作における従来のメディアの投資と利益のエコロジーが損なわれ、ニュース市場全体が破壊されることになる。 写真 ニューヨーク・タイムズ紙は、検索エンジンの結果とBing Chatによって生成されたコンテンツも比較しました。 写真 訴訟では、検索エンジンが提供するコンテンツではユーザーがニューヨーク・タイムズのコンテンツに直接アクセスできるのに対し、Bing Chat が提供する回答ではニューヨーク・タイムズへの元のリンクが小さな脚注になっており、ユーザーが気づきにくいと主張している。 同時に、ニューヨーク・タイムズは、裁判所がOpenAIと他の執筆者との間の紛争を自社の訴訟と統合し、自社の主張が支持される可能性が高まることを期待している。 写真 反対派:NYTの勝率はほぼゼロ ニューヨーク・タイムズ紙などが著作権侵害でOpenAIを相手取って起こした現在の訴訟では、ChatGPTの成果物が著作権で保護されている場合、著作権者の権利の侵害とみなされるべきかどうかに焦点が当てられている。 この問題に関して、OpenAIを支持する声の多くは、ニューヨーク・タイムズが提出した証拠では侵害の存在を証明できないと考えている。 しかし、もう一人の大物記者ダニエル・ジェフリーズは、ニューヨーク・タイムズがこの訴訟に勝つことはほぼ不可能だと考えている。 写真 ジェイソン・キント氏は、訴訟に関する自身の解釈が正確であると確信しているようだった。しかし実際には、彼の記事は過度に楽観的な空想、著作権法の誤解、そして無関係な逸脱に満ちている。 彼は、この訴訟が画期的な出来事となり、メディアが機器に課金する権利があることを立証することを強く望んでいるが、実際には著作権法では全く規定されていない。彼が理解しているテキストの内容は彼が考えているものとは異なっており、「訴訟に勝つ」可能性すらないのだ。 実際は、その逆です。 まず、先ほど述べたように、トレーニング データのライセンス料を全員に支払うよう要求するのは非現実的です。これは著作権法が扱う問題ではないためです。 第二に、キントが提示したいわゆる証拠のほとんどは、単なるレトリックと主題の意図的な逸脱であり、実際の侵害を証明するには不十分である。なぜなら、侵害の鍵となるのは、作品の入力内容ではなく出力内容にあるからである。 - 人間も学習できますが、機械も学習できます。そうでなければ、まずはヘミングウェイから学ぶための「研修料」を払ってみてはいかがでしょうか?私たちは皆、無料で学習し、周囲の世界から知識を吸収しており、機械も同じことができるはずです。 ニューヨーク・タイムズの記者たちは、簡潔で力強い文章の書き方を独学で学んだとき、ヘミングウェイの遺産を支払わなかった。 若いクォーターバックはトム・ブレイディの動きを研究し、ボールの投げ方を学ぶのに彼の許可を必要としない。 著作権法の目的は、人々がコンテンツのコピーまたはそれに近いものを作成し、それを商業目的で配布することを防ぐことです。それだけです。 - 公共の利益と企業の市場価値を結びつけるのは無意味であるマイクロソフトの時価総額の 1 兆ドルの増加とトレーニングに使用されたデータを比較するのはまったく不合理です。 ニューヨーク・タイムズは、戦争、殺人、政治を報道する同社の報道価値をこの事件と結び付けようとしているのだろうか?これは全く関係ありません。これを持ち出すことは、注意をそらすための試みに過ぎず、実際的な意味はありません。 彼らは、とらえどころのない公共の利益の価値に結び付けようとしますが、それはうまくいきません。 - いくつかのヒントのみが表示され、RAGを使用してGPT出力を偽装しても再現できません彼らが挙げる最も刺激的な証拠、つまりGPTがニューヨークタイムズのコンテンツを正確にコピーしたという主張でさえ、明らかに人間による操作の結果である。 AI に携わる人なら誰でもこれをすぐに理解できます。さらに、いわゆるプロンプトを使用してその出力をそのまま再現できる人は誰もいませんでした。 なぜ? なぜなら、その逐語的な出力は、ほぼ間違いなく記憶から取得されたものではなく、Web 検索と組み合わせた検索拡張生成 (RAG) から取得されたものであるからです。 プログラマーが API を通じて特定の記事を検索し、その記事の一部を出力するように具体的に指示し、記事全体ではなく部分的なヒントのみを提供した可能性があります。 ニューヨークタイムズの記事を見つけて出力するように指示した場合、その責任はモデルではなく私にあります。 さらに、何十年も前のプログラミング ライブラリでは、機械学習技術を必要とせずにこれを実行できます。 もしこの主張が含まれていたなら、弁護士が現実世界でそのプロセスを再現することができなかったため、訴訟は確実に失敗していたでしょう。 - OpenAIを活用したいが、これは非常に悪い前例だこの訴訟の最も可能性の高い結末は、マイクロソフトとOpenAIがトレーニングデータの使用に対するライセンス料を支払うという法廷外和解だ。 そして、これが実際に論争の焦点なのです。 この「和解」は、実質的な判決がないため、まるでトレーニング データにアクセスするために高額を支払う必要があるかのような誤った勝利感を人々に与えることになり、すべての人にとって悪い前例となるでしょう。 反対意見 +1 テックダートの記者マイク・マスニック氏も、ニューヨーク・タイムズの訴訟自体が「言語道断」だと述べた。 写真 同氏は、ニューヨーク・タイムズが起こした訴訟は、自分にとって「馴染みのあるレシピ、馴染みのある味」のように思えると語った。 多くの著作権所有者がAI企業に対して同様の訴訟を起こしており、その数は10件を超えている。しかし、訴訟を起こした人々の多くは愚かで、著作権法を全く理解していないようでした。 さらに、たとえ裁判所がニューヨーク・タイムズに有利な判決を下したとしても、ニューヨーク・タイムズがそれを巨額の利益に変えることはできないだろう。 この状況を変えることができる唯一の方法は、この巨額の金を支払って渡すことができる愚かな AI 企業を数社騙すための集金ポイントを設立することです。 彼の目には、ニューヨーク・タイムズはAIの侵略を防ぐために戦う報道の自由の偉大な擁護者として自らを描いていたが、実際には、同社が行ったのは、OpenAIにデータトレーニングの費用を支払わせるための交渉戦略に過ぎなかった。 数週間前、OpenAIは訴訟の可能性を回避するために業界大手のアクセル・シュプリンガーに多額の料金を支払った。しかし、OpenAIとニューヨーク・タイムズ紙との交渉では同様の結果は得られなかったため、ニューヨーク・タイムズ紙は控訴することを選択した。 ニューヨークタイムズの最も正当な見解は、GPT 大規模モデルは Common Crawl のデータを使用して部分的にトレーニングされたというものですが、Common Crawl の本来の目的はオープン ネットワーク リソース ライブラリを構築することでした。 Google のキャッシュやインターネット アーカイブのタイム マシンと同様に、このツールは歴史のアーカイブであり、常に「公正使用」の原則によって保護されてきました。 しかし、今度はニューヨーク・タイムズが非難に乗り出した。 マイク・マズニック氏は、データの読み取り/処理は著作権法によって制限される権利ではないと強調した。 複数の訴訟において、原告らは、裁判官がこの斬新な「生成AI」技術に驚嘆し、著作権法の基本原則を無視して、実際には存在しない権利が存在すると仮定することを期待している。 ニューヨークタイムズの訴訟がユニークなのは、内容が同一の一連の記事の証拠を提示している点だ。しかし、生成AIの原理を詳しく見てみると、この問題はそれほどセンセーショナルなものではないことがわかる。 法廷で提出された証拠のみに基づいて、ChatGPT が著作権を侵害したと立証することは困難です。 GPT-4 が New York Times のレポートに非常に類似した記事を生成するように導くために、New York Times は GPT-4 を次のように操作しました。 まず、レポートへのリンク (URL) が GPT-4 に提供され、次に記事のタイトルと最初の 7 段落半が「ガイド」として与えられ、GPT-4 に記事の完成を続行するように求められました。 写真 裁判官が GPT-4 の仕組みを理解できれば、GPT-4 によって生成されたコンテンツが元のテキストとほぼ同じになるのは正常だと理解するでしょう。 GPT のような生成 AI にプロンプトを与えると、出力の範囲と制限を決定する一連のパラメータが設定されます。これらの制約内で可能な限り最善の応答を生成しようとします。 しかし、ニューヨークタイムズがこれらの記事の文章を長さで提供したとき、実際には GPT-4 は元のニューヨークタイムズの記事に非常に近いコンテンツのみを生成するように制限されていました。 しかし、訴状の不合理さはそれだけでは終わらない。 なぜなら、ChatGPT に記事の最初の数段落を引用させ、一度に小さな段落だけを引用させることで、このようにして New York Times のペイウォールをある程度回避できるからです。 このように ChatGPT に指示することは、The New York Times が ChatGPT に元のテキストと一致するコンテンツを生成するように強制することとほぼ同等であることがわかります。 写真 もちろん、ニュース記事から個々の段落を引用することは、ほぼ確実にフェアユースとして認められます。 そして注目すべきことに、ニューヨーク・タイムズ自身も、この慣行は実際には記事全体の原文ではなく、書き直されたバージョンを提供したことを認めた。 さらに、訴訟では、記事の内容を単に要約するだけでも著作権侵害に当たると示唆しているようだ。 写真 ここで重要なのは、GPT がどのようにトレーニングされるかではなく、NYT がその出力をどのように制限するかです。 LLM の原理は、スキャンされたコンテンツを単に繰り返すのではなく、指定されたプロンプトの下で次のトークンが表示される可能性が最も高い確率を計算することです。 NYT がこのようにプロンプトを制限して、データ セットが 1 つの記事だけに限定されると、出力は当然元のテキストになります。 一方、タイムズ紙は、GPT によって返された実際の情報は著作権法で保護されていないと再度不満を述べた。 一方、NYTが苦情を申し立てたGPTから返された実際の情報は著作権法で保護されていません。 写真 ニューヨーク・タイムズ紙は、訴状の後半で「GPTは時々間違った製品を推奨したり、幻覚を作り出すためにコンテンツを捏造したりする」と指摘した。 それで、ニューヨークタイムズは、GPT の再現が正確すぎる、あるいは正確さが足りないと不満を言っているのでしょうか? ニューヨークタイムズが、記者がニュース記事を書く前にニュースの内容を知るために第三者の記事を読むことは著作権侵害に当たると主張して勝訴した場合。 NYT は絶対にこのアプローチを受け入れないだろう。 もしそうなら、OpenAI が NYT の記事を分析することと、NYT が許可なく他の記事、文書、研究を分析することの違いは何でしょうか? あるいは、ニューヨーク タイムズの記者が情報源から著作権で保護された資料 (おそらく記事、書籍、写真など) を受け取ったが、ニューヨーク タイムズがその資料の著作権を所有していないと想像してください。 それで、ジャーナリストはこの資料を使って記事を書くことができるのでしょうか? 参考文献: https://www.techdirt.com/2023/12/28/the-ny-times-lawsuit-against-openai-would-open-up-the-ny-times-to-all-sorts-of-lawsuits-should-it-win/ https://twitter.com/jason_kint/status/1740141400443035785 https://twitter.com/Dan_Jeffries1/status/1740303405254377808 |
偽造品、アルゴリズムの偏り、その他の問題が私たちの日常生活に及ぼす影響過去数年間、人工知能は私たちの...
翻訳者 | 崔昊校正 | 梁哲、孫淑娟1. はじめにこの記事では、Deep Graph Librar...
[[408906]] Google でニュースを検索すると、検索結果にポルノ記事が大量に混ざって表...
キャピタル グループは、1931 年、大恐慌の真っ只中にカリフォルニア州ロサンゼルスで設立され、現在...
エネルギー産業はハイテク主導の産業です。石油・ガス業界では、過酷な条件下で大型機器を使用してさまざま...
スマートホーム革命はここしばらく本格的に始まっています。住宅所有者はデータと IoT テクノロジーを...
[[318614]] [51CTO.com クイック翻訳] 2019年、世界中の意思決定者の53%が...
Linux サーバー管理は、サーバーの安全、安定、効率的な運用を確保するための重要なタスクです。以下...
人工知能は今のところ目新しいものではありません。結局のところ、人工知能は私たちの生活のあらゆるところ...
[[441323]]早すぎるオールインデータ文化を一夜にして構築することはできないのと同様に、分析...