OpenAIはニューヨークタイムズの声明は一方的であると不公平だと叫び、アンドリュー・ン氏もそれを擁護した。

OpenAIはニューヨークタイムズの声明は一方的であると不公平だと叫び、アンドリュー・ン氏もそれを擁護した。

2023年末、ニューヨーク・タイムズはマイクロソフトとOpenAIを訴えるための強力な証拠を提示した。複数のテクノロジー企業の主任法律顧問であるセシリア・ジニティ氏によると、ニューヨーク・タイムズが勝つ可能性は高いという。

機械学習分野の著名な学者アンドリュー・ン氏は、この件に関する自身の見解を説明するために2回連続でツイートを投稿した。彼は最初のツイートで、OpenAIとMicrosoftに同情を表明した。彼は、多くの重複記事が、モデルトレーニングの重みだけに頼るのではなく、RAG (検索拡張生成) に似たメカニズムを通じて実際に生成されているのではないかと疑っています。

出典: https://twitter.com/AndrewYNg/status/1744145064115446040

しかし、アンドリュー・ン氏の推測も反論された。ニューヨーク大学のゲイリー・マーカス教授は、映像生成分野における「盗作」はRAGとは何の関係もないと語った。

今日、アンドリュー・ン氏は再びツイートし、以前の発言について新たな説明を行った。彼は、いかなる企業であっても、許可なく、あるいは使用の正当な理由なく、他人の著作権で保護されたコンテンツを大規模にコピーすることは間違っていると明言した。しかし、彼は、LLM が「反芻」するのは、特定の手がかりに反応して、まれな状況においてのみであると考えています。そして、平均的な一般ユーザーがこれらの特定のプロンプトを採用することはほとんどありません。 GPT-4 にニューヨークタイムズのテキストをコピーするように特定の方法で指示することに関して、Andrew Ng 氏は、これはめったに起こらないとも述べています。同氏は、ChatGPTの新しいバージョンでは脆弱性が修正されているようだと付け加えた。

出典: https://twitter.com/AndrewYNg/status/1744433663969022090

ChatGPT を使用してペイウォールを回避したり、Wirecutter から結果を取得したりといった、訴訟における著作権侵害の最悪の例と思われるものを再現しようとしたところ、Ng 氏はこれが GPT-4 の Web ブラウジング機能をトリガーすることを発見しました。これは、これらの症例に RAG が関与している可能性があることを示唆しています。 GPT-4 は、Web を閲覧し、追加情報をダウンロードして、Web 検索の実行や特定の記事のダウンロードなどの応答を生成できます。彼は、訴訟でこれらの例が目立つことで、LLM のニューヨーク タイムズのテキストに関するトレーニングがこれらのテキストのコピーに直接つながったと人々が誤って信じるようになると考えています。しかし、RAG が関与している場合、これらのコピー例の根本的な原因は、LLM のニューヨーク タイムズのテキストに関するトレーニングではないということです。

2つの視点があり、ニューヨークタイムズの「非難」もすでに見てきたので、OpenAIがこの件についてどう考え、どのような対応をしているのか見てみましょう。

ブログアドレス: https://openai.com/blog/openai-and-journalism

OpenAIの声明

OpenAIは、その目標は、他の方法では解決できない問題を人々に解決する能力を与える人工知能ツールを開発することだと述べている。彼らの技術は、日常生活を向上させるために世界中の人々に利用されています。

OpenAIはニューヨーク・タイムズの訴訟の主張には同意しないが、同社の事業、意図、技術の構築方法を明らかにする機会だと捉えている。彼らは自らの立場を次の4点にまとめた。

  • 報道機関と提携し、新たな機会を創出する。
  • トレーニングは公正使用ですが、オプトアウトのオプションを提供する必要があります。
  • 言い換えはまれなエラーであり、OpenAI はこれをゼロにすることを目指して取り組んでいます。
  • ニューヨークタイムズの記事は不完全だ。

OpenAIもブログでこれら4つの点について詳しく説明している。

OpenAIは報道機関と提携して新たな機会を創出

OpenAI は、テクノロジーの設計プロセスにおいてニュース組織をサポートするために懸命に取り組んでいます。彼らはさまざまなメディアや業界の主要組織と会談し、ニーズについて話し合い、解決策を提案しました。 OpenAI の目標は、学習し、教育し、フィードバックに耳を傾け、適応して健全なジャーナリズム エコシステムをサポートし、相互利益の機会を創出することです。


  • 彼らは報道機関と提携を結んでいます:
  • ジャーナリストや編集者が多くの面倒で時間のかかる作業などに対処できるように支援する。
  • これを基に、OpenAI は、より歴史的で非公開のコンテンツをトレーニングすることで、AI モデルが世界を理解できるようにします。
  • ChatGPT でリアルタイムのコンテンツを帰属表示することで、ニュース発行者は読者とつながる新しい方法を手に入れることができます。

トレーニングは公正使用です

しかし、オプトアウトオプションは必要である

AI モデルのトレーニングに、公開されているインターネット資料を使用することは合理的であるという考えは、長年にわたって広く受け入れられ、支持されてきました。このサポートは、幅広い学者、図書館協会、市民社会グループ、スタートアップ、米国の大手企業、クリエイター、著者などから寄せられており、全員が AI モデルのトレーニングが公正使用であることに同意しています。欧州連合、日本、シンガポール、イスラエルでは、著作権で保護されたコンテンツでモデルをトレーニングすることを許可する法律もあります。これは、AI におけるイノベーション、進歩、投資のプラス面です。

OpenAIは、AI業界で初めてシンプルなオプトアウトプロセスを提供する企業だと述べている。このプロセスは、ニューヨーク・タイムズが2023年8月にOpenAIのツールが自社のウェブサイトにアクセスするのを防ぐために採用したものだ。

言い換えはまれな間違いである

OpenAIはこれをゼロにするために取り組んでいる

「再話」は、AI トレーニング プロセスでまれに発生する不具合です。同じコンテンツが異なるウェブサイトで繰り返し転送されるなど、特定のコンテンツがトレーニング データに複数回出現する場合は、AI モデルによる「再話」がより一般的になります。そのため、OpenAI はモデル出力の重複を防ぐためにいくつかの対策を講じています。

概念を学習し、それを新しい問題に適用することは、人間に共通する思考パターンです。OpenAI も AI モデルを設計する際にこの原則に従いました。同社は AI モデルが世界中から新鮮な情報を吸収できることを期待しています。モデルの「学習材料」は人間の知識の集合体であるため、ニュースからのトレーニング データは氷山の一角にすぎません。New York Times を含む単一のデータ ソースは、モデルの学習動作にとって無意味です。

ニューヨークタイムズの記事は不完全だ

昨年12月19日、OpenAIとニューヨーク・タイムズは協力に向けた交渉を成功させた。交渉の焦点は、ChatGPTが回答に引用元をリアルタイムで表示し、ニューヨークタイムズもこの手法を使って新しい読者とつながるという点だ。当時、OpenAIはニューヨークタイムズに対し、自社のコンテンツは既存モデルのトレーニングに大きく貢献しておらず、将来のモデルトレーニングには関与しないと説明した。

ニューヨーク・タイムズは、GPTが同社の報道を「盗用したとされる」事例をOpenAIと共有することを拒否した。 7月にOpenAIは、ChatGPTがライブウェブページから誤ってコンテンツをコピーした可能性があることを知った直後にコンテンツを削除し、この問題の独自のバージョンを提示した。

しかし、ニューヨークタイムズが提供した「盗作」は何年も前の記事のようです。これらの記事は複数のサードパーティのウェブサイトに広く転送され、配布されています。 OpenAIは、ニューヨーク・タイムズが意図的にプロンプ​​トの言葉を操作した可能性があると考えている。同社は「盗作」された記事の長い抜粋を入力することで、AIに原文と非常によく似た回答をさせる可能性がある。こうした手がかりがあっても、OpenAI のモデルは通常、苦情においてそれほど高いレベルの繰り返しを示しません。そのため、OpenAIは、ニューヨーク・タイムズがプロンプトの言葉を操作したか、繰り返し試行して「例」を慎重に選択したのではないかと推測している。

このような繰り返しの複数ラウンドの会話は、ユーザーの利用規約に違反します。 OpenAI は、トレーニング データを逆流させる悪意のある攻撃から防御するためにシステムの回復力を継続的に改善しており、最近大きな進歩を遂げています。

OpenAIはブログ投稿の最後に、ニューヨーク・タイムズの訴訟には根拠がないと結論付けた。彼らは依然としてニューヨーク・タイムズと建設的な関係を築き、その長い歴史を尊重したいと考えている。

この議論の最終的な結果は、人工知能の将来の発展にとって極めて重要です。 AIモデルのトレーニングを妨げる可能性もあれば、AIとさまざまな企業の共同開発に向けた新たな道を模索する可能性もあります。

<<:  説明書不要で様々な家具や家電製品に使用できる初の具現化3Dグラフィックモデルシステム

>>: 

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

コンピュータービジョン: 画像検出と画像セグメンテーションの違いは何ですか?

人工知能における画像処理人工知能には画像処理のためのさまざまなタスクがあります。この記事では、物体検...

機械学習モデルで機密データの忘却を実現するにはどうすればよいでしょうか?

I. 概要サイバーセキュリティ分野のデータ分析では機械学習手法がますます使用されるようになっていま...

人工知能が地震監視を新たな時代へ導く

[[388691]]被害の程度を軽減することは地震研究者にとって重要な目標です。破壊的な地震が発生し...

MITの新しい水中ロボット!機械学習を使用して 18 時間でパトリック スターを作成する (ダニエラ ラスとの共著)

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

AIが米国の8年生の理科テストに高得点で合格。常識や推論の問題を解くことができ、同じ舞台でAIと競争する準備が整った。

8年生の理科のテストに60点で合格すれば、8万ドル(57万人民元相当)の賞金を獲得できます。 [[...

3つの大きな問題を解決すれば、ドローン配送の時代が徐々に近づいてくる

生活のペースが加速し続けるにつれて、テイクアウトや物流などの輸送効率に対する人々の要求はますます高ま...

10年前、古典的なword2vec論文が今日のNeurIPSタイムテスト賞を受賞しました

NeurIPS は世界で最も権威のある AI 学術会議の 1 つです。正式名称は Neural In...

北京、AIビッグモデルとロボットの統合開発を支援するロボット産業向けの新政策を発表

北京市人民政府弁公庁はこのほど、「北京市ロボット産業革新発展行動計画(2023~2025年)」を発表...

...

ベースライン モデルから始めます。最初はモデルが醜く見えるかもしれませんが、心配しないでください。

[[229439]]ビッグデータ概要編纂者:張南星、静哲、荊浩南1. 機械学習製品を効率的に開発す...

自動化の方程式: 現代の職場における AI、ロボット工学、人間のスキルのバランス

人工知能 (AI) 技術が職場に統合されることにより、仕事の性質が急速に変化し、人間と機械の関係が再...

...

中国ダイビングチームの勝利には人工知能が貢献した

ネットユーザーたちはこのオリンピックについて不満を述べている。たとえ境界線を越えたとしても、高得点を...

ビジネスコミュニケーションで機械学習を活用する9つの方法

人工知能 (AI) と機械学習 (ML) は、職場でも家庭でも、私たちの生活に欠かせないものになりつ...

人工知能が習得する必要がある知識ポイントは何ですか?どんな本を読めばいいでしょうか?非常に詳細なチュートリアル

[[243197]]人工知能とは何ですか?人工知能の定義は、「人工知能」と「知能」の 2 つの部分に...