OpenAIの「コピー&ペースト」の背後にあるのは、盗作者が全てを無料で手に入れたいということ

OpenAIの「コピー&ペースト」の背後にあるのは、盗作者が全てを無料で手に入れたいということ

今日では、盗作された記事や作品が出版され、盗作者がそれを無料で使用したり、利益を得たりすることは珍しくありません。これはインターネットから AI まで当てはまります。

たとえば、現在人気を集めている OpenAI は、その AI モデルが使用するコンテンツに対してほとんど料金を支払わないにもかかわらず、2023 年に 13 億ドルの収益を生み出しました。

OpenAIの不満

ニューヨーク・タイムズ紙がOpenAIに対して起こした著作権訴訟において、OpenAIは「インターネット上で公開されているコンテンツをAIモデルのトレーニングに使用するのは合理的である」と反論した。

OpenAIの論理によれば、自分の作品をオンラインに公開する人は誰でも公正な対象となり、同社の大規模言語モデルに利用され組み込まれる可能性がある。

ニューヨーク・タイムズ紙は、同紙が発行した数百万の記事が現在、OpenAIによって、同社とビジネスで競合するチャットボットのトレーニングに使用されていると主張している。彼らは新聞の記者や編集者に報酬を支払うことなく、彼らの仕事から数十億ドルを稼いでいる。

OpenAIはさらに、ニューヨークタイムズがChatGPTのLLMで記事を使用しない選択をすることもできると主張した。しかし、そうだとしたら、ChatGPT がピューリッツァー賞を受賞したニューヨークタイムズの調査レポートを直接盗用したことをどう説明すればよいのでしょうか?この報告書は、ニューヨーク市のタクシー業界における略奪的融資慣行についてニューヨーク・タイムズの記者が18か月にわたって行った調査の結果である。

OpenAIは、事実に直面して、ChatGPTがいわゆる「メモリ」方式を採用した可能性があると説明した。同社は、「当社は学習と改善を続けているが、これはまれな失敗だが、特定のコンテンツがトレーニングデータに複数回出現する場合、たとえばそのコンテンツのスニペットがさまざまな公開ウェブサイトに出現する場合などは、より一般的である」と主張した。

同時に、OpenAIは「ニューヨークタイムズの報道は、既存のモデルのトレーニングに有意義な貢献をしておらず、将来のトレーニングにも十分な影響を与えないだろう」と主張した。GPT-3で最も重み付けされたデータセットはCommon Crawlであり、上位3つのデータソースはWikipedia、米国特許データベース、ニューヨークタイムズである。

盗作者はすべてを無料で手に入れたい

ウェブサイト「Futurism」のスタッフライター、ビクター・タンガーマン氏は、OpenAIの最近の記事で次のように書いている。「OpenAIのビジネスモデル全体は、著作権で保護された素材を含む、できるだけ多くのデータを収集することに依存しています。」

これは、OpenAI が英国議会へのプレゼンテーションで表明した見解でもあります。 「今日の著作権は、ブログの投稿、写真、フォーラムの投稿、ソフトウェアコードのスニペット、政府の文書など、ほぼすべての種類の人間の表現をカバーしているため、著作権で保護された素材を使用せずに主要なAIモデルをトレーニングすることは不可能です」と同社は述べた。

故 SF 作家のハーラン・エリスンは、かつて「作家への支払い」という記事の中でこう言っています。「盗作者はすべてを無料で手に入れたい。彼らは作家に報酬を支払うだろうか? いいえ、彼らは常に作家に無料で働いてほしいと思っているのです!」

これは、OpenAI やその他の生成 AI 開発者が行っていることです。彼らは出版社、出版物、作家、編集者の作品を盗み、誰にも支払うことなく利益を得ています。

歴史は繰り返す

歴史は常に繰り返される。新聞や雑誌などの出版物は、その内容がインターネットに移行し、出版社が利益を上げることができなくなったため、1990年代に衰退し始めました。これにより、Google は広告を通じてニュース メディア コンテンツを収益化できる一方で、ニュース出版物は収益を失っています。

出版社が再びこの間違いを繰り返さないことを祈ります。出版社にはそれに応じた報酬が支払われるべきです。もちろん、このような状況が再び起こる可能性もあります。そうなれば、将来がどうなるかが分かるでしょう。ブロガーでありSF作家でもあるコリー・ドクトロウは、ウェブサイトのコンテンツと情報の質の低下を指して、この状況を説明するために「エンシット化」という言葉を作り出した。

最近の調査によると、Google の検索結果は効果が低下し、スパム サイトが増えていることがわかりました。 SEO ベースや AI によって生成されたナンセンスなコンテンツが増えています。同時に、コンテンツの量に比べて質が低下すると、出版社や作家の収益が減少することになります。これはつまり、生成 AI エンジンをトレーニングするための価値あるストーリーがますます少なくなることを意味します。

OpenAI と生成 AI 開発者が賢明であるならば、その富をコンテンツ作成者と共有する必要があります。長い目で見れば、これはテクノロジー業界の億万長者であろうとフリーランスのライターであろうと、誰にとっても前進する唯一の道なのです。

<<:  マイクロソフトとIDCの最新レポート:AIへの1ドル投資で3.5ドルの利益が生まれる

>>:  Code Llama 70B は 5 か月の練習を経て GPT-4 を破り、3 回連続でチャートのトップを獲得しました。ザッカーバーグは自ら新しい

ブログ    
ブログ    
ブログ    

推薦する

ニューラル タンジェント、無限幅のニューラル ネットワーク モデルを作成するための 5 行のコード

[[322852]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

プログラマーが知っておくべき10の基本的な実用的なアルゴリズムとその説明

アルゴリズム1: クイックソートアルゴリズムクイックソートは、Tony Hall によって開発された...

ガートナーの調査によると、企業は来年AIプロジェクトを2倍に増やすと予想している。

世界有数の情報技術調査およびアドバイザリ企業であるガートナーによる最近の調査によると、現在人工知能 ...

Googleは、生成AI製品のユーザーを著作権侵害の申し立てから保護することを約束

Googleは10月13日、現地時間公開のブログ投稿で、自社の生成AI製品のユーザーは当局によって保...

自動運転車は私たちの生活をどのように変えるのでしょうか?

自動運転車は交通渋滞を改善し、交通事故を減らすだろうが、公共交通機関、不動産市場、健康にもさまざまな...

...

NLP に革命を起こす 3 つの AI スタートアップ

ディープラーニングは自然言語処理において驚くべき進歩を遂げました。 Explosion、Huggin...

Meta Digital Human 2nd Generation が登場! VRヘッドセットはもういらない、iPhoneでスキャンするだけ

Meta のリアルなデジタル ヒューマン 2.0 がさらに進化し、iPhone を使用して生成できる...

解読: ボストン ダイナミクスがアルゴリズムを使用してアトラス ロボットの感覚世界を構築する方法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

これら10機関からの24の調査データはAIのトレンドを理解するのに役立ちます

[[256519]] 2019年1月現在の人工知能の現状は?最近の調査では、AI の人気、測定可能な...

人工知能とビッグデータを開発する際に注意すべき12のポイント

人工知能は近年の科学技術発展の重要な方向です。ビッグデータの時代において、データの収集、マイニング、...

...

機械学習は科学プロジェクトからビジネスプランまで3段階の戦略を完了します

【51CTO.com クイック翻訳】 2015年は機械学習技術が学術分野で形を成した年でした。具体的...

...

宇宙探査における人工知能の驚くべき7つの応用

宇宙探査は人類の最も挑戦的で刺激的な取り組みの一つです。これには、科学的知識、技術革新、そして人間の...