OpenAIの「コピー&ペースト」の背後にあるのは、盗作者が全てを無料で手に入れたいということ

OpenAIの「コピー&ペースト」の背後にあるのは、盗作者が全てを無料で手に入れたいということ

今日では、盗作された記事や作品が出版され、盗作者がそれを無料で使用したり、利益を得たりすることは珍しくありません。これはインターネットから AI まで当てはまります。

たとえば、現在人気を集めている OpenAI は、その AI モデルが使用するコンテンツに対してほとんど料金を支払わないにもかかわらず、2023 年に 13 億ドルの収益を生み出しました。

OpenAIの不満

ニューヨーク・タイムズ紙がOpenAIに対して起こした著作権訴訟において、OpenAIは「インターネット上で公開されているコンテンツをAIモデルのトレーニングに使用するのは合理的である」と反論した。

OpenAIの論理によれば、自分の作品をオンラインに公開する人は誰でも公正な対象となり、同社の大規模言語モデルに利用され組み込まれる可能性がある。

ニューヨーク・タイムズ紙は、同紙が発行した数百万の記事が現在、OpenAIによって、同社とビジネスで競合するチャットボットのトレーニングに使用されていると主張している。彼らは新聞の記者や編集者に報酬を支払うことなく、彼らの仕事から数十億ドルを稼いでいる。

OpenAIはさらに、ニューヨークタイムズがChatGPTのLLMで記事を使用しない選択をすることもできると主張した。しかし、そうだとしたら、ChatGPT がピューリッツァー賞を受賞したニューヨークタイムズの調査レポートを直接盗用したことをどう説明すればよいのでしょうか?この報告書は、ニューヨーク市のタクシー業界における略奪的融資慣行についてニューヨーク・タイムズの記者が18か月にわたって行った調査の結果である。

OpenAIは、事実に直面して、ChatGPTがいわゆる「メモリ」方式を採用した可能性があると説明した。同社は、「当社は学習と改善を続けているが、これはまれな失敗だが、特定のコンテンツがトレーニングデータに複数回出現する場合、たとえばそのコンテンツのスニペットがさまざまな公開ウェブサイトに出現する場合などは、より一般的である」と主張した。

同時に、OpenAIは「ニューヨークタイムズの報道は、既存のモデルのトレーニングに有意義な貢献をしておらず、将来のトレーニングにも十分な影響を与えないだろう」と主張した。GPT-3で最も重み付けされたデータセットはCommon Crawlであり、上位3つのデータソースはWikipedia、米国特許データベース、ニューヨークタイムズである。

盗作者はすべてを無料で手に入れたい

ウェブサイト「Futurism」のスタッフライター、ビクター・タンガーマン氏は、OpenAIの最近の記事で次のように書いている。「OpenAIのビジネスモデル全体は、著作権で保護された素材を含む、できるだけ多くのデータを収集することに依存しています。」

これは、OpenAI が英国議会へのプレゼンテーションで表明した見解でもあります。 「今日の著作権は、ブログの投稿、写真、フォーラムの投稿、ソフトウェアコードのスニペット、政府の文書など、ほぼすべての種類の人間の表現をカバーしているため、著作権で保護された素材を使用せずに主要なAIモデルをトレーニングすることは不可能です」と同社は述べた。

故 SF 作家のハーラン・エリスンは、かつて「作家への支払い」という記事の中でこう言っています。「盗作者はすべてを無料で手に入れたい。彼らは作家に報酬を支払うだろうか? いいえ、彼らは常に作家に無料で働いてほしいと思っているのです!」

これは、OpenAI やその他の生成 AI 開発者が行っていることです。彼らは出版社、出版物、作家、編集者の作品を盗み、誰にも支払うことなく利益を得ています。

歴史は繰り返す

歴史は常に繰り返される。新聞や雑誌などの出版物は、その内容がインターネットに移行し、出版社が利益を上げることができなくなったため、1990年代に衰退し始めました。これにより、Google は広告を通じてニュース メディア コンテンツを収益化できる一方で、ニュース出版物は収益を失っています。

出版社が再びこの間違いを繰り返さないことを祈ります。出版社にはそれに応じた報酬が支払われるべきです。もちろん、このような状況が再び起こる可能性もあります。そうなれば、将来がどうなるかが分かるでしょう。ブロガーでありSF作家でもあるコリー・ドクトロウは、ウェブサイトのコンテンツと情報の質の低下を指して、この状況を説明するために「エンシット化」という言葉を作り出した。

最近の調査によると、Google の検索結果は効果が低下し、スパム サイトが増えていることがわかりました。 SEO ベースや AI によって生成されたナンセンスなコンテンツが増えています。同時に、コンテンツの量に比べて質が低下すると、出版社や作家の収益が減少することになります。これはつまり、生成 AI エンジンをトレーニングするための価値あるストーリーがますます少なくなることを意味します。

OpenAI と生成 AI 開発者が賢明であるならば、その富をコンテンツ作成者と共有する必要があります。長い目で見れば、これはテクノロジー業界の億万長者であろうとフリーランスのライターであろうと、誰にとっても前進する唯一の道なのです。

<<:  マイクロソフトとIDCの最新レポート:AIへの1ドル投資で3.5ドルの利益が生まれる

>>:  Code Llama 70B は 5 か月の練習を経て GPT-4 を破り、3 回連続でチャートのトップを獲得しました。ザッカーバーグは自ら新しい

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

粒子ロボットの出現はロボットの自己認識覚醒の危機をもたらすかもしれない

11月3日、2019年テンセントサイエンスWEカンファレンスで、世界中の科学者が細胞治療、脳チップ、...

マイクロソフトがローブを買収:一般の人々が人工知能を簡単に利用できるように

マイクロソフトは、人工知能はテクノロジー大手が反体制派を排除するための武器として利用されるべきではな...

超過年齢の移民労働者への「許可命令」が白熱した議論を巻き起こす。建設ロボット代替の潮流が到来

長年にわたり、数億人の出稼ぎ労働者が経済建設と社会発展に積極的に参加し、中国の近代化推進に多大な貢献...

AIを活用したリアルタイムの脅威インテリジェンスでサイバー脅威に対抗する方法

多くの企業のセキュリティ運用センター チームにとって、サイバー攻撃に対する防御は、ますます高度化する...

...

Nature 誌に「室温超伝導体は科学をどう変えるのか?」という記事が掲載されました。

7月末にLK-99が引き起こした熱狂は、8月中旬には徐々に沈静化しました。いくつかの権威ある組織が...

...

「システムアーキテクチャ」マイクロサービスサービス劣化

[[238592]] 1. はじめにサービス低下とは何ですか?サーバーの負荷が急激に高まると、実際の...

突風か潮か?AIが音声だけで止まってしまったら、一体いつまで苦労し続けることができるのだろうか?

いつからか、「人工知能」という言葉はテクノロジー界で徐々に広まり、今では現在のテクノロジー製品や業界...

IoT、AI、ビッグデータが地球を救う方法

私たちは皆、モノのインターネット (IoT)、人工知能 (AI)、ビッグデータが業界の再編とビジネス...

AppleはAI競争で遅れをとり、市場価値ランキングはAmazon、Google、Microsoftに追い抜かれる可能性も

米国現地時間9月8日木曜日、投資会社ニーダム・セキュリティーズは、アマゾン、グーグル、マイクロソフト...

2021年第2四半期の人工知能へのベンチャーキャピタル投資は200億ドルを超え、新たな記録を樹立した。

CB Insightsが発表した2021年第2四半期のAI(人工知能)レポートによると、疫病の刺激...

...

...