OpenAIの「コピー&ペースト」の背後にあるのは、盗作者が全てを無料で手に入れたいということ

OpenAIの「コピー&ペースト」の背後にあるのは、盗作者が全てを無料で手に入れたいということ

今日では、盗作された記事や作品が出版され、盗作者がそれを無料で使用したり、利益を得たりすることは珍しくありません。これはインターネットから AI まで当てはまります。

たとえば、現在人気を集めている OpenAI は、その AI モデルが使用するコンテンツに対してほとんど料金を支払わないにもかかわらず、2023 年に 13 億ドルの収益を生み出しました。

OpenAIの不満

ニューヨーク・タイムズ紙がOpenAIに対して起こした著作権訴訟において、OpenAIは「インターネット上で公開されているコンテンツをAIモデルのトレーニングに使用するのは合理的である」と反論した。

OpenAIの論理によれば、自分の作品をオンラインに公開する人は誰でも公正な対象となり、同社の大規模言語モデルに利用され組み込まれる可能性がある。

ニューヨーク・タイムズ紙は、同紙が発行した数百万の記事が現在、OpenAIによって、同社とビジネスで競合するチャットボットのトレーニングに使用されていると主張している。彼らは新聞の記者や編集者に報酬を支払うことなく、彼らの仕事から数十億ドルを稼いでいる。

OpenAIはさらに、ニューヨークタイムズがChatGPTのLLMで記事を使用しない選択をすることもできると主張した。しかし、そうだとしたら、ChatGPT がピューリッツァー賞を受賞したニューヨークタイムズの調査レポートを直接盗用したことをどう説明すればよいのでしょうか?この報告書は、ニューヨーク市のタクシー業界における略奪的融資慣行についてニューヨーク・タイムズの記者が18か月にわたって行った調査の結果である。

OpenAIは、事実に直面して、ChatGPTがいわゆる「メモリ」方式を採用した可能性があると説明した。同社は、「当社は学習と改善を続けているが、これはまれな失敗だが、特定のコンテンツがトレーニングデータに複数回出現する場合、たとえばそのコンテンツのスニペットがさまざまな公開ウェブサイトに出現する場合などは、より一般的である」と主張した。

同時に、OpenAIは「ニューヨークタイムズの報道は、既存のモデルのトレーニングに有意義な貢献をしておらず、将来のトレーニングにも十分な影響を与えないだろう」と主張した。GPT-3で最も重み付けされたデータセットはCommon Crawlであり、上位3つのデータソースはWikipedia、米国特許データベース、ニューヨークタイムズである。

盗作者はすべてを無料で手に入れたい

ウェブサイト「Futurism」のスタッフライター、ビクター・タンガーマン氏は、OpenAIの最近の記事で次のように書いている。「OpenAIのビジネスモデル全体は、著作権で保護された素材を含む、できるだけ多くのデータを収集することに依存しています。」

これは、OpenAI が英国議会へのプレゼンテーションで表明した見解でもあります。 「今日の著作権は、ブログの投稿、写真、フォーラムの投稿、ソフトウェアコードのスニペット、政府の文書など、ほぼすべての種類の人間の表現をカバーしているため、著作権で保護された素材を使用せずに主要なAIモデルをトレーニングすることは不可能です」と同社は述べた。

故 SF 作家のハーラン・エリスンは、かつて「作家への支払い」という記事の中でこう言っています。「盗作者はすべてを無料で手に入れたい。彼らは作家に報酬を支払うだろうか? いいえ、彼らは常に作家に無料で働いてほしいと思っているのです!」

これは、OpenAI やその他の生成 AI 開発者が行っていることです。彼らは出版社、出版物、作家、編集者の作品を盗み、誰にも支払うことなく利益を得ています。

歴史は繰り返す

歴史は常に繰り返される。新聞や雑誌などの出版物は、その内容がインターネットに移行し、出版社が利益を上げることができなくなったため、1990年代に衰退し始めました。これにより、Google は広告を通じてニュース メディア コンテンツを収益化できる一方で、ニュース出版物は収益を失っています。

出版社が再びこの間違いを繰り返さないことを祈ります。出版社にはそれに応じた報酬が支払われるべきです。もちろん、このような状況が再び起こる可能性もあります。そうなれば、将来がどうなるかが分かるでしょう。ブロガーでありSF作家でもあるコリー・ドクトロウは、ウェブサイトのコンテンツと情報の質の低下を指して、この状況を説明するために「エンシット化」という言葉を作り出した。

最近の調査によると、Google の検索結果は効果が低下し、スパム サイトが増えていることがわかりました。 SEO ベースや AI によって生成されたナンセンスなコンテンツが増えています。同時に、コンテンツの量に比べて質が低下すると、出版社や作家の収益が減少することになります。これはつまり、生成 AI エンジンをトレーニングするための価値あるストーリーがますます少なくなることを意味します。

OpenAI と生成 AI 開発者が賢明であるならば、その富をコンテンツ作成者と共有する必要があります。長い目で見れば、これはテクノロジー業界の億万長者であろうとフリーランスのライターであろうと、誰にとっても前進する唯一の道なのです。

<<:  マイクロソフトとIDCの最新レポート:AIへの1ドル投資で3.5ドルの利益が生まれる

>>:  Code Llama 70B は 5 か月の練習を経て GPT-4 を破り、3 回連続でチャートのトップを獲得しました。ザッカーバーグは自ら新しい

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能アルゴリズムが構造生物学の難問を解決

新しい人工知能アルゴリズムは、RNA 分子の正しい 3 次元構造を間違ったものから選び出すことができ...

...

人工知能は本当に万能なのでしょうか?

多くのセキュリティ業界の専門家は、過去 10 年間に登場した新しいテクノロジーを振り返り、将来のテク...

顔認識はより便利で安全になるべきだ

[[348313]]ノースウェスタン工科大学の学生は顔をスキャンして図書館に出入りします。新華社通信...

...

ビッグデータアルゴリズムにもっと積極的な役割を担わせる

近年、ビッグデータコンピューティングの継続的な発展に伴い、ユーザーを中毒に誘導したり、悪いアイデアを...

...

IDC、2021年の中国の人工知能市場に関する10の予測を発表

インターナショナル・データ・コーポレーション(IDC)は、「IDC FutureScape:世界の人...

AGI は 1 年以内に登場しますが、人類には 5 年しかありませんか?

OpenAIは今年初めにSoraを発表し、世界中に衝撃を与えた。数年前まではまだ、この大柄なモデル...

統計と機械学習の違いは何ですか?

[[263249]]ビッグデータダイジェスト制作出典: medium編纂者:周嘉楽、郭小白、蒋宝尚...

...

GPT-4 だけが自己改善可能、GPT-3.5 はできない、MIT と Microsoft のコード生成実験で新たな発見

大規模言語モデル (LLM) は、自然言語からコード スニペットを生成できることが示されていますが、...

人工知能はテクノロジーとデータガバナンスの進化を推進する

2019年以降、アジア太平洋地域全体で政府主導のAIに関する取り組みが急増しています。これらの取り組...

ChatGPTを旅の途中のプロンプトジェネレーターに変える

ChatGPT は Midjourney 画像生成のテンプレートとして使用できると結論付けられました...