無料ですか?寄生？ ChatGPTに夢中です！

51CTOウェブサイトコンテンツ調査に参加するにはクリックしてください

マット・アセイ

編纂者：Qianshan

Stack Overflow は長年のポリシーをひっそりと変更しました。コミュニティが投稿したデータをインターネットアーカイブにアップロードすることはなくなり、モデレーターに要求リストに「データダンプの再有効化」を追加するよう求めています。最高技術責任者のジョディ・ベイリー氏は、これは「LLMを構築した企業によるStack Overflowデータの悪用を防ぐため」に行われたと述べた。

AIコンテンツに関しては、コミュニティが運営するオープンソースのQ&AプラットフォームであるCodidactは、「AIを使用して生成されたコンテンツ、特に大規模言語モデル（LLM）によって生成されたコンテンツはプラットフォームの悪用に当たるため、モデレーターはそのようなコンテンツを削除し、適切と思われる警告を発する権利がある」と長らく指摘してきた。

テクノロジーの世界では、私たちは結局のところ寄生虫です。

Drupal の開発者 Dries Buytaert が何年も前に言ったように、私たちは「作る人」というよりは「受け取る人」です。 Buytaert 氏は、オープンソースコミュニティでよく見られる慣行について言及しており、「受信者は受け入れたオープンソースプロジェクトに有意義な貢献をしない」ため、自分が依存しているプロジェクトに悪影響を及ぼしている。最も熱心なオープンソース貢献者でさえ、彼女よりも多くの貢献をしています。

同様の「寄生的な」傾向は、Google、Facebook、Twitter などのプラットフォームでも現れており、これらはすべて他者が作成したコンテンツに依存しています。おそらく、これは今日の生成型人工知能 (GenAI) においてはさらに当てはまるでしょう。

Sourcegraph の開発者である Steve Yegge 氏はかつて、「LLM は、ソーシャルネットワーク、スマートフォン、クラウド以来最大の変化であるだけでなく、World Wide Web 以来最大の出来事でもある」と大げさに宣言しました。

彼の発言にはいくらかの真実が含まれているかもしれない。これらの大規模な言語モデルは本質的に寄生的であり、他の人のコードリポジトリ (GitHub)、技術的な回答 (Stack Overflow)、文献などをクロールすることに依存しています。

オープンソースではよくあることですが、コンテンツ作成者とアグリゲータは、LLM によるコンテンツへのアクセスをブロックし始めました。たとえば、サイトトラフィックの減少を受けて、Stack Overflow は Reddit に加わり、LLM 作成者に、LLM のトレーニングにデータを使用する費用を支払うよう求めました。これは大胆な動きであり、GoogleやFacebookに対抗するために出版社がオープンソースや有料コンテンツに関して繰り広げてきたライセンス争いを彷彿とさせる。しかし、それは機能するでしょうか?

1. 過放牧された空き地

技術的寄生虫の歴史はオープンソースより古いはずです。 Linux や MySQL の初期の頃から、他者の貢献から利益を得ている企業が存在してきました。たとえば、最近の Linux では、Rocky Linux と Alma Linux のどちらも、Red Hat Enterprise Linux (RHEL) との「バグごとの互換性」を約束しましたが、Red Hat の成功にはまったく貢献しませんでした。実際、これら 2 つの RHEL クローンの成功の自然な結末は、ホストを一掃し、クローン自体の終焉につながることです。そのため、Linux の世界では、これらをオープンソースの「汚い奴ら」と呼ぶ人もいます。

おそらくその文はいろいろなことを意味しているのでしょうが、その意味するところは理解できます。これは AWS に対してなされてきた批判と同じであり (ますます関連性を失っている「ストリップマイニング」批判)、オープンソースのライセンス、ビジネスモデル、オープンソースの持続可能性に関する長年にわたる多くの議論を引き起こしています。

もちろん、オープンソースはかつてないほど強力になっています。ただし、個々のオープンソースプロジェクトの健全性は異なります。一部のプロジェクト (およびプロジェクト管理者) は、コミュニティ内の「テイカー」を管理する方法を理解していますが、そうでないプロジェクトもあります。しかし、傾向としては、オープンソースの重要性と強さは増し続けています。

2. すべての知識が機械に注ぎ込まれるとき

JPMorgan Chase のような大企業は、パーソナライゼーションや分析などの分野で相応の価値インパクトを生み出すために、数十億ドルを費やして 1,000 人を超えるデータサイエンティストや機械学習エンジニアなどを雇用しています。多くの企業は ChatGPT のようなものを公に受け入れることに消極的ですが、現実には、企業の開発者はすでに LLM を使用して生産性を向上しています。

こうした利益のコストは今になってようやく明らかになりつつある。そうは言っても、Stack Overflow のような会社を運営するコストは、歴史的に見て生産性向上の源となってきました。

Similarweb の詳細によると、Stack Overflow のトラフィックは 2022 年 1 月以降、月平均 6% 減少しており、2023 年 3 月には 13.9% の急激な減少が見られました。この減少の原因を ChatGPT やその他の GenAI 搭載ツールのせいにするのは単純すぎるかもしれませんが、それらのツールに何の役割もなかったと仮定するのも単純すぎるでしょう。

Intentional.io の創設者であり、Stack Overflow ユーザーの上位 2% である Peter Nixey に聞いてみてください。彼の回答は 170 万人以上の開発者に役立っています。 Stack Overflow での彼の著名さにもかかわらず、Nixey 氏は「今後はそこで何も書かないだろう」と述べています。なぜでしょうか? ChatGPT のような LLM は、Stack Overflow の知識ベースを使い果たしてしまう可能性が高いためです。

「知識を蓄積するのをやめて、代わりにそれを直接機械に投入したらどうなるでしょうか？」とニクシー氏は問いかける。「マシン」とは、ChatGPT のような GenAI ツールを意味します。

たとえば、GitHub リポジトリや Stack Overflow の Q&A などでトレーニングされた GitHub Copilot のような AI ツールから回答を得られたら、本当にうれしいですね。しかし、Stack Overflow とは異なり、これらの質問は非公開で行われ、情報の公開リポジトリは生成されません。

Nixey 氏は、魂を問うような質問をしました。「GPT-4 が 2021 年以前に (Stack Overflow で) すべての質問でトレーニングされていたとしたら、GPT-6 は何でトレーニングされるのでしょうか?」

3. 問題：一方通行の高速道路

問題が分かりますか?これは決して小さな問題ではなく、オープンソース分野で私たちが経験した他のどの交渉よりも深刻なものである可能性があります。

「このパターンが他の場所でも再現され、私たちの集合的な知識の方向が人間に向かう方向から機械に向かう方向へと切り替われば、これまでの機械への依存はすべて機械への依存に取って代わられるだろう」とニクシー氏は語った。控えめに言っても、これは問題です。「急速に拡大するCOVID-19の変異株のように、AIは成長によって知識の主要な源になるだろう」と彼は強調した。「Stack Overflowを例に挙げると、かつては私たちのものだった人間の知識ベースは、モデル内の重みに縮小されるかもしれない。」 ”

ここでは、AI に流れ続ける巨額の資金だけでなく、多くのものが懸かっています。また、ChatGPT のようなもので生成される情報の相対的な価値を評価する必要もあります。

なお、Stack Overflow は、ChatGPT から派生した回答が長くて情報量が少なかったため、2022 年 12 月にその回答を禁止しました。「ChatGPTの平均正答率は非常に低いため、ChatGPTが作成した回答を公開することは、サイトと正解を探しているユーザーに大きな損害を与えます。」

ChatGPT のようなものは、正しい情報を生成するように設計されているのではなく、単にデータ内のパターンに適合する確率的な情報を生成するように設計されているだけです。言い換えれば、オープンソースには「汚いもの」が溢れているかもしれないが、良質なトレーニングデータが安定して供給されなければ、LLM は単にゴミで満たされ、あまり役に立たなくなる可能性がある。

これは、LLM と GenAI 全般の将来性を軽視するものではありません。オープンソースや出版社などと同様に、私たちが共同で生み出す情報を活用するのに協力してくれた OpenAI やその他の団体に感謝すると同時に、Reddit のように、自分の役割に対して報酬を期待している貢献者を応援することもできます。オープンソースにはライセンスをめぐる争いが数多く存在し、GenAI の世界でも同様の出来事に直面することになりそうですが、その結果はより広範囲に及び、予測不可能なものになるでしょう。

参考リンク: https://www.infoworld.com/article/3697733/chatgpt-s-parasitic-machine.html

<<: AMD: Meta はクラウドチップを使用して新しい AI 戦略をサポートします

>>: 小型モデルの意見も参考になります！ GPT-4+AutoGPTオンライン意思決定：物を買うときにもう心配はいりません