無料ですか?寄生? ChatGPTに夢中です!

無料ですか?寄生? ChatGPTに夢中です!

51CTOウェブサイトコンテンツ調査に参加するにはクリックしてください

マット・アセイ

編纂者:Qianshan

Stack Overflow は長年のポリシーをひっそりと変更しました。コミュニティが投稿したデータをインターネット アーカイブにアップロードすることはなくなり、モデレーターに要求リストに「データ ダンプの再有効化」を追加するよう求めています。最高技術責任者のジョディ・ベイリー氏は、これは「LLMを構築した企業によるStack Overflowデータの悪用を防ぐため」に行われたと述べた。

AIコンテンツに関しては、コミュニティが運営するオープンソースのQ&AプラットフォームであるCodidactは、「AIを使用して生成されたコンテンツ、特に大規模言語モデル(LLM)によって生成されたコンテンツはプラットフォームの悪用に当たるため、モデレーターはそのようなコンテンツを削除し、適切と思われる警告を発する権利がある」と長らく指摘してきた。

テクノロジーの世界では、私たちは結局のところ寄生虫です。

Drupal の開発者 Dries Buytaert が何年も前に言ったように、私たちは「作る人」というよりは「受け取る人」です。 Buytaert 氏は、オープンソース コミュニティでよく見られる慣行について言及しており、「受信者は受け入れたオープンソース プロジェクトに有意義な貢献をしない」ため、自分が依存しているプロジェクトに悪影響を及ぼしている。最も熱心なオープンソース貢献者でさえ、彼女よりも多くの貢献をしています。

同様の「寄生的な」傾向は、Google、Facebook、Twitter などのプラットフォームでも現れており、これらはすべて他者が作成したコンテンツに依存しています。おそらく、これは今日の生成型人工知能 (GenAI) においてはさらに当てはまるでしょう。

Sourcegraph の開発者である Steve Yegge 氏はかつて、「LLM は、ソーシャル ネットワーク、スマートフォン、クラウド以来最大の変化であるだけでなく、World Wide Web 以来最大の出来事でもある」と大げさに宣言しました。

彼の発言にはいくらかの真実が含まれているかもしれない。これらの大規模な言語モデルは本質的に寄生的であり、他の人のコード リポジトリ (GitHub)、技術的な回答 (Stack Overflow)、文献などをクロールすることに依存しています。

オープンソースではよくあることですが、コンテンツ作成者とアグリゲータは、LLM によるコンテンツへのアクセスをブロックし始めました。たとえば、サイト トラフィックの減少を受けて、Stack Overflow は Reddit に加わり、LLM 作成者に、LLM のトレーニングにデータを使用する費用を支払うよう求めました。これは大胆な動きであり、GoogleやFacebookに対抗するために出版社がオープンソースや有料コンテンツに関して繰り広げてきたライセンス争いを彷彿とさせる。しかし、それは機能するでしょうか?

1. 過放牧された空き地

技術的寄生虫の歴史はオープンソースより古いはずです。 Linux や MySQL の初期の頃から、他者の貢献から利益を得ている企業が存在してきました。たとえば、最近の Linux では、Rocky Linux と Alma Linux のどちらも、Red Hat Enterprise Linux (RHEL) との「バグごとの互換性」を約束しましたが、Red Hat の成功にはまったく貢献しませんでした。実際、これら 2 つの RHEL クローンの成功の自然な結末は、ホストを一掃し、クローン自体の終焉につながることです。そのため、Linux の世界では、これらをオープン ソースの「汚い奴ら」と呼ぶ人もいます。

おそらくその文はいろいろなことを意味しているのでしょうが、その意味するところは理解できます。これは AWS に対してなされてきた批判と同じであり (ますます関連性を失っている「ストリップ マイニング」批判)、オープン ソースのライセンス、ビジネス モデル、オープン ソースの持続可能性に関する長年にわたる多くの議論を引き起こしています。

もちろん、オープンソースはかつてないほど強力になっています。ただし、個々のオープンソース プロジェクトの健全性は異なります。一部のプロジェクト (およびプロジェクト管理者) は、コミュニティ内の「テイカー」を管理する方法を理解していますが、そうでないプロジェクトもあります。しかし、傾向としては、オープンソースの重要性と強さは増し続けています。

2. すべての知識が機械に注ぎ込まれるとき

JPMorgan Chase のような大企業は、パーソナライゼーションや分析などの分野で相応の価値インパクトを生み出すために、数十億ドルを費やして 1,000 人を超えるデータ サイエンティストや機械学習エンジニアなどを雇用しています。多くの企業は ChatGPT のようなものを公に受け入れることに消極的ですが、現実には、企業の開発者はすでに LLM を使用して生産性を向上しています。

こうした利益のコストは今になってようやく明らかになりつつある。そうは言っても、Stack Overflow のような会社を運営するコストは、歴史的に見て生産性向上の源となってきました。

Similarweb の詳細によると、Stack Overflow のトラフィックは 2022 年 1 月以降、月平均 6% 減少しており、2023 年 3 月には 13.9% の急激な減少が見られました。この減少の原因を ChatGPT やその他の GenAI 搭載ツールのせいにするのは単純すぎるかもしれませんが、それらのツールに何の役割もなかったと仮定するのも単純すぎるでしょう。

Intentional.io の創設者であり、Stack Overflow ユーザーの上位 2% である Peter Nixey に聞いてみてください。彼の回答は 170 万人以上の開発者に役立っています。 Stack Overflow での彼の著名さにもかかわらず、Nixey 氏は「今後はそこで何も書かないだろう」と述べています。なぜでしょうか? ChatGPT のような LLM は、Stack Overflow の知識ベースを使い果たしてしまう可能性が高いためです。

「知識を​​蓄積するのをやめて、代わりにそれを直接機械に投入したらどうなるでしょうか?」とニクシー氏は問いかける。 「マシン」とは、ChatGPT のような GenAI ツールを意味します。

たとえば、GitHub リポジトリや Stack Overflow の Q&A などでトレーニングされた GitHub Copilot のような AI ツールから回答を得られたら、本当にうれしいですね。しかし、Stack Overflow とは異なり、これらの質問は非公開で行われ、情報の公開リポジトリは生成されません。

Nixey 氏は、魂を問うような質問をしました。「GPT-4 が 2021 年以前に (Stack Overflow で) すべての質問でトレーニングされていたとしたら、GPT-6 は何でトレーニングされるのでしょうか?」

3. 問題:一方通行の高速道路

問題が分かりますか?これは決して小さな問題ではなく、オープンソース分野で私たちが経験した他のどの交渉よりも深刻なものである可能性があります。

「このパターンが他の場所でも再現され、私たちの集合的な知識の方向が人間に向かう方向から機械に向かう方向へと切り替われば、これまでの機械への依存はすべて機械への依存に取って代わられるだろう」とニクシー氏は語った。控えめに言っても、これは問題です。 「急速に拡大するCOVID-19の変異株のように、AIは成長によって知識の主要な源になるだろう」と彼は強調した。「Stack Overflowを例に挙げると、かつては私たちのものだった人間の知識ベースは、モデル内の重みに縮小されるかもしれない。」 ”

ここでは、AI に流れ続ける巨額の資金だけでなく、多くのものが懸かっています。また、ChatGPT のようなもので生成される情報の相対的な価値を評価する必要もあります。

なお、Stack Overflow は、ChatGPT から派生した回答が長くて情報量が少なかったため、2022 年 12 月にその回答を禁止しました。 「ChatGPTの平均正答率は非常に低いため、ChatGPTが作成した回答を公開することは、サイトと正解を探しているユーザーに大きな損害を与えます。」

ChatGPT のようなものは、正しい情報を生成するように設計されているのではなく、単にデータ内のパターンに適合する確率的な情報を生成するように設計されているだけです。言い換えれば、オープンソースには「汚いもの」が溢れているかもしれないが、良質なトレーニングデータが安定して供給されなければ、LLM は単にゴミで満たされ、あまり役に立たなくなる可能性がある。

これは、LLM と GenAI 全般の将来性を軽視するものではありません。オープンソースや出版社などと同様に、私たちが共同で生み出す情報を活用するのに協力してくれた OpenAI やその他の団体に感謝すると同時に、Reddit のように、自分の役割に対して報酬を期待している貢献者を応援することもできます。オープンソースにはライセンスをめぐる争いが数多く存在し、GenAI の世界でも同様の出来事に直面することになりそうですが、その結果はより広範囲に及び、予測不可能なものになるでしょう。

参考リンク: https://www.infoworld.com/article/3697733/chatgpt-s-parasitic-machine.html

<<:  AMD: Meta はクラウド チップを使用して新しい AI 戦略をサポートします

>>:  小型モデルの意見も参考になります! GPT-4+AutoGPTオンライン意思決定:物を買うときにもう心配はいりません

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能の開発を加速するための9つのヒント

現在、多くの企業が AI テクノロジーで一定の成功を収めており、IT チームは AI プロジェクトを...

...

カメラか LiDAR か?堅牢な 3D オブジェクト検出を実現するにはどうすればよいでしょうか?最新レビュー!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

【文字列処理アルゴリズム】回文判定のアルゴリズム設計とCコード実装

1. 要件の説明文字列を入力し、その文字列が回文であるかどうかを判断するプログラムを作成します。便宜...

CCS Insight の予測: 生成 AI は 2024 年までに人気がなくなる

あるアナリスト会社は、生成型AIという熱狂的な分野にとって来年は現実を突きつけられる年になると予測し...

スーパーパートナー:IoT、AI、クラウドが強力な同盟を形成

大ヒット映画とモノのインターネット(IoT)にはどのような関係があるのでしょうか?あなたが思っている...

2030 年までにどの AI アプリケーションが普及するでしょうか?

何十年もの間、人工知能はSFの中で邪悪な力として描かれてきました。アーサー・C・クラークの『宇宙の旅...

機械学習において統計がなぜそれほど重要なのか?

統計学と機械学習は密接に関連した2つの分野です。実際のところ、この 2 つの境界線は非常に曖昧になる...

...

2021 年の人工知能に関する詳細な研究: 機械学習は最終的に人間の医師に取って代わるのでしょうか?

[[377208]]これから議論する論文で採用されているアプローチは、これまでのどのアプローチより...

HTML5アウトラインアルゴリズムが構造に与える影響

[[91338]] HTML5 がリリースされてから長い時間が経ちますが、日々の仕事や個人の Web...

...

ディープラーニングの次の段階:ニューラルアーキテクチャの自己学習により、優れたコンピュータビジョンモデルが実現

[[275255]]ディープラーニングは人工知能モデルの先駆けです。画像認識、音声認識、テキスト理解...