無料ですか?寄生? ChatGPTに夢中です!

無料ですか?寄生? ChatGPTに夢中です!

51CTOウェブサイトコンテンツ調査に参加するにはクリックしてください

マット・アセイ

編纂者:Qianshan

Stack Overflow は長年のポリシーをひっそりと変更しました。コミュニティが投稿したデータをインターネット アーカイブにアップロードすることはなくなり、モデレーターに要求リストに「データ ダンプの再有効化」を追加するよう求めています。最高技術責任者のジョディ・ベイリー氏は、これは「LLMを構築した企業によるStack Overflowデータの悪用を防ぐため」に行われたと述べた。

AIコンテンツに関しては、コミュニティが運営するオープンソースのQ&AプラットフォームであるCodidactは、「AIを使用して生成されたコンテンツ、特に大規模言語モデル(LLM)によって生成されたコンテンツはプラットフォームの悪用に当たるため、モデレーターはそのようなコンテンツを削除し、適切と思われる警告を発する権利がある」と長らく指摘してきた。

テクノロジーの世界では、私たちは結局のところ寄生虫です。

Drupal の開発者 Dries Buytaert が何年も前に言ったように、私たちは「作る人」というよりは「受け取る人」です。 Buytaert 氏は、オープンソース コミュニティでよく見られる慣行について言及しており、「受信者は受け入れたオープンソース プロジェクトに有意義な貢献をしない」ため、自分が依存しているプロジェクトに悪影響を及ぼしている。最も熱心なオープンソース貢献者でさえ、彼女よりも多くの貢献をしています。

同様の「寄生的な」傾向は、Google、Facebook、Twitter などのプラットフォームでも現れており、これらはすべて他者が作成したコンテンツに依存しています。おそらく、これは今日の生成型人工知能 (GenAI) においてはさらに当てはまるでしょう。

Sourcegraph の開発者である Steve Yegge 氏はかつて、「LLM は、ソーシャル ネットワーク、スマートフォン、クラウド以来最大の変化であるだけでなく、World Wide Web 以来最大の出来事でもある」と大げさに宣言しました。

彼の発言にはいくらかの真実が含まれているかもしれない。これらの大規模な言語モデルは本質的に寄生的であり、他の人のコード リポジトリ (GitHub)、技術的な回答 (Stack Overflow)、文献などをクロールすることに依存しています。

オープンソースではよくあることですが、コンテンツ作成者とアグリゲータは、LLM によるコンテンツへのアクセスをブロックし始めました。たとえば、サイト トラフィックの減少を受けて、Stack Overflow は Reddit に加わり、LLM 作成者に、LLM のトレーニングにデータを使用する費用を支払うよう求めました。これは大胆な動きであり、GoogleやFacebookに対抗するために出版社がオープンソースや有料コンテンツに関して繰り広げてきたライセンス争いを彷彿とさせる。しかし、それは機能するでしょうか?

1. 過放牧された空き地

技術的寄生虫の歴史はオープンソースより古いはずです。 Linux や MySQL の初期の頃から、他者の貢献から利益を得ている企業が存在してきました。たとえば、最近の Linux では、Rocky Linux と Alma Linux のどちらも、Red Hat Enterprise Linux (RHEL) との「バグごとの互換性」を約束しましたが、Red Hat の成功にはまったく貢献しませんでした。実際、これら 2 つの RHEL クローンの成功の自然な結末は、ホストを一掃し、クローン自体の終焉につながることです。そのため、Linux の世界では、これらをオープン ソースの「汚い奴ら」と呼ぶ人もいます。

おそらくその文はいろいろなことを意味しているのでしょうが、その意味するところは理解できます。これは AWS に対してなされてきた批判と同じであり (ますます関連性を失っている「ストリップ マイニング」批判)、オープン ソースのライセンス、ビジネス モデル、オープン ソースの持続可能性に関する長年にわたる多くの議論を引き起こしています。

もちろん、オープンソースはかつてないほど強力になっています。ただし、個々のオープンソース プロジェクトの健全性は異なります。一部のプロジェクト (およびプロジェクト管理者) は、コミュニティ内の「テイカー」を管理する方法を理解していますが、そうでないプロジェクトもあります。しかし、傾向としては、オープンソースの重要性と強さは増し続けています。

2. すべての知識が機械に注ぎ込まれるとき

JPMorgan Chase のような大企業は、パーソナライゼーションや分析などの分野で相応の価値インパクトを生み出すために、数十億ドルを費やして 1,000 人を超えるデータ サイエンティストや機械学習エンジニアなどを雇用しています。多くの企業は ChatGPT のようなものを公に受け入れることに消極的ですが、現実には、企業の開発者はすでに LLM を使用して生産性を向上しています。

こうした利益のコストは今になってようやく明らかになりつつある。そうは言っても、Stack Overflow のような会社を運営するコストは、歴史的に見て生産性向上の源となってきました。

Similarweb の詳細によると、Stack Overflow のトラフィックは 2022 年 1 月以降、月平均 6% 減少しており、2023 年 3 月には 13.9% の急激な減少が見られました。この減少の原因を ChatGPT やその他の GenAI 搭載ツールのせいにするのは単純すぎるかもしれませんが、それらのツールに何の役割もなかったと仮定するのも単純すぎるでしょう。

Intentional.io の創設者であり、Stack Overflow ユーザーの上位 2% である Peter Nixey に聞いてみてください。彼の回答は 170 万人以上の開発者に役立っています。 Stack Overflow での彼の著名さにもかかわらず、Nixey 氏は「今後はそこで何も書かないだろう」と述べています。なぜでしょうか? ChatGPT のような LLM は、Stack Overflow の知識ベースを使い果たしてしまう可能性が高いためです。

「知識を​​蓄積するのをやめて、代わりにそれを直接機械に投入したらどうなるでしょうか?」とニクシー氏は問いかける。 「マシン」とは、ChatGPT のような GenAI ツールを意味します。

たとえば、GitHub リポジトリや Stack Overflow の Q&A などでトレーニングされた GitHub Copilot のような AI ツールから回答を得られたら、本当にうれしいですね。しかし、Stack Overflow とは異なり、これらの質問は非公開で行われ、情報の公開リポジトリは生成されません。

Nixey 氏は、魂を問うような質問をしました。「GPT-4 が 2021 年以前に (Stack Overflow で) すべての質問でトレーニングされていたとしたら、GPT-6 は何でトレーニングされるのでしょうか?」

3. 問題:一方通行の高速道路

問題が分かりますか?これは決して小さな問題ではなく、オープンソース分野で私たちが経験した他のどの交渉よりも深刻なものである可能性があります。

「このパターンが他の場所でも再現され、私たちの集合的な知識の方向が人間に向かう方向から機械に向かう方向へと切り替われば、これまでの機械への依存はすべて機械への依存に取って代わられるだろう」とニクシー氏は語った。控えめに言っても、これは問題です。 「急速に拡大するCOVID-19の変異株のように、AIは成長によって知識の主要な源になるだろう」と彼は強調した。「Stack Overflowを例に挙げると、かつては私たちのものだった人間の知識ベースは、モデル内の重みに縮小されるかもしれない。」 ”

ここでは、AI に流れ続ける巨額の資金だけでなく、多くのものが懸かっています。また、ChatGPT のようなもので生成される情報の相対的な価値を評価する必要もあります。

なお、Stack Overflow は、ChatGPT から派生した回答が長くて情報量が少なかったため、2022 年 12 月にその回答を禁止しました。 「ChatGPTの平均正答率は非常に低いため、ChatGPTが作成した回答を公開することは、サイトと正解を探しているユーザーに大きな損害を与えます。」

ChatGPT のようなものは、正しい情報を生成するように設計されているのではなく、単にデータ内のパターンに適合する確率的な情報を生成するように設計されているだけです。言い換えれば、オープンソースには「汚いもの」が溢れているかもしれないが、良質なトレーニングデータが安定して供給されなければ、LLM は単にゴミで満たされ、あまり役に立たなくなる可能性がある。

これは、LLM と GenAI 全般の将来性を軽視するものではありません。オープンソースや出版社などと同様に、私たちが共同で生み出す情報を活用するのに協力してくれた OpenAI やその他の団体に感謝すると同時に、Reddit のように、自分の役割に対して報酬を期待している貢献者を応援することもできます。オープンソースにはライセンスをめぐる争いが数多く存在し、GenAI の世界でも同様の出来事に直面することになりそうですが、その結果はより広範囲に及び、予測不可能なものになるでしょう。

参考リンク: https://www.infoworld.com/article/3697733/chatgpt-s-parasitic-machine.html

<<:  AMD: Meta はクラウド チップを使用して新しい AI 戦略をサポートします

>>:  小型モデルの意見も参考になります! GPT-4+AutoGPTオンライン意思決定:物を買うときにもう心配はいりません

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

X-Dreamerは2Dと3D生成のギャップを埋め、高品質のテキストから3D生成を実現します。

近年、事前学習済みの拡散モデル[1, 2, 3]の開発により、テキストから3Dコンテンツへの自動作成...

信頼できるAIを開発する方法

[[410884]]現在、人工知能の応用範囲と深さは絶えず拡大しており、情報インフラの重要な部分にな...

インテリジェントな人間と機械のインタラクションがデジタルサービスを新たなレベルに引き上げます

2020年という「長い」年が、あっという間に終わりを迎えようとしています。この時期を振り返ると、長い...

フルスタックが未来です。「組み立てられたコンピュータ」人工知能コンピューティングセンターはどこまで進化できるのでしょうか?

人工知能が徐々に社会経済の発展を促進する新たな原動力となるにつれ、あらゆる階層の人々が産業知能のアッ...

AIファースト戦略への移行に向けた5つのポイント

多くの企業が人工知能(AI)ファーストの戦略を目指しており、ビジネスプロセスの最適化に加えて、ビジネ...

2つのセッションの提案から見るロボット産業の5つの大きなトレンド

感染症の影響で延期されていた2020年全国人民代表大会と中国人民政治協商会議が5月21日に開幕した。...

ビッグデータ、クラウドコンピューティング、人工知能が統合され、セキュリティ分野に応用されている

過去2年間、安全都市、インテリジェント交通、スノーブライトプロジェクトの継続的な発展と深化に伴い、ビ...

大学受験出願関連アプリは会員料金が高く、AIアプリは信頼できない

6月26日のニュース:大学入試願書の記入は毎年大学入試後の重要なステップであり、受験生や保護者が最も...

テスラはどのようにしてPyTorchを使って自動運転を実現し、世界に挑戦したのでしょうか?

[[313367]]テスラのエンジニアたちは、データの拡大に伴ってエンジニアの数を増やすことなく、...

EUはAI法に加えて、GPT-4などの高機能モデルにも追加の規則と制約を追加する予定である。

今週末の12月10日、欧州連合はChatGPTを含む一般的な人工知能システムを対象とする世界初のAI...

シリコンバレーの大企業も「名門校の学位」を重視するのでしょうか? Redditの男の魂を問う質問が白熱した議論を巻き起こす

シリコンバレーの大企業からのオファーは多くのプログラマーにとって依然として非常に魅力的であり、今年は...

効率的な運用分析システムを構築するために3つのステップを使用します

これは、実際の仕事でデータを扱う学生にとって最大の問題点です。今日は、オペレーションを例に、行き詰ま...

Google のロボットアームはハンカチなど、柔らかいものも硬いものもつかむことができます。 ICRA 2021が承認されました

現在、ロボットに関する研究は、主に特定の形状の物体を掴むためのロボットアームの設計に焦点を当てていま...

...