AIがネットワークゴミを生み出す：古いインターネットは死につつあり、新しいインターネットは困難の中で生まれる

網易科技は6月27日、ここ数カ月、インターネットの方向性が変化したことを示すさまざまな兆候があると報じた。

Google 検索は従来の 10 個の青いリンクページを廃止しようとしており、Twitter はチャットボットに乗っ取られ、Amazon と TikTok はスパム的になりつつあります。大手ネットメディアも人員削減を進めており、「AI編集者」募集の広告では週200～250本の記事制作を求めている。電子商取引サイトEtsyには「AI生成のジャンク」が溢れている。チャットボットが関与し、多くの誤情報が流れています。 LinkedIn は AI を活用して飽き飽きしたユーザーと交流しようとしており、Snapchat と Instagram は友人がいないときにボットを使ってユーザーと交流しようとしています。 Reddit ユーザーは抗議しており、Stack Overflow のモデレーターはストライキを行っています。インターネットアーカイブはデータクローラーと戦っており、「AI は Wikipedia を破壊している」

古いインターネットは死につつあり、新しいインターネットが誕生しようと奮闘しています。

インターネットが衰退しているのは驚くことではありません。何年もの間、アプリはウェブサイトからトラフィックを奪い、アルゴリズムによって人々の注意の持続時間はどんどん短くなってきました。しかし、2023年には、人工知能が新たな触媒となり、ネットワークは再び絶滅の危機に瀕します。

人工知能はインターネットの規模能力を超える

数年前、Web は個人がコンテンツを作成する場所でした。人々はホームページ、フォーラム、メーリングリストを作成し、そこから少しのお金を稼いでいます。そこで同社は、もっと良い方法があると考え、誰もが利用できる機能豊富なプラットフォームを開発しました。私たちが言葉や絵を記入し、他の人が閲覧できるボックスを提供します。これらの企業はすべて規模の経済を追求しています。十分な数の人々が集まれば、通常は利益を上げる機会があるからです。しかし、人工知能はそれをすべて変えます。

AI システム、特に生成モデルは、資金と計算能力を増やすことで簡単に拡張できます。大量のテキスト、画像、さらには音楽やビデオを生成することができます。彼らのアウトプットは、私たちがニュース、情報、エンターテイメントのために頼っているプラットフォームのアウトプットを上回る可能性があります。しかし、これらのシステムは品質が低いことが多く、現在のネットワークに寄生するような形で構築されています。

これらのモデルは、トレーニングに以前の Web 時代のデータに依存しており、そのデータを完全に再現することはできません。同社はオープンウェブから情報を収集し、それを機械生成コンテンツに精製しているが、これは安価だが信頼性はあまり高くない。これらの製品は、ユーザーの注目を集めるために以前のプラットフォームと競争することになります。ウェブサイトとユーザーはこれらの変化を観察し、新しいトレンドにどのように適応するかを模索しています。

ここ数か月、Reddit、Wikipedia、Stack Overflow、Google などの人気サイトでの議論や実験により、AI システムがサイトに与える負担が明らかになりました。

RedditはAPIへのアクセスコストを大幅に値上げすると発表し、モデレーターらは抗議した。 Redditの幹部らは、これは人工知能企業が彼らのデータをスクレイピングしたことに対する反応だと述べた。「レディットのデータベースは非常に価値があり、その価値のすべてを世界最大の企業に無料で提供する必要はない」とレディットの創業者兼CEOのスティーブ・ハフマン氏は、同社が今年後半のIPOを前に、プラットフォームからより多くの収益を絞り出そうとしている中で語った。 Reddit のこの動きは、データスクレイピングが現在のウェブにとって脅威であると同時にチャンスでもあることを示しており、同社にプラットフォームのオープン性を再考するよう促している。

Wikipedia はデータスクレイピングに精通しており、Google は長年その情報を活用して「ナレッジパネル」を強化してきました。近年、この検索大手はそうした情報に対して料金を支払い始めている。しかし、Wikipedia のモデレーターたちは、サイトの記事を書くために強力な新しい人工知能言語モデルをどのように使用するかについて議論しています。彼らは、誤解を招く情報を捏造する可能性があるこれらのシステムに関連する問題を痛感しているが、速度と範囲の点で明らかな利点があることを認めなければならない。「AIが生成したコンテンツを最初の草稿として使うことに何の問題もないと思うが、そのすべてを検証する必要がある」と、オンラインコミュニティの教授であり『ウィキペディアを信じるべきか』の著者でもあるエイミー・ブルックマン氏は言う。

ChatGPTは回答に高いエラー率を生成

Stack Overflow では、同様の、しかしより極端な例が紹介されています。 Redditと同様に、Stack Overflowのモデレーターもストライキを行っており、機械生成コンテンツの品質について同様の懸念を表明している。昨年 ChatGPT が稼働したとき、Stack Overflow は ChatGPT のアウトプットを禁止した最初の主要プラットフォームとなりました。「ChatGPT が生成する回答のエラー率は高いものの、正しいように見えることが多く、回答の生成も簡単だ」とモデレーターは当時記していた。結果の並べ替えに非常に時間がかかったため、モデレーターは ChatGPT を完全に禁止することにした。

しかし、Stack Overflow の経営陣は別の計画を立てていました。同社はその後、ユーザーによるAI生成コンテンツの投稿をブロックするために必要な証拠を増やすことで、実質的にこの禁止を撤回し、この技術を活用したいと発表した。 Redditと同様に、Stack Overflowは独自のAIツールを構築し、データを収集する企業に料金を課すことを計画しており、おそらくはRedditと競争する狙いがあると思われる。 Stack Overflow とモデレーターの争いは、サイトの基準とそれを誰が施行するかをめぐって起きている。モデレーターたちはAIの出力は信頼できないと考えていたが、幹部たちはリスクを負う価値があると判断した。

しかし、こうした困難は、Google で起こっている変化に比べれば取るに足らないものだ。 Google 検索は現代のオンライン経済を支え、インターネットの多くの部分で注目と収益を分配しています。 Bing AI と ChatGPT が代替検索エンジンとして人気が高まるにつれ、Google は行動を起こし始め、従来の 10 個の青いリンクを AI 生成の要約に置き換える実験を始めています。 Google がこの計画を実行すれば、大きな変化がもたらされるだろう。

テクノロジー系ウェブサイト「Tom's Hardware」の編集長、Avram Piltch氏は、GoogleのAI検索ベータ版に関する記事で、こうした問題のいくつかを指摘した。ピルチ氏は、グーグルの新システムは本質的に「盗作エンジン」だと述べた。 AI が生成した要約は、多くの場合、ウェブサイトのテキストをそのままコピーしますが、ソースリンクの上に配置され、トラフィックが不足します。この新しい検索パターンが標準になると、Web 全体に悪影響を与える可能性があります。収益が低迷しているサイトは締め出される可能性があり、Google 自体も再パッケージ化できる人間が作成したコンテンツが不足することになるだろう。

AI 分野の変化 (他者の作業に基づいて安価なコンテンツを生成する) がこの変化を推進しており、Google が現在の AI 検索エクスペリエンスを継続した場合の影響を予測することは困難です。これにより、製品レビューからレシピブログ、趣味のページ、ニュースサイト、ウィキに至るまで、現在私たちが有用だと考えているウェブの多くを損なう可能性があります。サイトはアクセスをブロックしたり料金を課したりすることで自らを守ることもできるが、これはオンライン経済の大規模な再構築にもつながる。最終的に、Google は自社に価値を生み出すエコシステムを破壊したり、自社の存続が脅かされるような不可逆的な形でエコシステムを変えたりする可能性がある。

しかし、人工知能に制御を任せて大衆に情報を提供し始めたらどうなるでしょうか?何か違うのでしょうか？

現在の証拠は、ネットワーク全体の品質が低下することを示唆しています。ピルチ氏がコメントで指摘したように、AI にはテキストを再構成する能力があるにもかかわらず、事実を確認するジャーナリストであれ、バッテリーの問題に遭遇してその解決方法を喜んで共有する Reddit ユーザーであれ、最終的に基礎となるデータを作成するのは人間です。対照的に、AI 言語モデルやチャットボットによって生成される情報は、多くの場合不正確です。さらに問題なのは、何か問題が起きたときに、それを見つけるのが難しい場合があることです。

たとえば、今年初めに人工知能エージェントを研究しているときに問題に遭遇しました。このようなシステムは、ChatGPT などの言語モデルを使用して Web サービスに接続し、ユーザーに代わって食料品を注文したり、航空券を予約したりします。 Twitter で多くの人がこのテクノロジーの可能性を称賛していることから、私は次のようなシナリオを想像しました。防水靴の会社が市場調査を行いたいと考え、AutoGPT (OpenAI の言語モデルに基づいて構築されたシステム) を使用して潜在的な競合相手に関するレポートを生成するというものです。

生成されるコンテンツは大体予測可能です。 5 つの企業の名前を挙げ、その製品の長所と短所を列挙しています。 AutoGPT は次のように書いています。「(ブランド X) は優れたアウトドア用品および靴のブランドです」「同社の防水靴はさまざまなスタイルがあります」「同社の価格は市場で競争力があります。」これはあまりに陳腐であまり役に立たないと思うかもしれません（そしてそれは正しいです）、しかし、この情報には微妙に間違っているところがあります。

AI生成コンテンツにはエラーが含まれることが多い

報告書の内容を確認するため、著者はRedditの著名なモデレーターであるクリスに検証を依頼した。クリスは、その報告書は基本的に捏造されたものだと述べた。「内容は豊富だが、実質的な価値はない」と同氏は言う。男性用と女性用の靴の違いや、使用されている生地の種類など、重要な要素については触れられていない。オンラインでの認知度が高いブランドの方が価値が高いと誤ってランク付けされます。クリス氏は、全体的にこの報告書は専門的ではなく、ほとんどが憶測であると述べた。「もし誰かが私に同じ質問をしたら、私は全く違う答えを返すだろう」と彼は言った。「人工知能のアドバイスを受け入れると、足を負傷する可能性があります。」

これは、AI によって生成された誤情報は見つけるのが難しいことが多いため、陰険であると主張する Stack Overflow のモデレーターの苦情と似ています。 AI システムによって提供されるレポートは良さそうに見えますが、実際の経験に基づいていないため、分析には時間と専門知識が必要です。機械生成コンテンツが人間の創作に取って代わった場合、その損害を完全に把握することは不可能ではないにしても困難になるでしょう。確かに、人間も多くの誤情報を生み出すでしょうが、AI システムが現在人間の専門知識が栄えているプラットフォームを抑制すれば、私たち全体の間違いを正す可能性は低くなります。

人工知能がインターネットに与える影響は、単純にまとめることはできません。上記のいくつかの例でも、さまざまなメカニズムが働いています。場合によっては、AI の脅威が、他の理由で望まれる変更を正当化するために使用されているように見えます (Reddit など)。また、別の場合には、AI は、サイトの価値を生み出す人々とサイトを運営する人々との間の闘争における武器となっています (Stack Overflow など)。箱に商品を埋め込む AI の能力は、AI を関与させようとしているソーシャルネットワークから、AI が生成したジャンク品が他の商品と競合するショッピングサイトまで、他の分野にもさまざまな影響を及ぼしています。

いずれの場合も、AI の拡張機能によってプラットフォームが変革されました。最も成功しているサイトの多くは、規模を活用してソーシャルなつながりや製品の選択肢を増やしたり、インターネット自体を構成する膨大な量の情報を分類したりするサイトです。しかし、その規模は、基礎となる価値を生み出すために多数の人間に依存しており、大量生産に関しては人間は AI に勝つことはできません。

機械学習の分野には「The Bitter Lesson」という有名な論文があります。彼は、数十年にわたる研究により、AI システムを改善する最善の方法は知能を設計することではなく、単にコンピューターのパワーとデータを投入することであることが示されていると指摘している。これは痛い教訓でした。なぜなら、機械は人間よりもスケールしやすいことがわかったからです。同じことがインターネットにも当てはまります。

しかし、これは必ずしも悪いことなのでしょうか?私たちが知っているウェブが人工的な豊かさに直面して変化したら何が起こるでしょうか?これは世界の仕組みに過ぎないと言う人もいるだろう。ウェブ自体が、多くの場合は良い方向に、それ以前のものを殺してきたと指摘するのだ。たとえば、印刷された百科事典はほとんど消滅していますが、私はブリタニカ百科事典の重みと確実性よりも、Wikipedia の広範さとアクセスしやすさを好みます。 AI 生成コンテンツに関連するすべての問題と同様に、引用機能の向上、人間による監督の強化など、それを改善する方法も数多くあります。さらに、たとえウェブが AI ジャンクで溢れかえったとしても、それは有益であることが証明され、資金力のあるプラットフォームの成長を促すことになるかもしれない。たとえば、Google が検索結果で常にジャンクな結果を返す場合、信頼できるリソースに料金を支払って直接アクセスする傾向が強くなるかもしれません。

実際、現在 AI によって誘発されている変化は、インターネットの歴史における長い闘いの最新の展開にすぎません。本質的に、これは情報、つまり誰が情報を生み出し、それをどのように入手し、誰が報酬を得るかをめぐる戦争です。しかし、この戦いがよくあることだからといって、それが重要でないということにはなりませんし、次に来るシステムが現在のものよりも優れているということも保証されません。新しい Web が誕生しつつあり、私たちが今下す決定によってそれがどのように発展していくかが決まります。

<<: 中国科学院版の「Split Everything」モデルがリリースされました。オリジナルの Meta バージョンより 50 倍高速です | GitHub 2.4K+ スター

>>: バンク・オブ・アメリカのアナリスト：チャットボットの中ではChatGPTが最大の優位性を持っており、ユーザーの半数以上が有料サービスにお金を支払うだろう