科学者が警告:AIが生成したコンテンツでAIを訓練すると、数世代以内に「ゴミ」が生成され始める

科学者が警告:AIが生成したコンテンツでAIを訓練すると、数世代以内に「ゴミ」が生成され始める

6月20日のニュースによると、人工知能分野の専門家は、AIが生成したコンテンツがオンラインに投稿されるケースが増えるにつれ、このデータでトレーニングされたAIは将来的に混乱に陥るだろうと予測している。

英国とカナダの科学者グループは5月に、複数世代のAIが互いに訓練すると何が起こるかを理解しようとする論文を発表した。ある例では、元のソース資料は中世の建築に関するものであったのに、AI システムは 9 回の反復を経て野ウサギについておしゃべりできるようになりました。

データは「数回の反復の後、AIが出力するテキストはゴミになり、画像は理解不能になる」ことを示したと、ケンブリッジ大学の教授で研究の著者の一人であるロス・アンダーソン氏は、調査結果についてのブログ投稿に記した。論文はまだ査読されていないが、科学者たちはこの現象を「モデルの崩壊」と呼んでいる。

チャットボット ChatGPT の背後にある大規模言語モデル (LLM) では通常、トレーニングのためにインターネットから大量のデータをクロールする必要があり、そのほとんどは人間によって生成されます。しかし、人々がこれらのツールを利用する機会が増えるにつれ、AI が生成したコンテンツがオンライン データ プールに追加され、将来の LLM がそこから学習することになります。

科学者らは、AIが生成したコンテンツを使用してAIシステムを繰り返しトレーニングすると、エラーや無意味な例が蓄積し続け、後続のAIが事実とフィクションを区別できなくなると述べています。彼らは、AIが「自らの信念を強化することで、真実だと信じていることを歪め始める」のではないかと懸念している。

アンダーソンは、モーツァルトともう一人の音楽家、アントニオ・サリエリの作品を使ってこの疑問を説明しています。

「モーツァルトで音楽モデルをトレーニングすると、余計な装飾を省いたモーツァルトに似た出力が得られると期待できます。これを『サリエリ』と呼ぶことができます。次に、『サリエリ』を使用して次世代の AI システムをトレーニングし、このプロセスを何度も繰り返します。第 5 世代や第 6 世代のモデルはどのようなものになるでしょうか」と彼は書いています。

問題は、AIが以前に生成したコンテンツで訓練された後の確率の認識にあると、オックスフォード大学の教授でこの研究の主執筆者であるイリア・シュマイロフ氏は述べた。起こりそうもない出来事が出力に反映される可能性はますます低くなり、次世代の AI (この出力でトレーニングされた) が理解できる可能性は狭まります。

論文で示された一例では、中世の建築に関する人間が作成したテキストが AI 言語モデルに入力され、モデルの出力が次世代の AI のトレーニングに使用されました。原文では、競合する建築理論を巧みに扱い、このサイクルを数回繰り返しました。

9 回目の反復までに、テキストは意味のない意味不明な文字になってしまいました。そこにはこう書かれている。「この建物には、黒、白、青、赤、黄色の野ウサギが世界最大数生息しています。」

アンダーソン氏は「モデルの崩壊」を大規模な汚染に例え、「私たちが海をプラスチックで、大気を二酸化炭素で満たしたように、インターネットをナンセンスで満たそうとしている」と書いている。

AI によって生成されたコンテンツはすでに大規模にオンライン上に登場しています。 5月、オンライン誤情報監視団体ニュースガードは、完全に人工知能によってコンテンツを作成していると思われる49のニュースウェブサイトを発見したと警告した。

マーケティングおよびPR代理店は、コピーライティングをチャットボットにアウトソーシングするケースが増えており、人間のクリエイターの仕事を奪っていると報じられている。しかし、シュマイロフ氏とアンダーソン氏の研究結果に基づくと、AIに負けたくないと思っている人間のクリエイターは、まだシャンパンを開けるべきではない。

シュマイロフ氏は、人工的に生成されたデータはAIのトレーニングに絶対に必要なわけではないが、私たちの言語は多くの自然な変化、エラー、予測できない結果を生み出すため、役に立つと述べた。

「だから、人間は間違いなく役立っている」と彼は言った。 「同時に、これは人工知能を訓練する際に人間のデータに対する需要がそれほど大きくないことも示しています。」

<<:  わずか数ステップでデバイス上で Alpaca-LoRA を実行するにはどうすればよいでしょうか?

>>:  AI生成コンテンツの隠れた危険性:AIがAIを学習するだけでは、インターネットは意味のないコンテンツで満たされる

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

陳一然教授の論文が2024 IEEE優秀論文賞を受賞しました! STN-iCNN: エンドツーエンドの顔解析フレームワーク

陳一然教授の論文が賞を受賞しました!この顔認識/分析に関する論文は、2024 IEEE CIS TE...

人工知能とはいったい何でしょうか?人工知能の主要なテクノロジーと概念について学びましょう。

現在、人工知能が何であるかをまだよく理解していない人がたくさんいます。今日は、人工知能の主要な技術と...

さまざまな専門家が独自のカスタムGPTを提供しました。24時間のトップ9リストはこちらです。

11月10日の早朝、OpenAIはGPTをリリースしました。ChatGPT Plusのすべての加入...

2020 年のソフトウェア開発における 6 つの画期的なトレンドは何ですか?

[[313570]] 1. ブロックチェーンブロックチェーンは、間違いなく IT 業界で最も議論さ...

Huang 氏の最新インタビュー: 30 年前に戻れるなら、私は NVIDIA を立ち上げることはなかったでしょう!

ベルサイユの中国人起業家サークルに、ジェンセン・フアンというもう一人の大物が加わった。最近の公開イン...

普遍近似定理を理解しなければ、ニューラルネットワークを理解することはできない

ニューラルネットワークの威力を示す証拠文字通り、普遍近似定理はニューラル ネットワークがどのように機...

ロシアのロボット宇宙飛行士が3Dプリントされた骨組織サンプルを持って地球に帰還

ロシア衛星ネットワークによると、最近、ロシアの「3Dバイオプリンティングソリューションズ」社のマネー...

...

人工知能はクラウド セキュリティ サービスをどのように変えるのでしょうか?

この記事では、AI がクラウド セキュリティ サービスをどのように変えているのか、そしてそれが企業に...

生成AIスタートアップにとっての大きな問題は、資金不足ではなくトレーニングデータの不足だ

6月16日、生成型人工知能のスタートアップ企業数社が数十億ドルの資金を調達したが、適切なデータを入手...

Meta-Transformer: マルチモーダル学習のための統一フレームワーク

Meta-Transformer は、自然言語、画像、ポイント クラウド、オーディオ、ビデオ、時系列...

退屈な「機械学習」がこのように学べるとは思ってもいませんでした!

[[234276]]機械学習は、確率論や統計などの複雑な分野を含む人工知能の中核分野の 1 つです...

NvidiaはAIでの成功を量子コンピューティングに応用しようとしている

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

GoogleのAIオープンソース成果物は3年前に誕生し、想像もつかないような多くの場所で使用されている。

2016年3月、人間と機械の戦い「イ・セドル対AlphaGo」は、人工知能の力を世界に知らしめた。...