AI が生成したデータを使用して AI をトレーニングしても魔法のようには機能せず、逆効果になるだけです。 最近、ライス大学とスタンフォード大学のチームは、AI が生成したコンテンツをモデルに取り込むとパフォーマンスが低下するだけであることを発見しました。 研究者たちは、これについて「モデルオートファジー障害(MAD)」と呼ばれる説明を考案した。 写真 論文アドレス: https://arxiv.org/abs/2307.01850 研究では、AI データを使用する場合、モデルはトレーニングの 5 回目の反復後に MAD の影響を受けることが判明しました。 合成データでAIモデルをトレーニングすると、アーティファクトが徐々に増幅される 言い換えれば、モデルに「新鮮なデータ」、つまり人間がラベル付けしたデータが提供されない場合、その出力の品質は深刻な影響を受けることになります。 モデル「内部摩擦」を拒否現時点では、MAD がすべての AI モデルに影響を与えることは確認されていませんが、研究者はオートエンコーダ、ガウス混合モデル、大規模言語モデルでそれを検証しています。 「世界は、生成AIの爆発的な増加により、インターネット上の合成データがすぐに実際のデータを上回る未来に向かっている」と著者らは書いている。 したがって、現在の AI モデルは、知らないうちに、ますます多くの人工知能合成データを使用してトレーニングされています。 たとえば、最大規模の既知のオープンソースのマルチモーダル データセットである LAION-5B は、Stable Diffusion を含む最先端のテキスト画像モデルのトレーニングに使用されてきました。 このデータセットには、初期世代のモデルからサンプリングされた合成画像が含まれています。 写真 合成データが人気がある主な理由は 4 つあります。 - トレーニングデータの合成は、実際のサンプルを取得するよりも簡単、高速、安価です。 - 場合によっては、合成データ拡張によりAIシステムのパフォーマンスが向上する可能性がある - 医療画像や医療記録などの機密性の高いアプリケーションでプライバシーを保護できます - 最も重要なのは、ディープラーニング モデルのパラメータがどんどん大きくなるにつれて、利用できる実際のデータがほとんどなくなることです。 より多くの実際のデータを取得するために、OpenAIは最近AP通信と契約を締結し、両者はニュースコンテンツと技術の一部を共有することになる。 写真 しかし、意図的であろうとなかろうと、合成データの使用は標準的な AI トレーニングの実践から逸脱することになります。
さまざまなオートファジー サイクルのバリエーションは、既存の実際のデータと合成データが将来のトレーニング セットにどのように組み合わされるかによって異なります。 写真 ただし、合成データの生成方法に応じて、他のバリエーションが発生する可能性があります。 たとえば、研究者やアルゴリズムは、合成データを手動で「選択」して、知覚品質(画像やテキストの見栄えが良いなど)と多様性(さまざまな種類の画像やテキスト)のバランスをとることにより、サンプリング バイアスを導入することがよくあります。 研究者らは、「品質」と「多様性」という2つの非公式な概念が、それぞれ精度と再現率という統計指標と密接に関連していることを紹介した。 今日のトレーニング データセットに合成データがすでに存在していた場合、将来オートファジー サイクルはほぼ避けられないものとなるでしょう。 それで、その影響はどれくらい大きいのでしょうか? 研究者らは、トレーニングセットの構成やサンプリング方法に関係なく、オートファジーサイクルが生成されたモデルの特性とパフォーマンスに及ぼす潜在的な影響は、まだ十分に理解されていないと述べている。 確かなのは、合成データを使用して繰り返しトレーニングを行うと、あらゆる生成モデルに存在するバイアスやアーティファクトが徐々に増幅される可能性があるということです。 要約すると、この研究には 3 つの重要な貢献があります。 1. オートファジーサイクルの現実的なモデル 研究チームは、オートファジー サイクルの 3 つのバリエーションを研究しました。完全合成サイクル (生成モデルが過去数世代の合成サンプルのみでトレーニングされる)、合成拡張サイクル (トレーニング セットに固定セットの実データも含まれる)、および新データ サイクル (トレーニング セットに各世代の新しい実データも含まれる) です。 これら 3 つのオートファジー サイクル モデルの要点は、各世代で十分な最新の実データがなければ、将来の生成モデルは MAD になる運命にあるということです。 2. サンプリングバイアスはオートファジーサイクルにおいて重要な役割を果たす モデル実践者は、合成データを手作業で選択し、高品質のサンプルを優先し、低品質のサンプルを削除する傾向があります。さらに、最先端の生成モデルには、多様性を犠牲にして合成品質を向上させることができる制御可能なパラメータが備わっていることがよくあります。 この品質と多様性(精度と再現率)のトレードオフによって誘発されるサンプリングバイアスが、オートファジートレーニングループの動作に大きな影響を与えることを示しています。 具体的には、サンプリング バイアスがない場合、オートファジーは品質と多様性の両方の急速な低下につながりますが、サンプリング バイアスがある場合、品質は維持されますが、多様性はより急速に低下します。 3. オートファジーサイクルの挙動は、さまざまな生成モデルやデータセットに適用できる チームは、単純な多変量ガウスモデルとガウス混合モデルの分析と実証的研究に加えて、主な結論がさまざまな生成モデルに適用できることを本文と付録で実証しました。 いくつかの実験結果 サンプリング バイアスのない完全な合成サイクルでは、生成モデルのトレーニングに使用される合成データの品質と多様性は、世代ごとに低下します。 完全な合成ループで生成された合成 FFHQ および MNIST 画像の FID、精度、多様性 (再現率) 研究者らは、実際の MNIST データと、サンプリング バイアスのない (λ = 1) 完全な合成ループからの合成データの t-SNE プロットを提示しています。 生成されたパターンが徐々に融合し、互いの分離が失われていくことがわかります。 10 世代目までに、生成されたサンプルはほとんど認識できなくなりました。 サンプリングバイアスがない場合、合成データモデルは真のモデルから逸脱し、 この研究では、合成品質の向上は合成多様性を損なうことも判明した。 高品質の合成データで生成モデルをトレーニングすると、常に合成品質または多様性が失われます。 サンプリング バイアスにより、合成データ モデルは、マージされるのではなく、単一の (高品質の) 画像の周囲でドリフトしたり崩壊したりする傾向があります。 写真 生成されたデータに透かしを入れるMAD 症状を示すこれらのモデルはすべて広く使用されており、しばらくの間実行されてきました。 オートエンコーダは、人気予測(ソーシャルメディアアプリケーションのアルゴリズムなど)、画像圧縮、画像ノイズ除去、画像生成などのタスクを処理できます。 ガウス混合モデルは、密度推定、クラスタリング、画像セグメンテーションなどの目的で使用され、統計学やデータ サイエンスで特に役立ちます。 自己生成コンテンツでトレーニングされる大規模な言語モデル (ChatGPT や Anthropic の Claude など) を使用する、今日の人気の ChatBot も、トレーニング中に MAD 現象が発生しやすくなります。 同時に、これは私たちの生活におけるこれらの AI システムの重要性も強調しています。アルゴリズムによる人工知能モデルは、ビジネス部門と公共部門の両方で広く使用されています。 この研究は、「AI技術のブラックボックス」を覗く方法を提供します。 しかし、これはまた、一部の AI モデルからハムスター ホイールを作成するという私たちの希望を打ち砕きます。ハムスター ホイールとは、データがモデルに入力され、次にモデル自体が生成したデータがモデルにフィードバックされ、さらにデータが生成され、それがモデルにフィードバックされるプロセスです。 それどころか、このトレーニング方法は、既存のモデルとそれらのモデルのアプリケーションに脅威をもたらすことになります。 すでに商用利用されているモデルが実際にそのモデル自身の出力でトレーニングされていた場合、そのモデルはすでに平均値に向かって回帰している可能性があります (これが明らかになるまでには約 5 回の入出力サイクルが必要であることに注意してください)。 モデル崩壊プロセスの概略図 モデルが平均値に向かって回帰する場合、少数派に属するはずのデータが考慮されていないため、ある程度偏りが生じます。これはアルゴリズムのバイアスとも呼ばれます。 研究結果から浮かび上がったもう一つの重要な点は、データ ソースに重点が置かれていることです。今さらに重要なのは、「生の」データと「人工の」データを区別できることです。 どのデータが LLM または生成画像アプリケーションによって作成されたかを判別できないと、次世代製品のトレーニング データに誤って含まれてしまう可能性があります。 残念ながら、この問題を元に戻すには遅すぎる可能性があります。これらのタイプのネットワークはすでに大量のラベルなしデータを生成し、他のシステムに組み込まれています。 ChatGPT や Midjourney の爆発的な増加以前のインターネット全体のスナップショットがあったとしても、AI によって生成されたデータは、実行時に生成される膨大な量のデータはもちろんのこと、長い間、毎日世界中の Web に流入し続けています。 モデル崩壊の原因の模式図 しかし、そうであっても、少なくとも私たちはすでにこれを知っています。 これを知ると、AI が生成したコンテンツを識別できる透かしを見つけること (これは絶対に真実です) がより重要かつ有益なタスクになり、AI が生成したデータにラベルを付ける責任がより重大になったことを意味します。 これらのバイアスを補正する方法は他にもあります。 これを行う 1 つの方法は、モデルの重みを変更することです。分布の末端にある結果の関連性または頻度を増やすと、それらはベル曲線に沿って自然に移動し、平均に近づきます。つまり、それらが削除される可能性が低くなり、自動的に生成されたトレーニングでのデータ損失を回避できます。 モデルは依然として曲線の端でデータを失いますが、このデータはもはや唯一の情報源ではありません。 しかし、重みはどのように決定されるのでしょうか?重みはどのように調整すればよいでしょうか?頻度はどのくらい増やすべきでしょうか? さらに、モデルを微調整することの影響と、その影響の結果がモデルが最終的に生成するものにどのように影響するかを理解する責任も私たちにはあります。 これらの質問に対する答えは、他の多くの質問を引き起こします。 モデルの応答の背後にある真実に関連する質問(バイアスは幻覚と呼ばれます) モデルに偏りがあるかどうか、またこの偏りがどこから来ているのか(トレーニング データ自体から来ているのか、ネットワークを作成するために使用された重みから来ているのか。これは MAD プロセスからもわかるようになりました) モデルが独自のデータでトレーニングされるとどうなるでしょうか...しかし、ご覧のとおり、結果は芳しくありません。 同様に、この問題も無視できません。 新しい知識に触れない人々が、ますます自己満足と偏執狂に陥っていくのと同じです。これは、モデルが自己生成コンテンツでトレーニングされると機能しなくなるのと同じ理由です。 写真 |
>>: ChatGPTはカスタムコマンドを起動します。一度言って覚えておけば、話すたびにそれに従います。
適応型計算とは、環境の変化に応じて ML システムの動作を調整する能力を指します。従来のニューラル ...
5G時代の到来により、さまざまな業界のトラフィックが爆発的な増加を遂げており、特にビデオ業界はインタ...
これまで、視覚システムに関する基本的な研究の多くは、動物に画像を見せ、そのニューロンの反応を測定し、...
機械学習やその他の技術をバックグラウンドで使用することで、AI は私たちの日常生活に多くの素晴らしい...
2016 年に AI 企業が獲得した資金は 80 億ドルと推定され、この数字は今後 3 年間で 5 ...
[[218838]] Innovation Works の創設者である Kai-Fu Lee 氏は、...
[51CTO.comより引用] 先日、インテルは、自動運転プラットフォームプロバイダーのMobile...
9月13日北京時間午前1時に行われたアップルの秋季製品発表イベントで、アップルの広報担当者はAI技術...
人工知能と機械学習はメリットをもたらす一方で、新たな脆弱性ももたらします。この記事では、いくつかの企...
業界では、デート、マーケティング、ソーシャルメディアから宇宙探査、医療の進歩に至るまで、人工知能とそ...
[51CTO.com からのオリジナル記事] ライブショー「ビッグネームがやってくる」の今回のエピソ...
移動ロボットは、人間が設計したタスクを完了するために、現実世界の環境を効果的にナビゲートし、周囲の人...
Cactiパーセンタイル監視アルゴリズムcacti のテンプレート自体はハードディスクの使用サイズし...