人間が作成したデータは高価すぎます!開発者はAI合成データをひそかに使用してモデルをトレーニングしている

現在、開発者は AI によって生成されたデータをひそかに使用して AI モデルをトレーニングしています。

理由は、人間が作成したデータは高価すぎるからです。

これまで、ほとんどの AI モデルは人間のデータを使用してトレーニングされていましたが、現在では、ますます多くの企業 (OpenAI、Microsoft、Cohere などのスタートアップを含む) がこの AI 生成の「合成データ」を使用し始めているか、AI 生成データの使用方法を模索しています。

これにより、AI エコシステム全体が自分自身を食べる「蛇」に変わりますが、人間は自分で作成したデータに対して余裕がありません。

インターネットは人間のデータを使い果たしつつある

価格に加えて、規模の問題という別の理由もあります。

現在、インターネット上で利用可能な人間のデータの多くは整理されていますが、より強力なモデルを構築するには、さらに多くのデータが必要です。

昨年 11 月、ChatGPT の発売をきっかけに、大手モデル間の戦争が勃発しました。Google、Microsoft、Meta、Anthropic などの大手テクノロジー企業が次々と市場に参入し、次々と新製品をリリースしました。

ChatGPT や Bard のようなチャットボットの背後にある LLM は、主に、デジタル化されたすべての書籍、ニュース記事、ブログ、検索クエリ、Twitter や Reddit の投稿、YouTube の動画、Flickr の画像など、インターネットデータをスクレイピングすることによってトレーニングされます。

しかし、生成 AI がますます複雑化しているため、資金力のある多くの大企業でさえ、AI モデルをトレーニングするための簡単にアクセスできる高品質のデータが不足しつつあります。

同時に、AIのトレーニングに消費する個人データの量と種類の多さから、世界中の規制当局、アーティスト、メディアから非難を浴びている。

みんな静かに使っています。

開発者らは、インターネットからの一般的なデータだけでは、人工知能モデルのパフォーマンスを向上させるのにもはや不十分だと述べている。

CohereのCEO、エイデン・ゴメス氏はフィナンシャル・タイムズ紙に対し、必要なデータがすべてインターネットから入手できれば完璧だと語った。

残念ながら、インターネット上の情報は非常にノイズが多く混乱しているため、開発者が本当に必要とするデータは反映されていません。

実際、Cohere は LLM のトレーニングに合成データを密かに使用していますが、このニュースはまだ広く発表されていません。

OpenAIのような企業も同様のことを計画している。

5月にロンドンで行われたイベントで、OpenAIのCEOサム・アルトマン氏は、ChatGPTのプライバシーリスクに対する規制当局の監視を懸念しているかどうか尋ねられた。

アルトマン氏はそれを真剣に受け止めず、すべてのデータはすぐに合成データになり、これに非常に自信を持っていると冷静に語った。

合成データには大きな可能性がある

合成データには明るい未来があるようです。

Microsoft は、合成データが基本的な LLM をどのように強化できるかを示す研究を発表しました。

論文アドレス: https://arxiv.org/pdf/2306.11644.pdf

現在、GPT-4 のような最先端のモデルは、ライティングやコーディングなどの分野ですでに人間に近いレベルのパフォーマンスを発揮しており、American Regulated Verse Test などのベンチマークテストに合格することができます。

パフォーマンスを大幅に向上させ、科学、医学、ビジネス上の課題に対処できるようにするには、AI モデルを独自の複雑なデータセットを使用してトレーニングする必要があります。

これらのデータセットは、科学者、医師、作家、俳優、エンジニアなどの専門家によって作成されるか、製薬会社、銀行、小売業者などの大企業から独自のデータとして取得される必要があります。

しかし、人間が作成したデータセットは高価すぎます。

合成データを使用すると、コストが大幅に削減されます。

企業は AI モデルを使用して、医療や金融詐欺などの分野に関連するテキスト、コード、またはより複雑な情報を生成し、この合成データを使用して高度な LLM をトレーニングし、さらに強力にすることができます。

ゴメス氏は、Cohere社とその競合他社数社はすでに合成データを使用しており、それを人間が微調整し、調整していると述べた。合成データは現在、多くの場所で広く使用されていますが、このニュースはまだ広く公表されていません。

ゴメス氏は、例えば高度な数学モデルを訓練するために、Cohere では 2 つの AI モデルを通信させ、一方をメンターとして、もう一方に学生として機能させると説明した。

彼らは三角法について話しましたが、会話はすべてモデルによって想像された合成のものでした。

その後、人間が会話を確認し、モデルが間違っていた場合は修正します。

Microsoft の最近の 2 つの研究では、合成データを使用して、OpenAI の GPT-4 や Google の PaLM-2 などの最先端のモデルよりも小さくシンプルなモデルをトレーニングできることが示されています。

ある論文では、GPT-4 によって生成された、4 歳児でも理解できる単語のみを含む短編小説の合成データセットについて説明しています。

論文アドレス: https://arxiv.org/pdf/2305.07759.pdf

このデータセットは TinyStories と呼ばれ、流暢かつ文法的に正しいストーリーを伝えるシンプルな LLM をトレーニングするために使用されました。

別の論文では、AI はコーディングタスクで優れたパフォーマンスを発揮する教科書や演習の形で合成 Python コードを使用してトレーニングできることが示されました。

Scale AIやGretel.aiなどのスタートアップ企業も登場し、合成データをサービスとして提供しています。

Gretel は、NSA と CIA の元アメリカ人アナリストによって設立され、Google、HSBC、Riot Games、Illumina などの企業と連携して、合成データを使用してより優れた AI モデルをトレーニングしています。

Gretel の CEO である Ali Golshan 氏によると、合成データの鍵となるのは、統計的整合性を維持しながら、データセット内のすべての個人のプライバシーを保護することです。

さらに、慎重に作成された合成データは、既存のデータの偏りや不均衡を除去することもできます。

「ヘッジファンドはブラックスワンイベントに注目し、100通りのバリエーションを作成して、モデルが失敗するかどうかを確認できます。」

銀行の場合、詐欺は通常、総データの100％未満を占めますが、Gretelのソフトウェアは「AIモデルのトレーニングに使用できる詐欺に関する数千のエッジケースシナリオ」を生成できます。

AIスネーク、実現可能か？

もちろん、AI を使って Snake スタイルのデータを「生産して販売」することにも大きな問題があります。

人間のデータでトレーニングされた AI でさえ、重大な事実上の誤りを犯す可能性があります。ましてや、独自のデータを生成する AI であればなおさらです。

批評家は、合成データのすべてが現実世界のデータを反映したり改善したりするために注意深くキュレーションされているわけではないと指摘しています。

AI が生成したテキストや画像がインターネットに溢れ始めると、AI 企業は自社モデルの原始バージョンで生成された生データを使用することになる可能性が高く、これは「ドッグフード」と呼ばれる現象です。

スタンフォード大学とライス大学の科学者らは、AIが生成したコンテンツをAIモデルに入力すると、出力の品質が低下する可能性があることを発見した。

論文アドレス: https://arxiv.org/abs/2307.01850

この種の蛇のような自己消費は、モデルのデジタル脳を破壊します。

ライス大学とスタンフォード大学のチームは、AIが生成したコンテンツをモデルに入力すると、パフォーマンスが低下するだけであることを発見した。研究者たちは、これについて「モデルオートファジー障害（MAD）」と呼ばれる説明を考案した。

研究では、AI データを使用する場合、モデルはトレーニングの 5 回目の反復後に MAD の影響を受けることが判明しました。

合成データでAIモデルをトレーニングすると、アーティファクトが徐々に増幅される

言い換えれば、モデルに「新鮮なデータ」、つまり人間がラベル付けしたデータが提供されない場合、その出力の品質は深刻な影響を受けることになります。

オックスフォード大学とケンブリッジ大学の研究者らも論文を発表し、偽りのデータや捏造されたデータが含まれている可能性のある生の出力でAIモデルをトレーニングすると、時間の経過とともにモデルが破損し、「回復不可能な欠陥」につながる可能性があると警告している。

論文アドレス: https://arxiv.org/pdf/2305.17493v2.pdf

AI、できるだけ早く自分で学ぶことを学ぶべきだ

ゴルシャン氏は、質の悪い合成データでモデルをトレーニングすると、進歩が妨げられる可能性があることに同意しています。

「インターネットがAI生成コンテンツで溢れるようになるにつれ、AIモデルは繰り返し使われる知識を生み出し、新たな洞察を生み出さなくなるため、品質が低下します。」

こうしたリスクにもかかわらず、Cohere の Gomez 氏のような AI 研究者は、合成データは超知能 AI システムへの道を加速させる可能性を秘めていると述べています。

ゴメスCEOは次のように語った。「本当に必要なのは、自ら学習できるAIモデルです。自ら質問し、自ら真実を発見し、自ら知識を生み出すのです。これが人類の夢です。」

ネットユーザーらは白熱した議論を展開

これに対して多くのネットユーザーが意見を述べた。

合成データには次のような利点があります。

👍 合成データは、現実世界のデータの使用から生じるプライバシーの懸念に対処できる可能性があります。

👍 特定のニーズに合わせて作成された合成データは品質が高くなり、より正確な AI モデルが実現される可能性があります。

👍 高度な AI モデルをトレーニングするためのデータの需要が急増しています。合成データはほぼ無制限に供給され、データ不足が大幅に削減されます。

しかし、AI トレーニングの AI の目的は非常に重要です。

💡人間を支援する AI モデルを作成することが目標である場合、人間が生成したデータでトレーニングする方が適切かもしれません。これにより、AI の応答と動作が私たち自身のものとより一貫性があり、関連性のあるものになります。

💡私たちの目標が超知能 AI を作成することである場合、モデルが人間の理解を超えた事柄から学習できるようにする合成データが鍵となる可能性があります。

👎合成データからの AI 自己学習によって結果が劣化した例は数多くあります。したがって、答えは、トレーニング用の現実世界の合成データと専門家データのバランスの取れた組み合わせにあります。説明可能な AI は、モデルの結果がどのように決定されたかを説明するために非常に重要です。

私の立場は他の人とは異なります。将来、LLM がデータを生成し、他のモデルがそのデータから学習できるようにするべきだとは考えていません。企業が機密性が高く独自のデータをビジネスの中核的な差別化要因として活用できるようにするには、プライベートドメインデータでさらにモデルのトレーニングと調整を行う必要があると考えています。

適切なアプローチは、プライバシーが保証された合成データです。

「患者ではなく病気を理解するようにモデルをトレーニングする」というのが私たちの言うとおり、合成データには約束があり、私たちは個人情報を共有することなく洞察をモデルに転送しています。

1. 完璧なデータではなく、優れたデータが必要な領域があり、合成データが最大の影響を与える領域があります。

2. 同様に、品質は、極端な優れた結果ではなく、平均の範囲に基づいて決まります。

3. 技術者が設計したコンピューター生成データが AI のトレーニングに使用されると、たとえ意図的でないとしても、システム内のバイアス (そのほとんどは認知バイアス) が悪化します。したがって、リスクのある職種について考えるよりも、どの職種が適切で必要であり、100% ではなく特定の基準を満たすだけでよいかを考える方がよいアプローチかもしれません。

最後に、多くの人が AI と産業革命の類似点について議論しています。株式市場では、パッシブ投資ファンドや ETF の台頭と多くの類似点があり、現在ではほとんどの取引が実際の人間の介入ではなくアルゴリズムに基づいて行われています。

しかし、そのようなシステムは本質的に受動的である傾向があり、簡単に操作される可能性があります。

<<: AIと5Gの相乗効果：デジタル時代の潜在能力を最大限に引き出す

>>: ウーバーの安全担当者が世界初の自動運転車による死亡事故で有罪を認め、3年間の保護観察処分を受ける