合成データは AI/ML トレーニングの未来を推進するでしょうか?

人工知能や機械学習 (AI/ML) をトレーニングするために現実世界のデータを収集することは、時間がかかり、コストがかかることは間違いありません。そして、多くの場合、それはリスクを伴いますが、より一般的な問題は、データが少なすぎたり偏っていたりすると、組織が誤った方向に進んでしまう可能性があることです。しかし、新しいデータ、いわゆる合成データを生成できるとしたらどうでしょうか?

ありそうもない話に聞こえるかもしれないが、Synthesis AI は、468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital、Kubera Venture Capital などのベンチャーキャピタル企業から調達した 1,700 万ドルのシリーズ A ラウンドでまさにそれを実現しようとしているのだ。

これは非常に確固たる証拠です。同社はこの資金を、実データと合成データが混在する分野での研究開発の拡大に充てる予定だ。

「合成データは採用の転換点にあり、私たちの目標は、この技術をさらに発展させ、コンピュータービジョンシステムの構築方法にパラダイムシフトを起こすことです」と、Synthesis AIのCEO、ヤシャール・ベザディ氏は声明で述べた。「業界はまもなく、仮想世界でコンピュータービジョンモデルを完全に設計、トレーニングできるようになり、より高度で倫理的なAIが実現するでしょう。」

しかし、合成データとは何でしょうか?

合成データは現実世界から収集されるのではなく、人工的に作成されます。現在、多くのアプリケーションは、コンピュータービジョンシステムから収集されたデータなどの視覚データに重点を置いています。それでも、アプリのテストや不正行為の検出に使用するアルゴリズムの改善など、他のユースケースで合成データを作成できない実用的な理由はありません。それらは、物理的な記録の高度に構造化されたデジタルツインのようなものです。

膨大な現実世界のデータセットを大規模に利用できるようにすることで、データサイエンティストやアナリストは理論的にはデータ収集プロセスをスキップし、直接テストやトレーニングに進むことができます。

これは、現実世界のデータセットを作成するためのコストの大部分が、生データの収集だけではないからです。コンピュータービジョンと自動運転車を例にとると、自動車メーカーや研究者はさまざまなカメラ、レーダー、LIDARセンサーを車両に取り付けてデータを収集できますが、生のデータはAI/MLアルゴリズムにとって何の意味もありません。同様に困難な課題は、システムがより良い決定を下せるように、データにコンテキスト情報を手動でラベル付けすることです。

この課題を具体的に考えてみましょう。一時停止標識、交差点、駐車中の車、歩行者などがある短距離を頻繁に運転し、潜在的な危険をすべてラベル付けすることが困難な作業であると想像してください。

合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするのに十分な規模で、完全にラベル付けされたデータセットを作成できることです。つまり、データサイエンティストは、実際のデータを実装する必要が生じる前や、データの入手が困難な状況で、さまざまな新しい場所でアルゴリズムを突然テストできるようになります。自動運転車の例を続けると、データサイエンティストは、ドライバーを北や山中に送り込んで手動でデータを収集することなく、合成データを作成して、雪道などの悪条件でも車を運転できるようにトレーニングできます。

合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするために必要な規模で、完全にラベル付けされたデータセットを作成できることです。つまり、データサイエンティストは、実際のデータが利用可能になる前、またはデータの入手が困難な場合でも、さまざまな新しい場所で突然アルゴリズムをテストできるようになります。再び自動運転車の例を挙げると、データサイエンティストは、ドライバーをはるか北や山中に送り込んで手動でデータを収集することなく、合成データを作成して、雪道などの悪条件でも車を運転できるようにトレーニングすることができます。

しかし、合成データは、より多くのデータとより多くの AI/ML アルゴリズムを使用してのみ作成できるため、鶏が先か卵が先かという問題があります。「シード」データセットから始めて、それを合成作品のベースラインとして使用すると、合成作品の品質は開始時のデータの品質と同じだけになります。

（無形の）利益

無限とも思えるデータジェネレーターを利用できることでメリットを得られないデータサイエンティストや研究者はいないのではないでしょうか。主なメリットである、実世界のデータを手動で収集する手間を省く機能は、合成データが AI/ML アプリケーションを加速する方法の 1 つにすぎません。

アナリストやデータサイエンティストは、シードデータを厳密に管理し、多様性を取り入れるための特別な努力をしたり、外部のコンサルタントと協力して偏見を発見して解読したりできるため、より高い基準を自らに課すことができます。たとえば、Synthesis AI は、ドライバーの状態を監視し、コンピューターで生成された合成データセットにさまざまな顔を慎重に含めて、現実世界のアプリケーションがすべての人に機能することを保証するシステムを開発しています。

プライバシーももう一つの潜在的なメリットです。企業が自社の自動運転車のために何百万マイルもかけて現実世界のデータを収集する場合、多くの人が個人的かつプライベートとみなすデータ、特に顔のデータを大量に収集することになります。 Google や Apple のような大企業は、マッピングソフトウェアでこの種の問題を回避する方法を見つけましたが、そのルートは、アルゴリズムをテストしたい小規模な AI/ML チームにとっては実現可能ではありません。

「企業は、人間中心の製品におけるモデルの偏りや消費者のプライバシーに関する倫理的問題にも苦慮している。次世代のコンピュータービジョンを構築するには、新たなパラダイムが必要なのは明らかだ」と、同社のCEO兼創設者であるヤシャール・ベザディ氏はメディアに語った。

合成データは開始時にシードに依存しますが、微調整や変更を行うことで、現実世界では捕捉が困難または危険なエッジケースで AI/ML アプリケーションをトレーニングするのに役立ちます。自動運転車を開発する各社は、トラックの後ろに隠れた一時停止標識や、道路に飛び出してきた2台の車の間に立っている歩行者など、部分的にしか見えない物体や人物の識別能力を高めたいと考えている。

これらの成功を念頭に置き、偏見が合成データにエンコードされるという鶏が先か卵が先かという問題に対する懸念があるにもかかわらず、ガートナーは、2024 年までに AI および分析製品の開発に使用されるデータの 60% が合成で生成されると予測しています。彼らは、新しいデータの多くは、予測モデルの基になっている過去のデータが関連性を失ったり、過去の経験に基づく仮定が無効になったりしたときに、予測モデルを修復することに重点が置かれるだろうと予測しています。

しかし、現実世界のデータは常に収集されるため、私たちが一般的で偏見のない自分自身のアバターによって完全に時代遅れになるのは、まだ先のことです。

<<: ゼロショット学習がCLIPを超える！ Googleは、コンピューティングコストも削減できる初のマルチモーダルスパースモデルLIMoEを提案

>>: 442人の著者による100ページの論文！ Googleは2年かけて大規模モデル向けの新しいベンチマーク「BIG-Bench」をリリースした。