合成データは AI/ML トレーニングの未来を推進するでしょうか?

合成データは AI/ML トレーニングの未来を推進するでしょうか?

人工知能や機械学習 (AI/ML) をトレーニングするために現実世界のデータを収集することは、時間がかかり、コストがかかることは間違いありません。そして、多くの場合、それはリスクを伴いますが、より一般的な問題は、データが少なすぎたり偏っていたりすると、組織が誤った方向に進んでしまう可能性があることです。しかし、新しいデータ、いわゆる合成データを生成できるとしたらどうでしょうか?

ありそうもない話に聞こえるかもしれないが、Synthesis AI は、468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital、Kubera Venture Capital などのベンチャーキャピタル企業から調達した 1,700 万ドルのシリーズ A ラウンドでまさにそれを実現しようとしているのだ。

これは非常に確固たる証拠です。同社はこの資金を、実データと合成データが混在する分野での研究開発の拡大に充てる予定だ。

「合成データは採用の転換点にあり、私たちの目標は、この技術をさらに発展させ、コンピュータービジョンシステムの構築方法にパラダイムシフトを起こすことです」と、Synthesis AIのCEO、ヤシャール・ベザディ氏は声明で述べた。「業界はまもなく、仮想世界でコンピュータービジョンモデルを完全に設計、トレーニングできるようになり、より高度で倫理的なAIが実現するでしょう。」

しかし、合成データとは何でしょうか?

合成データは現実世界から収集されるのではなく、人工的に作成されます。現在、多くのアプリケーションは、コンピューター ビジョン システムから収集されたデータなどの視覚データに重点​​を置いています。それでも、アプリのテストや不正行為の検出に使用するアルゴリズムの改善など、他のユースケースで合成データを作成できない実用的な理由はありません。それらは、物理的な記録の高度に構造化されたデジタルツインのようなものです。

膨大な現実世界のデータセットを大規模に利用できるようにすることで、データ サイエンティストやアナリストは理論的にはデータ収集プロセスをスキップし、直接テストやトレーニングに進むことができます。

これは、現実世界のデータセットを作成するためのコストの大部分が、生データの収集だけではないからです。コンピュータービジョンと自動運転車を例にとると、自動車メーカーや研究者はさまざまなカメラ、レーダー、LIDARセンサーを車両に取り付けてデータを収集できますが、生のデータはAI/MLアルゴリズムにとって何の意味もありません。同様に困難な課題は、システムがより良い決定を下せるように、データにコンテキスト情報を手動でラベル付けすることです。

この課題を具体的に考えてみましょう。一時停止標識、交差点、駐車中の車、歩行者などがある短距離を頻繁に運転し、潜在的な危険をすべてラベル付けすることが困難な作業であると想像してください。

合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするのに十分な規模で、完全にラベル付けされたデータセットを作成できることです。つまり、データ サイエンティストは、実際のデータを実装する必要が生じる前や、データの入手が困難な状況で、さまざまな新しい場所でアルゴリズムを突然テストできるようになります。自動運転車の例を続けると、データ サイエンティストは、ドライバーを北や山中に送り込んで手動でデータを収集することなく、合成データを作成して、雪道などの悪条件でも車を運転できるようにトレーニングできます。

合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするために必要な規模で、完全にラベル付けされたデータセットを作成できることです。つまり、データ サイエンティストは、実際のデータが利用可能になる前、またはデータの入手が困難な場合でも、さまざまな新しい場所で突然アルゴリズムをテストできるようになります。再び自動運転車の例を挙げると、データ サイエンティストは、ドライバーをはるか北や山中に送り込んで手動でデータを収集することなく、合成データを作成して、雪道などの悪条件でも車を運転できるようにトレーニングすることができます。

しかし、合成データは、より多くのデータとより多くの AI/ML アルゴリズムを使用してのみ作成できるため、鶏が先か卵が先かという問題があります。 「シード」データセットから始めて、それを合成作品のベースラインとして使用すると、合成作品の品質は開始時のデータの品質と同じだけになります。

(無形の)利益

無限とも思えるデータ ジェネレーターを利用できることでメリットを得られないデータ サイエンティストや研究者はいないのではないでしょうか。主なメリットである、実世界のデータを手動で収集する手間を省く機能は、合成データが AI/ML アプリケーションを加速する方法の 1 つにすぎません。

アナリストやデータ サイエンティストは、シード データを厳密に管理し、多様性を取り入れるための特別な努力をしたり、外部のコンサルタントと協力して偏見を発見して解読したりできるため、より高い基準を自らに課すことができます。たとえば、Synthesis AI は、ドライバーの状態を監視し、コンピューターで生成された合成データセットにさまざまな顔を慎重に含めて、現実世界のアプリケーションがすべての人に機能することを保証するシステムを開発しています。

プライバシーももう一つの潜在的なメリットです。企業が自社の自動運転車のために何百万マイルもかけて現実世界のデータを収集する場合、多くの人が個人的かつプライベートとみなすデータ、特に顔のデータを大量に収集することになります。 Google や Apple のような大企業は、マッピング ソフトウェアでこの種の問題を回避する方法を見つけましたが、そのルートは、アルゴリズムをテストしたい小規模な AI/ML チームにとっては実現可能ではありません。

「企業は、人間中心の製品におけるモデルの偏りや消費者のプライバシーに関する倫理的問題にも苦慮している。次世代のコンピュータービジョンを構築するには、新たなパラダイムが必要なのは明らかだ」と、同社のCEO兼創設者であるヤシャール・ベザディ氏はメディアに語った。

合成データは開始時にシードに依存しますが、微調整や変更を行うことで、現実世界では捕捉が困難または危険なエッジケースで AI/ML アプリケーションをトレーニングするのに役立ちます。自動運転車を開発する各社は、トラックの後ろに隠れた一時停止標識や、道路に飛び出してきた2台の車の間に立っている歩行者など、部分的にしか見えない物体や人物の識別能力を高めたいと考えている。

これらの成功を念頭に置き、偏見が合成データにエンコードされるという鶏が先か卵が先かという問題に対する懸念があるにもかかわらず、ガートナーは、2024 年までに AI および分析製品の開発に使用されるデータの 60% が合成で生成されると予測しています。彼らは、新しいデータの多くは、予測モデルの基になっている過去のデータが関連性を失ったり、過去の経験に基づく仮定が無効になったりしたときに、予測モデルを修復することに重点が置かれるだろうと予測しています。

しかし、現実世界のデータは常に収集されるため、私たちが一般的で偏見のない自分自身のアバターによって完全に時代遅れになるのは、まだ先のことです。

<<:  ゼロショット学習がCLIPを超える! Googleは、コンピューティングコストも削減できる初のマルチモーダルスパースモデルLIMoEを提案

>>:  442人の著者による100ページの論文! Googleは2年かけて大規模モデル向けの新しいベンチマーク「BIG-Bench」をリリースした。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

GPT-4 は宇宙のすべてのデータを消費します! OpenAI、データ不足で相次いで訴訟に直面、カリフォルニア大学バークレー校教授が警告

「ネットワーク全体」を使い果たすと、生成 AI はすぐにデータを使い果たします。最近、カリフォルニア...

OpenAI憲章中国語版

この文書は、OpenAI 内外の多くの人々からのフィードバックを含め、過去 2 年間にわたって改良し...

...

AIの限界を理解することがその可能性を実現する鍵となる

人工知能 (AI) は、デジタル顧客サービス アシスタント、自動運転車、無人倉庫のロボットなど、多く...

ビジネス上の問題を機械学習の問題に変換するにはどうすればよいでしょうか?

[[197632]]機械学習が価値を変革するための最も重要なステップは何ですか?ビジネス上の問題に...

ついにクラウド コンピューティング、ビッグ データ、人工知能をわかりやすく説明してくれる人が現れました。

今日はクラウド コンピューティング、ビッグ データ、人工知能についてお話します。これら 3 つの単語...

...

...

...

バンク・オブ・アメリカ証券:ChatGPT iOSクライアントのダウンロード数は6月に38%減少

7月6日、バンク・オブ・アメリカ証券の最新調査レポートによると、人工知能はテクノロジー業界で最もホッ...

AIと自動化でコンプライアンスコストを削減する5つの方法

規制は消費者と市場を保護するために設けられていますが、多くの場合、規制は複雑であり、遵守にはコストが...

解釈可能な機械学習のための Python ライブラリ

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

すべてのオープンソースモデルを超え、クロードとバードを破り、プログラミングタスク専用の大規模モデルが登場

最近、大規模言語モデル(LLM)の継続的なリリースにより、LLMランキング競争が熱を帯びてきており、...

...