合成データは AI/ML トレーニングの未来を推進するでしょうか?

合成データは AI/ML トレーニングの未来を推進するでしょうか?

人工知能や機械学習 (AI/ML) をトレーニングするために現実世界のデータを収集することは、時間がかかり、コストがかかることは間違いありません。そして、多くの場合、それはリスクを伴いますが、より一般的な問題は、データが少なすぎたり偏っていたりすると、組織が誤った方向に進んでしまう可能性があることです。しかし、新しいデータ、いわゆる合成データを生成できるとしたらどうでしょうか?

ありそうもない話に聞こえるかもしれないが、Synthesis AI は、468 Capital、Sorenson Ventures、Strawberry Creek Ventures、Bee Partners、PJC、iRobot Ventures、Boom Capital、Kubera Venture Capital などのベンチャーキャピタル企業から調達した 1,700 万ドルのシリーズ A ラウンドでまさにそれを実現しようとしているのだ。

これは非常に確固たる証拠です。同社はこの資金を、実データと合成データが混在する分野での研究開発の拡大に充てる予定だ。

「合成データは採用の転換点にあり、私たちの目標は、この技術をさらに発展させ、コンピュータービジョンシステムの構築方法にパラダイムシフトを起こすことです」と、Synthesis AIのCEO、ヤシャール・ベザディ氏は声明で述べた。「業界はまもなく、仮想世界でコンピュータービジョンモデルを完全に設計、トレーニングできるようになり、より高度で倫理的なAIが実現するでしょう。」

しかし、合成データとは何でしょうか?

合成データは現実世界から収集されるのではなく、人工的に作成されます。現在、多くのアプリケーションは、コンピューター ビジョン システムから収集されたデータなどの視覚データに重点​​を置いています。それでも、アプリのテストや不正行為の検出に使用するアルゴリズムの改善など、他のユースケースで合成データを作成できない実用的な理由はありません。それらは、物理的な記録の高度に構造化されたデジタルツインのようなものです。

膨大な現実世界のデータセットを大規模に利用できるようにすることで、データ サイエンティストやアナリストは理論的にはデータ収集プロセスをスキップし、直接テストやトレーニングに進むことができます。

これは、現実世界のデータセットを作成するためのコストの大部分が、生データの収集だけではないからです。コンピュータービジョンと自動運転車を例にとると、自動車メーカーや研究者はさまざまなカメラ、レーダー、LIDARセンサーを車両に取り付けてデータを収集できますが、生のデータはAI/MLアルゴリズムにとって何の意味もありません。同様に困難な課題は、システムがより良い決定を下せるように、データにコンテキスト情報を手動でラベル付けすることです。

この課題を具体的に考えてみましょう。一時停止標識、交差点、駐車中の車、歩行者などがある短距離を頻繁に運転し、潜在的な危険をすべてラベル付けすることが困難な作業であると想像してください。

合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするのに十分な規模で、完全にラベル付けされたデータセットを作成できることです。つまり、データ サイエンティストは、実際のデータを実装する必要が生じる前や、データの入手が困難な状況で、さまざまな新しい場所でアルゴリズムを突然テストできるようになります。自動運転車の例を続けると、データ サイエンティストは、ドライバーを北や山中に送り込んで手動でデータを収集することなく、合成データを作成して、雪道などの悪条件でも車を運転できるようにトレーニングできます。

合成データの主な利点は、理論上、AI/ML アプリケーションを適切にトレーニングするために必要な規模で、完全にラベル付けされたデータセットを作成できることです。つまり、データ サイエンティストは、実際のデータが利用可能になる前、またはデータの入手が困難な場合でも、さまざまな新しい場所で突然アルゴリズムをテストできるようになります。再び自動運転車の例を挙げると、データ サイエンティストは、ドライバーをはるか北や山中に送り込んで手動でデータを収集することなく、合成データを作成して、雪道などの悪条件でも車を運転できるようにトレーニングすることができます。

しかし、合成データは、より多くのデータとより多くの AI/ML アルゴリズムを使用してのみ作成できるため、鶏が先か卵が先かという問題があります。 「シード」データセットから始めて、それを合成作品のベースラインとして使用すると、合成作品の品質は開始時のデータの品質と同じだけになります。

(無形の)利益

無限とも思えるデータ ジェネレーターを利用できることでメリットを得られないデータ サイエンティストや研究者はいないのではないでしょうか。主なメリットである、実世界のデータを手動で収集する手間を省く機能は、合成データが AI/ML アプリケーションを加速する方法の 1 つにすぎません。

アナリストやデータ サイエンティストは、シード データを厳密に管理し、多様性を取り入れるための特別な努力をしたり、外部のコンサルタントと協力して偏見を発見して解読したりできるため、より高い基準を自らに課すことができます。たとえば、Synthesis AI は、ドライバーの状態を監視し、コンピューターで生成された合成データセットにさまざまな顔を慎重に含めて、現実世界のアプリケーションがすべての人に機能することを保証するシステムを開発しています。

プライバシーももう一つの潜在的なメリットです。企業が自社の自動運転車のために何百万マイルもかけて現実世界のデータを収集する場合、多くの人が個人的かつプライベートとみなすデータ、特に顔のデータを大量に収集することになります。 Google や Apple のような大企業は、マッピング ソフトウェアでこの種の問題を回避する方法を見つけましたが、そのルートは、アルゴリズムをテストしたい小規模な AI/ML チームにとっては実現可能ではありません。

「企業は、人間中心の製品におけるモデルの偏りや消費者のプライバシーに関する倫理的問題にも苦慮している。次世代のコンピュータービジョンを構築するには、新たなパラダイムが必要なのは明らかだ」と、同社のCEO兼創設者であるヤシャール・ベザディ氏はメディアに語った。

合成データは開始時にシードに依存しますが、微調整や変更を行うことで、現実世界では捕捉が困難または危険なエッジケースで AI/ML アプリケーションをトレーニングするのに役立ちます。自動運転車を開発する各社は、トラックの後ろに隠れた一時停止標識や、道路に飛び出してきた2台の車の間に立っている歩行者など、部分的にしか見えない物体や人物の識別能力を高めたいと考えている。

これらの成功を念頭に置き、偏見が合成データにエンコードされるという鶏が先か卵が先かという問題に対する懸念があるにもかかわらず、ガートナーは、2024 年までに AI および分析製品の開発に使用されるデータの 60% が合成で生成されると予測しています。彼らは、新しいデータの多くは、予測モデルの基になっている過去のデータが関連性を失ったり、過去の経験に基づく仮定が無効になったりしたときに、予測モデルを修復することに重点が置かれるだろうと予測しています。

しかし、現実世界のデータは常に収集されるため、私たちが一般的で偏見のない自分自身のアバターによって完全に時代遅れになるのは、まだ先のことです。

<<:  ゼロショット学習がCLIPを超える! Googleは、コンピューティングコストも削減できる初のマルチモーダルスパースモデルLIMoEを提案

>>:  442人の著者による100ページの論文! Googleは2年かけて大規模モデル向けの新しいベンチマーク「BIG-Bench」をリリースした。

ブログ    

推薦する

来年1月1日からAIフェイク動画は自由に公開できなくなる

新しいルールが登場します。 今回公布された「オンライン音声・動画情報サービス管理規則」では、ディープ...

...

...

...

IoTとAIの組み合わせ:さまざまなスマートフォンが互いに学習できるようにする

センサーといえば、まず思い浮かぶのはウェアラブルデバイスです。今ではウェアラブルデバイスが広く普及し...

...

実践的 | この記事は、ディープラーニングをゼロから始めるのに役立ちます

この記事は、初心者の視点から始まり、真のゼロベースの視点から専門的なアドバイスとガイダンスを提供する...

Nokelockの「1+2」戦略は、スマートロックを商業利用の新時代へと導きます

5月15日、世界有数のIoTロック企業であるnokelockの製品発表会が北京金宇シェラトンホテルで...

AI 異常検出は企業にどのようなメリットをもたらすのでしょうか?

翻訳者 |陳俊レビュー | Chonglou異常検出は、企業が競合他社よりも先に今後のトレンドを特定...

Caffeine ソースコード解釈 - キャッシュ有効期限の削除に関連するアルゴリズム

[[410588]]この記事はWeChatの公開アカウント「Muscular Coder」から転載し...

...

「アルゴリズムの構成」は「ブラックボックス」を明らかにする:アルゴリズムは数学に関するものだが、人間に関するものである

アルゴリズムは私たちの生活の中でますます一般的なものになってきています。しかし、アルゴリズムに関する...

ネイチャー誌が量子コンピューティングの大きな進歩を発表:史上初の量子集積回路が実現

6月23日、オーストラリアの量子コンピューティング企業SQC(Silicon Quantum Com...

ガートナーは、世界のIT支出が2024年に6.8%増加すると予測している。

テクノロジー業界ではレイオフの波が起こっているものの、IT 市場は依然として成長を続けています。ガー...

AI搭載のレンガ積みロボットが建設業界に革命を起こす

現在、建設部門は大規模なプロジェクトによって活性化しており、大きな成長を牽引しています。しかし、これ...