[51CTO.com クイック翻訳]唇の無精ひげ、額のしわ、皮膚の斑点がはっきりと見えますが、「彼」は実在の人物ではありません。 「彼」はデータジェンで作成され、「誕生」しました。同社は何千もの「ダミー」を製造した。これらの「人々」は、ゲームや映画の仮想キャラクターではなく、深層学習アルゴリズムの高まる需要を満たすために作成された合成データです。
人工知能の利用に関心のある企業は、システムをトレーニングするために十分な量の適切なデータが必要であるという大きな課題に直面することがよくあります。このような企業は、特に画像やビデオを使用する AI システムをトレーニングするために、大量のラベル付けされた過去の例を必要とします。この需要により、他の企業がデータを注釈付けするのを支援することに特化したサブ産業が生まれました。しかし、AI システムをトレーニングするのに十分なデータを生成するには、別の方法があります。それは、データを「作成」することです。 現実世界のデータの収集には時間がかかり、費用もかかるだけでなく、Datagen のような企業は魅力的な代替手段を提供します。つまり、彼らは、あなたが望む方法で、望むときに、比較的安価に合成データを作成してくれるのです。 合成データを作成するには、まず実際の人間をスキャンします。 Datagen はベンダーと協力し、有償ボランティアを募集して、巨大な全身スキャナーに乗り、虹彩から肌の質感、指の曲がり具合まであらゆる詳細をキャプチャします。その後、生のデータは一連のアルゴリズムを通じて処理され、人体、顔、目、手の 3D モデルが作成されます。 イスラエルを拠点とするこの新興企業は、名前を公表していない米国のテクノロジー大手4社と提携したと発表した。最も近い競合企業である Synthesis AI も、オンデマンドのデジタルヒューマンを提供しています。さらに、金融、保険、ヘルスケアで使用するためのデータを生成する企業も存在します。データのニーズの種類と同じだけ、合成データを扱う企業の種類も存在します。 かつては実際のデータよりも望ましくないと考えられていた合成データですが、現在では万能薬と見なされることもあります。実際のデータは乱雑で偏りが多く、新しいデータプライバシー規制によりデータ収集はさらに困難になっています。対照的に、合成データは生データであり、より多様なデータセットを構築するために使用できます。さまざまな年齢、顔の形、民族の顔など、完全にラベル付けされた顔を作成し、さまざまな人口層で機能する顔検出システムを構築できます。 しかし、合成データにも限界があります。現実を反映していない場合、最終的には乱雑で偏った現実世界のデータよりも悪い AI が生成される、あるいは同じ問題を引き継ぐことになります。 「このモデルを信用して『これで多くの問題が解決する』とは言いたくない」と、アルゴリズム監査会社ORCAAの創業者でデータサイエンティストのキャシー・オニール氏は言う。「なぜなら、このモデルは多くのことを無視することになるからだ」 真実ではなく現実 ディープラーニングは常にデータに関するものでした。ここ数年、人工知能の分野では、ビッグデータよりも良質なデータが重要であるというコンセンサスが徐々に形成されてきました。正確で明確にラベル付けされた少量のデータでも、大量の未整理データやより高度なアルゴリズムよりも AI システムのパフォーマンスを大幅に向上させることができます。 データジェンのCEO兼共同創設者であるオフィール・チャコン氏は、合成データは企業が人工知能モデルを開発する方法を変えると語った。最初は、できるだけ多くのデータを取得し、パフォーマンスの向上を期待してアルゴリズムを微調整することから始めましたが、今度は、同じアルゴリズムを使用しながらデータの構成を改善するという別のアプローチを試すかもしれません。しかし、このような反復的な実験を実行するために実際のデータを収集するのは、非常にコストがかかり、時間がかかります。ここで Datagen が登場します。合成データ ジェネレーターを使用すると、チームは毎日数十の新しいデータセットを作成してテストし、どのデータセットがモデルのパフォーマンスを最大化するかを判断できます。 データが現実的であることを保証するために、データジェンはサプライヤーに対し、各年齢層、BMI範囲、民族ごとに何人の人をスキャンする必要があるか、また部屋の中を歩き回ったりソーダを飲んだりといった一連の動作を実行する必要があるかなど、詳細な指示を提供した。ベンダーは、これらの動きの高忠実度の静止画像とモーション キャプチャ データを送り返します。その後、Datagen のアルゴリズムはこのデータを数万通りの組み合わせに拡張します。場合によっては、合成データを二重チェックすることもあります。たとえば、合成した顔を実際の顔と比較して、どれほどリアルであるかを確認します。 Datagen は現在、スマートカーのドライバーの注意力を監視するための表情、無人店舗の顧客を追跡するための体の動き、VR ヘッドセットの目と手の追跡機能を向上させるための虹彩と手のジェスチャーを生成しています。同社によれば、そのデータは数千万人のユーザーに役立つコンピュータービジョンシステムの開発に使用されているという。 大量生産されているのは合成「人間」だけではない。 Click-Ins は、合成 AI を使用して自動車両検査を実行するスタートアップ企業です。同社はデザインソフトウェアを使用して、さまざまな照明条件や背景、さまざまな色、損傷、変形でレンダリングされたさまざまな形状を人工知能が認識できるすべての自動車のロゴとモデルを再現しました。これにより、自動車メーカーが新モデルを導入するたびに同社はAIを更新できるようになり、一部の国ではプライバシー侵害とみなされる事態を回避することができる。これらの国では、ナンバープレートは個人情報とみなされるため、AI のトレーニングに使用する写真には表示できません。 現在、人工知能は金融、通信、保険会社で広く利用されています。場合によっては、企業は顧客データベースを外部ベンダーと合法的に共有する必要がありますが、匿名化では人々のプライバシーを十分に保護できません。合成データを使用すると、企業の実際のデータと同じ統計特性を持つ詳細な偽のデータセットを生成できます。また、より多様な顧客グループや不正行為のシナリオなど、企業がまだ持っていないデータをシミュレートするためにも使用できます。 偽りの限界:合成データは誇張されているか? プライバシーの懸念について、ペンシルバニア大学のコンピューターおよび情報科学教授であるアラン・ロス氏は、「このデータが『合成』であり、実際のユーザーデータに直接対応していないからといって、実際の人々に関する機密情報がエンコードされていないということにはなりません」と述べている。たとえば、一部のデータ生成技術は、トレーニングデータ内の画像やテキストを忠実に再現することがわかっているが、他の技術は、このデータを正確に再現できる攻撃に対して脆弱である。 Datagen のような企業にとっては、合成データはスキャンに同意した個人の身元を隠すためのものではないため、これは問題ないかもしれない。しかし、機密性の高い財務情報や患者情報を保護するソリューションを提供する企業にとっては悪いニュースとなるだろう。 ワシントン大学科学研究所のデータ科学者バーニス・ヘルマン氏は、この研究は、差分プライバシーと生成的敵対的ネットワークという2つの合成データ技術を組み合わせることで、最も強力なプライバシー保護を実現できることを示していると述べた。しかし懐疑論者は、合成データベンダーは必ずしもどのような技術を使用しているかを明らかにしていないため、そうしたニュアンスが合成データベンダーのマーケティング用語で失われる可能性があると懸念している。 同時に、合成データが AI システムのバイアスを効果的に削減できるという証拠はほとんどありません。まず、既存の偏ったデータセットから新しいデータを外挿しても、必ずしもより代表的なデータが生成されるわけではありません。たとえば、Datagen の生データには少数民族が比較的少なく含まれているため、それらのグループから偽の人物を生成するために使用する実際のデータ ポイントが少なくなります。生成プロセスは完全に推測によるものではありませんが、ダミーは現実的というよりは的外れになる可能性が高くなります。 一方、ノースイースタン大学のコンピューターサイエンス准教授クリスタル・ウィルソン氏は、たとえ完全にバランスの取れたデータセットであっても、自動的に完全に公平なAIシステムに変換されるわけではないと述べた。クレジットカードの貸し手が潜在的なローン申請者にスコアを付ける AI アルゴリズムを開発しようとしている場合、データに白人と黒人を単に含めるだけでは、起こり得る差別をすべて排除することはできません。白人と黒人の応募者の違いにより、差別は依然として静かに忍び寄る可能性がある。 さらに問題を複雑にしているのは、初期の研究では、合成データでプライベートかつ公正な AI を実現することが不可能な場合もあることが示唆されていることです。最近の論文で、トロント大学とビクター研究所の研究者らは、差分プライバシーと生成的敵対的ネットワークを組み合わせて多様な合成データセットを作成しようとしたところ、正確な医療AIシステムを作成できなかったことを発見した。 もちろん、これらの事実が存在するからといって、合成データを使用してはならないということではありません。実際、それは必需品になるかもしれません。オニール氏は、AI システムが法的要件に準拠しているかどうかという疑問に直面したときに、オンデマンドで対象を絞ったテストデータを生成できる柔軟性を与えるには、これが唯一の方法かもしれないと述べた。しかし、これにより、その限界についての疑問がさらに重要になります。 「合成データは時間の経過とともに改善されるかもしれませんが、それは偶然ではありません。」 これらの不気味な偽人間は AI の新時代を告げる | MIT テクノロジーレビュー、カレン・ハオ https://www.technologyreview.com/2021/06/11/1026135/ai-synthetic-data/?utm_campaign=Artificial%2BIntelligence%2BWeekly&utm_medium=email&utm_source=Artificial_Intelligence_Weekly_220 [51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください] |
<<: ImageNet の最高スコアを更新しましょう! Google Brain 中国研究者がスーパートランスフォーマーをリリース
すべての AI プロジェクトにはある程度のリスクが伴い、生成 AI の急速な成長と展開により、セキュ...
現在、ビジョントランスフォーマー (ViT) の分野には 2 つの大きな問題点があります。1. Vi...
ダニング=クルーガー効果は重大なバイアスです。これは、能力の低い人が自分の軽率な決断に基づいて誤った...
今は少し理解できました。面接の過程で、面接官が私たちにコードを手書きで書くように頼むことがあります。...
2023年はテクノロジー分野にとって波乱に富んだ年であり、言語学習モデルが爆発的に増加し、人工知能...
私は AI をロケット船の建造に例えています。巨大なエンジンと大量の燃料が必要です。エンジンが大きく...
CNN 開発の初期には、脳のニューラル ネットワークから多くのインスピレーションを得ました。現在では...
2018年6月27日、Xunzhong Holdingsの完全子会社であるYunxun Techno...
人工知能(AI)革命は半世紀以上前に始まりました。過去 10 年間で、人工知能は学術科学の領域から私...
OpenAI の Sora が 1 週間にわたってスクリーンを独占した後、昨夜、トップクラスの生成 ...
ビジネスや社会で AI の利用が広まるにつれ、企業は機械モデルに現れる人間の偏見に注意を払う必要があ...