これらの不気味な「偽人間」は人工知能の新時代の到来を告げる

これらの不気味な「偽人間」は人工知能の新時代の到来を告げる

[51CTO.com クイック翻訳]唇の無精ひげ、額のしわ、皮膚の斑点がはっきりと見えますが、「彼」は実在の人物ではありません。 「彼」はデータジェンで作成され、「誕生」しました。同社は何千もの「ダミー」を製造した。これらの「人々」は、ゲームや映画の仮想キャラクターではなく、深層学習アルゴリズムの高まる需要を満たすために作成された合成データです。

[[408114]]

人工知能の利用に関心のある企業は、システムをトレーニングするために十分な量の適切なデータが必要であるという大きな課題に直面することがよくあります。このような企業は、特に画像やビデオを使用する AI システムをトレーニングするために、大量のラベル付けされた過去の例を必要とします。この需要により、他の企業がデータを注釈付けするのを支援することに特化したサブ産業が生まれました。しかし、AI システムをトレーニングするのに十分なデータを生成するには、別の方法があります。それは、データを「作成」することです。

現実世界のデータの収集には時間がかかり、費用もかかるだけでなく、Datagen のような企業は魅力的な代替手段を提供します。つまり、彼らは、あなたが望む方法で、望むときに、比較的安価に合成データを作成してくれるのです。

合成データを作成するには、まず実際の人間をスキャンします。 Datagen はベンダーと協力し、有償ボランティアを募集して、巨大な全身スキャナーに乗り、虹彩から肌の質感、指の曲がり具合まであらゆる詳細をキャプチャします。その後、生のデータは一連のアルゴリズムを通じて処理され、人体、顔、目、手の 3D モデルが作成されます。

イスラエルを拠点とするこの新興企業は、名前を公表していない米国のテクノロジー大手4社と提携したと発表した。最も近い競合企業である Synthesis AI も、オンデマンドのデジタルヒューマンを提供しています。さらに、金融、保険、ヘルスケアで使用するためのデータを生成する企業も存在します。データのニーズの種類と同じだけ、合成データを扱う企業の種類も存在します。

かつては実際のデータよりも望ましくないと考えられていた合成データですが、現在では万能薬と見なされることもあります。実際のデータは乱雑で偏りが多く、新しいデータプライバシー規制によりデータ収集はさらに困難になっています。対照的に、合成データは生データであり、より多様なデータセットを構築するために使用できます。さまざまな年齢、顔の形、民族の顔など、完全にラベル付けされた顔を作成し、さまざまな人口層で機能する顔検出システムを構築できます。

しかし、合成データにも限界があります。現実を反映していない場合、最終的には乱雑で偏った現実世界のデータよりも悪い AI が生成される、あるいは同じ問題を引き継ぐことになります。 「このモデルを信用して『これで多くの問題が解決する』とは言いたくない」と、アルゴリズム監査会社ORCAAの創業者でデータサイエンティストのキャシー・オニール氏は言う。「なぜなら、このモデルは多くのことを無視することになるからだ」

真実ではなく現実

ディープラーニングは常にデータに関するものでした。ここ数年、人工知能の分野では、ビッグデータよりも良質なデータが重要であるというコンセンサスが徐々に形成されてきました。正確で明確にラベル付けされた少量のデータでも、大量の未整理データやより高度なアルゴリズムよりも AI システムのパフォーマンスを大幅に向上させることができます。

データジェンのCEO兼共同創設者であるオフィール・チャコン氏は、合成データは企業が人工知能モデルを開発する方法を変えると語った。最初は、できるだけ多くのデータを取得し、パフォーマンスの向上を期待してアルゴリズムを微調整することから始めましたが、今度は、同じアルゴリズムを使用しながらデータの構成を改善するという別のアプローチを試すかもしれません。しかし、このような反復的な実験を実行するために実際のデータを収集するのは、非常にコストがかかり、時間がかかります。ここで Datagen が登場します。合成データ ジェネレーターを使用すると、チームは毎日数十の新しいデータセットを作成してテストし、どのデータセットがモデルのパフォーマンスを最大化するかを判断できます。

データが現実的であることを保証するために、データジェンはサプライヤーに対し、各年齢層、BMI範囲、民族ごとに何人の人をスキャンする必要があるか、また部屋の中を歩き回ったりソーダを飲んだりといった一連の動作を実行する必要があるかなど、詳細な指示を提供した。ベンダーは、これらの動きの高忠実度の静止画像とモーション キャプチャ データを送り返します。その後、Datagen のアルゴリズムはこのデータを数万通りの組み合わせに拡張します。場合によっては、合成データを二重チェックすることもあります。たとえば、合成した顔を実際の顔と比較して、どれほどリアルであるかを確認します。

Datagen は現在、スマートカーのドライバーの注意力を監視するための表情、無人店舗の顧客を追跡するための体の動き、VR ヘッドセットの目と手の追跡機能を向上させるための虹彩と手のジェスチャーを生成しています。同社によれば、そのデータは数千万人のユーザーに役立つコンピュータービジョンシステムの開発に使用されているという。

大量生産されているのは合成「人間」だけではない。 Click-Ins は、合成 AI を使用して自動車両検査を実行するスタートアップ企業です。同社はデザインソフトウェアを使用して、さまざまな照明条件や背景、さまざまな色、損傷、変形でレンダリングされたさまざまな形状を人工知能が認識できるすべての自動車のロゴとモデルを再現しました。これにより、自動車メーカーが新モデルを導入するたびに同社はAIを更新できるようになり、一部の国ではプライバシー侵害とみなされる事態を回避することができる。これらの国では、ナンバープレートは個人情報とみなされるため、AI のトレーニングに使用する写真には表示できません。

現在、人工知能は金融、通信、保険会社で広く利用されています。場合によっては、企業は顧客データベースを外部ベンダーと合法的に共有する必要がありますが、匿名化では人々のプライバシーを十分に保護できません。合成データを使用すると、企業の実際のデータと同じ統計特性を持つ詳細な偽のデータセットを生成できます。また、より多様な顧客グループや不正行為のシナリオなど、企業がまだ持っていないデータをシミュレートするためにも使用できます。

偽りの限界合成データは誇張されているか?

プライバシーの懸念について、ペンシルバニア大学のコンピューターおよび情報科学教授であるアラン・ロス氏は、「このデータが『合成』であり、実際のユーザーデータに直接対応していないからといって、実際の人々に関する機密情報がエンコードされていないということにはなりません」と述べている。たとえば、一部のデータ生成技術は、トレーニングデータ内の画像やテキストを忠実に再現することがわかっているが、他の技術は、このデータを正確に再現できる攻撃に対して脆弱である。

Datagen のような企業にとっては、合成データはスキャンに同意した個人の身元を隠すためのものではないため、これは問題ないかもしれない。しかし、機密性の高い財務情報や患者情報を保護するソリューションを提供する企業にとっては悪いニュースとなるだろう。

ワシントン大学科学研究所のデータ科学者バーニス・ヘルマン氏は、この研究は、差分プライバシーと生成的敵対的ネットワークという2つの合成データ技術を組み合わせることで、最も強力なプライバシー保護を実現できることを示していると述べた。しかし懐疑論者は、合成データベンダーは必ずしもどのような技術を使用しているかを明らかにしていないため、そうしたニュアンスが合成データベンダーのマーケティング用語で失われる可能性があると懸念している。

同時に、合成データが AI システムのバイアスを効果的に削減できるという証拠はほとんどありません。まず、既存の偏ったデータセットから新しいデータを外挿しても、必ずしもより代表的なデータが生成されるわけではありません。たとえば、Datagen の生データには少数民族が比較的少なく含まれているため、それらのグループから偽の人物を生成するために使用する実際のデータ ポイントが少なくなります。生成プロセスは完全に推測によるものではありませんが、ダミーは現実的というよりは的外れになる可能性が高くなります。

一方、ノースイースタン大学のコンピューターサイエンス准教授クリスタル・ウィルソン氏は、たとえ完全にバランスの取れたデータセットであっても、自動的に完全に公平なAIシステムに変換されるわけではないと述べた。クレジットカードの貸し手が潜在的なローン申請者にスコアを付ける AI アルゴリズムを開発しようとしている場合、データに白人と黒人を単に含めるだけでは、起こり得る差別をすべて排除することはできません。白人と黒人の応募者の違いにより、差別は依然として静かに忍び寄る可能性がある。

さらに問題を複雑にしているのは、初期の研究では、合成データでプライベートかつ公正な AI を実現することが不可能な場合もあることが示唆されていることです。最近の論文で、トロント大学とビクター研究所の研究者らは、差分プライバシーと生成的敵対的ネットワークを組み合わせて多様な合成データセットを作成しようとしたところ、正確な医療AIシステムを作成できなかったことを発見した。

もちろん、これらの事実が存在するからといって、合成データを使用してはならないということではありません。実際、それは必需品になるかもしれません。オニール氏は、AI システムが法的要件に準拠しているかどうかという疑問に直面したときに、オンデマンドで対象を絞ったテストデータを生成できる柔軟性を与えるには、これが唯一の方法かもしれないと述べた。しかし、これにより、その限界についての疑問がさらに重要になります。 「合成データは時間の経過とともに改善されるかもしれませんが、それは偶然ではありません。」

これらの不気味な偽人間は AI の新時代を告げる | MIT テクノロジーレビュー、カレン・ハオ

https://www.technologyreview.com/2021/06/11/1026135/ai-synthetic-data/?utm_campaign=Artificial%2BIntelligence%2BWeekly&utm_medium=email&utm_source=Artificial_Intelligence_Weekly_220

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<:  ImageNet の最高スコアを更新しましょう! Google Brain 中国研究者がスーパートランスフォーマーをリリース

>>:  交通分野におけるUAV航空調査の応用

ブログ    
ブログ    
ブログ    

推薦する

2019年のAI研究開発のホットスポットのレビュー

人工知能技術を継続的に改善することで、より優れたインテリジェントな世界を創造することができます。 2...

GNNの実装はもはや難しくありません。この記事では、効率的なGNNとスケーラブルなグラフ表現学習の最新の進歩についてまとめています。

グラフ ニューラル ネットワークは、現実世界に適用する場合、メモリ制限、ハードウェア制限、信頼性制限...

機械学習とディープラーニングの違いは何ですか? なぜ機械学習を選択する人が増えるのでしょうか?

機械学習とディープラーニングの違いは何でしょうか?この記事から答えを見つけてみましょう。ターゲットこ...

AIは新たな科学革命を先導している

著者 | ブライアン・マクマホン、翻訳者 | bluemin、編集者 | 陳彩仙1950年代にDNA...

自動化を推進するAIテストツール

テスト自動化における人工知能の使用は、品質保証業界を支配する最新のトレンドの 1 つです。実際、キャ...

ハーバード大学の科学者がシャコの「バネ仕掛けの拳」機構を模倣したマイクロロボットを開発

海外メディアの報道によると、シャコは世界で最も速い動物種の一つだが、シャコがどのようにしてこのような...

AVFormer: ゼロショット AV-ASR のフリーズドスピーチモデルに視覚を注入

翻訳者 | 崔昊レビュー | ChonglouまとめGoogle Research の研究科学者であ...

李開復:人工知能に取って代わるのが最も難しい10の仕事

[[246854]]私の意見では、警告、悲観、パニックはすべて「廬山の本当の顔を知らない」根拠のない...

ネットワークにおける機械学習の実用的応用

各 Web アプリケーションには独自の機能とパフォーマンス パラメーターのセットがあり、これらは動的...

顔認識の応用シナリオは拡大し続けています。顔スキャンは便利で安全である必要があります。

[[341456]]顔スキャンでロック解除、顔スキャンで支払い、顔スキャンでキャンパスに入る......

USTC 統合入力フィルタリング フレームワーク: すべてのデータ モダリティをサポートするフィルタリング可能性の最初の理論的分析

モバイル デバイスの計算能力が向上し、センサー データのリアルタイム分析の需要が高まるにつれて、モバ...

数百万の量子ビットを実現するにはどうすればよいでしょうか?量子コンピューティング企業がユニバーサル量子コンピューティングソリューションを拡大

光ファイバーを光子のメモリとして使用し、光子メモリを使用してフォールトトレラント量子コンピューティン...

...

...

AIの「ショートカット」がシミュレーションを数十億倍高速化

[[314916]]シミュレーターは、NASA がエアロゾル モデルを使用してオーストラリアの火災に...