これらの不気味な「偽人間」は人工知能の新時代の到来を告げる

[51CTO.com クイック翻訳]唇の無精ひげ、額のしわ、皮膚の斑点がはっきりと見えますが、「彼」は実在の人物ではありません。「彼」はデータジェンで作成され、「誕生」しました。同社は何千もの「ダミー」を製造した。これらの「人々」は、ゲームや映画の仮想キャラクターではなく、深層学習アルゴリズムの高まる需要を満たすために作成された合成データです。

[[408114]]

人工知能の利用に関心のある企業は、システムをトレーニングするために十分な量の適切なデータが必要であるという大きな課題に直面することがよくあります。このような企業は、特に画像やビデオを使用する AI システムをトレーニングするために、大量のラベル付けされた過去の例を必要とします。この需要により、他の企業がデータを注釈付けするのを支援することに特化したサブ産業が生まれました。しかし、AI システムをトレーニングするのに十分なデータを生成するには、別の方法があります。それは、データを「作成」することです。

現実世界のデータの収集には時間がかかり、費用もかかるだけでなく、Datagen のような企業は魅力的な代替手段を提供します。つまり、彼らは、あなたが望む方法で、望むときに、比較的安価に合成データを作成してくれるのです。

合成データを作成するには、まず実際の人間をスキャンします。 Datagen はベンダーと協力し、有償ボランティアを募集して、巨大な全身スキャナーに乗り、虹彩から肌の質感、指の曲がり具合まであらゆる詳細をキャプチャします。その後、生のデータは一連のアルゴリズムを通じて処理され、人体、顔、目、手の 3D モデルが作成されます。

イスラエルを拠点とするこの新興企業は、名前を公表していない米国のテクノロジー大手4社と提携したと発表した。最も近い競合企業である Synthesis AI も、オンデマンドのデジタルヒューマンを提供しています。さらに、金融、保険、ヘルスケアで使用するためのデータを生成する企業も存在します。データのニーズの種類と同じだけ、合成データを扱う企業の種類も存在します。

かつては実際のデータよりも望ましくないと考えられていた合成データですが、現在では万能薬と見なされることもあります。実際のデータは乱雑で偏りが多く、新しいデータプライバシー規制によりデータ収集はさらに困難になっています。対照的に、合成データは生データであり、より多様なデータセットを構築するために使用できます。さまざまな年齢、顔の形、民族の顔など、完全にラベル付けされた顔を作成し、さまざまな人口層で機能する顔検出システムを構築できます。

しかし、合成データにも限界があります。現実を反映していない場合、最終的には乱雑で偏った現実世界のデータよりも悪い AI が生成される、あるいは同じ問題を引き継ぐことになります。「このモデルを信用して『これで多くの問題が解決する』とは言いたくない」と、アルゴリズム監査会社ORCAAの創業者でデータサイエンティストのキャシー・オニール氏は言う。「なぜなら、このモデルは多くのことを無視することになるからだ」

真実ではなく現実

ディープラーニングは常にデータに関するものでした。ここ数年、人工知能の分野では、ビッグデータよりも良質なデータが重要であるというコンセンサスが徐々に形成されてきました。正確で明確にラベル付けされた少量のデータでも、大量の未整理データやより高度なアルゴリズムよりも AI システムのパフォーマンスを大幅に向上させることができます。

データジェンのCEO兼共同創設者であるオフィール・チャコン氏は、合成データは企業が人工知能モデルを開発する方法を変えると語った。最初は、できるだけ多くのデータを取得し、パフォーマンスの向上を期待してアルゴリズムを微調整することから始めましたが、今度は、同じアルゴリズムを使用しながらデータの構成を改善するという別のアプローチを試すかもしれません。しかし、このような反復的な実験を実行するために実際のデータを収集するのは、非常にコストがかかり、時間がかかります。ここで Datagen が登場します。合成データジェネレーターを使用すると、チームは毎日数十の新しいデータセットを作成してテストし、どのデータセットがモデルのパフォーマンスを最大化するかを判断できます。

データが現実的であることを保証するために、データジェンはサプライヤーに対し、各年齢層、BMI範囲、民族ごとに何人の人をスキャンする必要があるか、また部屋の中を歩き回ったりソーダを飲んだりといった一連の動作を実行する必要があるかなど、詳細な指示を提供した。ベンダーは、これらの動きの高忠実度の静止画像とモーションキャプチャデータを送り返します。その後、Datagen のアルゴリズムはこのデータを数万通りの組み合わせに拡張します。場合によっては、合成データを二重チェックすることもあります。たとえば、合成した顔を実際の顔と比較して、どれほどリアルであるかを確認します。

Datagen は現在、スマートカーのドライバーの注意力を監視するための表情、無人店舗の顧客を追跡するための体の動き、VR ヘッドセットの目と手の追跡機能を向上させるための虹彩と手のジェスチャーを生成しています。同社によれば、そのデータは数千万人のユーザーに役立つコンピュータービジョンシステムの開発に使用されているという。

大量生産されているのは合成「人間」だけではない。 Click-Ins は、合成 AI を使用して自動車両検査を実行するスタートアップ企業です。同社はデザインソフトウェアを使用して、さまざまな照明条件や背景、さまざまな色、損傷、変形でレンダリングされたさまざまな形状を人工知能が認識できるすべての自動車のロゴとモデルを再現しました。これにより、自動車メーカーが新モデルを導入するたびに同社はAIを更新できるようになり、一部の国ではプライバシー侵害とみなされる事態を回避することができる。これらの国では、ナンバープレートは個人情報とみなされるため、AI のトレーニングに使用する写真には表示できません。

現在、人工知能は金融、通信、保険会社で広く利用されています。場合によっては、企業は顧客データベースを外部ベンダーと合法的に共有する必要がありますが、匿名化では人々のプライバシーを十分に保護できません。合成データを使用すると、企業の実際のデータと同じ統計特性を持つ詳細な偽のデータセットを生成できます。また、より多様な顧客グループや不正行為のシナリオなど、企業がまだ持っていないデータをシミュレートするためにも使用できます。

偽りの限界：合成データは誇張されているか？

プライバシーの懸念について、ペンシルバニア大学のコンピューターおよび情報科学教授であるアラン・ロス氏は、「このデータが『合成』であり、実際のユーザーデータに直接対応していないからといって、実際の人々に関する機密情報がエンコードされていないということにはなりません」と述べている。たとえば、一部のデータ生成技術は、トレーニングデータ内の画像やテキストを忠実に再現することがわかっているが、他の技術は、このデータを正確に再現できる攻撃に対して脆弱である。

Datagen のような企業にとっては、合成データはスキャンに同意した個人の身元を隠すためのものではないため、これは問題ないかもしれない。しかし、機密性の高い財務情報や患者情報を保護するソリューションを提供する企業にとっては悪いニュースとなるだろう。

ワシントン大学科学研究所のデータ科学者バーニス・ヘルマン氏は、この研究は、差分プライバシーと生成的敵対的ネットワークという2つの合成データ技術を組み合わせることで、最も強力なプライバシー保護を実現できることを示していると述べた。しかし懐疑論者は、合成データベンダーは必ずしもどのような技術を使用しているかを明らかにしていないため、そうしたニュアンスが合成データベンダーのマーケティング用語で失われる可能性があると懸念している。

同時に、合成データが AI システムのバイアスを効果的に削減できるという証拠はほとんどありません。まず、既存の偏ったデータセットから新しいデータを外挿しても、必ずしもより代表的なデータが生成されるわけではありません。たとえば、Datagen の生データには少数民族が比較的少なく含まれているため、それらのグループから偽の人物を生成するために使用する実際のデータポイントが少なくなります。生成プロセスは完全に推測によるものではありませんが、ダミーは現実的というよりは的外れになる可能性が高くなります。

一方、ノースイースタン大学のコンピューターサイエンス准教授クリスタル・ウィルソン氏は、たとえ完全にバランスの取れたデータセットであっても、自動的に完全に公平なAIシステムに変換されるわけではないと述べた。クレジットカードの貸し手が潜在的なローン申請者にスコアを付ける AI アルゴリズムを開発しようとしている場合、データに白人と黒人を単に含めるだけでは、起こり得る差別をすべて排除することはできません。白人と黒人の応募者の違いにより、差別は依然として静かに忍び寄る可能性がある。

さらに問題を複雑にしているのは、初期の研究では、合成データでプライベートかつ公正な AI を実現することが不可能な場合もあることが示唆されていることです。最近の論文で、トロント大学とビクター研究所の研究者らは、差分プライバシーと生成的敵対的ネットワークを組み合わせて多様な合成データセットを作成しようとしたところ、正確な医療AIシステムを作成できなかったことを発見した。

もちろん、これらの事実が存在するからといって、合成データを使用してはならないということではありません。実際、それは必需品になるかもしれません。オニール氏は、AI システムが法的要件に準拠しているかどうかという疑問に直面したときに、オンデマンドで対象を絞ったテストデータを生成できる柔軟性を与えるには、これが唯一の方法かもしれないと述べた。しかし、これにより、その限界についての疑問がさらに重要になります。「合成データは時間の経過とともに改善されるかもしれませんが、それは偶然ではありません。」

これらの不気味な偽人間は AI の新時代を告げる | MIT テクノロジーレビュー、カレン・ハオ

https://www.technologyreview.com/2021/06/11/1026135/ai-synthetic-data/?utm_campaign=Artificial%2BIntelligence%2BWeekly&utm_medium=email&utm_source=Artificial_Intelligence_Weekly_220

[51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください]

<<: ImageNet の最高スコアを更新しましょう! Google Brain 中国研究者がスーパートランスフォーマーをリリース

>>: 交通分野におけるUAV航空調査の応用

1.9k の星を獲得した LLM 微調整ツール Lamini は高速かつ強力で、無料で利用可能

これらの不気味な「偽人間」は人工知能の新時代の到来を告げる

1.9k の星を獲得した LLM 微調整ツール Lamini は高速かつ強力で、無料で利用可能

論文のイラストは拡散モデルを使用して自動的に生成することもでき、ICLRに受け入れられました。

異種グラフをサポートし、非常に使いやすいグラフニューラルネットワークライブラリであるGraphGymを統合したPyGがバージョン2.0にアップデートされました。

Metaが新しいモバイルAIジェネレーターを公開、5分でAIアプリを作成、AndroidとiOSの両方をサポート

機械学習はサイバーセキュリティをどのように向上させることができるのでしょうか?

DAMOアカデミーが最新の量子コンピューティングの成果を発表、新しいプラットフォームは2ビットゲート精度99.72%を達成

2019年のディープラーニングツールの概要

機械学習プロジェクトの 87% が失敗する 10 の理由

Claude3 が GPT4 に教訓を与えました!オープンAI最強の対戦相手の深夜爆弾、全貌解析付き！

推薦する

AIが体内時計を検出、精密医療が最大の「受益者」になる可能性

Facebook、MITなどが共同で451ページの原稿を発表：「第一原理」を使ってDNNを説明する」

OpenAIも996に取り組んでいますか？元従業員が告白：コード貢献度4位、6日間勤務することが多かった

クラッシュラマ2！マイクロソフトの13億パラメータphi-1.5は、単一のA100でトレーニングされ、SOTAを更新します

清華大学、DeepMindなどは、既存の小サンプル学習法は安定的かつ効果的ではないと指摘し、評価フレームワークを提案した。

「幻想」を消し去れ！ Google の新しい ASPIRE メソッドにより、LLM は自己採点が可能になり、その効果はボリュームモデルよりも 10 倍優れています。

マスク氏が自動運転を「ザッカーバーグの家へ行く」ライブ放送、45分間で手動介入は1回のみ：FSD V12は「ベータ版」ではなくなる

信じてはいけないクラウドコンピューティングと人工知能に関する2つの誤解

クラウドAI市場は2028年までに2,700億ドルに達すると予想

CCTVがAI占い金儲けのルーティンを暴露：一部の人々の心理的ニーズを捉えたAI占いソフトウェアの結果はすべてプログラミングに基づいています

NetEase はデータ指標の異常をどのように検出し、診断するのでしょうか?

陳作寧院士：人工知能モデルとアルゴリズムの7つの発展傾向