AIにとって合成データが必須である理由

AIにとって合成データが必須である理由

企業はペタバイト、エクサバイト、さらにはゼタバイト単位のデータを収集しています。

しかし、データは乱雑で、断片化され、サイロ化されていることがよくあります。多くの企業は、データが高度に独占的であるため、特定の環境でデータを使用することを躊躇します。電気通信などの規制産業では、データの多くは機密性が高いため、触れることさえできません。

AI に必要な規模の利用可能なデータの不足、データの偏り、データのドリフトなどのこれらの理由やその他の理由により、ますます多くの企業が合成データに注目しています。合成データは、その名前が示すように、実際のデータではありませんが、実際のデータに非常に似ています。

現実世界のデータの強化と保護

合成データは数学的かつ統計的に現実世界のデータを反映します。しかし、それは現実世界から収集され測定されるのではなく、小規模で匿名化された現実世界のサンプルに基づくコンピューター シミュレーション、アルゴリズム、単純なルール、統計モデリング、シミュレーション、およびその他の手法を通じて作成されます。

実際のデータは、ほとんどの場合、データから得られる洞察を得るための最良の情報源ですが、プライバシー規制により、高価であったり、不均衡であったり、入手できなかったり、使用できなかったりすることがよくあります。合成データは、実際のデータの効果的な補足または代替となり得ます。

人工データは、実際のデータの弱点を軽減するのに役立ちます。また、リアルタイム データが存在しない、機密性が高い、または偏っている、または使用、共有、移動できない状況で使用できます。しかし、必ずしも実際のデータでトレーニングする必要はありません。ドメインや組織の知識、または実際のデータの痕跡を調べることで生成できます。

データ集約型の生成 AI モデルの使用が増え、プライバシーとセキュリティの必要性が高まる中、さまざまな業界の企業が合成データの可能性を認識しています。合成データの世界市場価値は 2021 年時点でわずか 1 億 6,890 万ドルでしたが、2031 年までに 35 億ドルにまで成長すると予想されており、年間複合成長率は約 36% です。

ガートナーは、2030 年までに AI モデル内の合成データが実際のデータを完全に上回ると予測しています。

合成データでプライバシーの壁を克服

多国籍企業である Vodafone は、さまざまな規則や規制がある複数の異なる管轄区域で事業を展開しており、当然ながらデータの使用において障害に直面しています。データへのアクセスは、主にプライバシー上の懸念から制限されることが多く、地理的境界を越えたデータの流れに関しても制限があります。

これを実現するために、ボーダフォンはロンドンを拠点とする合成データのスタートアップ企業Hazyと提携した。同社は3月にシリーズAシードラウンドで900万ドルの資金調達を発表しており、ボーダフォン、アクセンチュア、PwC、BMWグループ、ウェルズ・ファーゴなどの大企業と提携している。これらの企業はデータに関する最大の問題に直面しているからだ。

これらの大企業には、さまざまな地域に散在する「大量の機密データ」と「多数のデータサイロ」があります。

これらのエンタープライズ ツールは、構造化されたデータ セットを取得し、機械学習 (ML) を使用してそれらをスキャンし、傾向、パターン、相関関係、相違点、列間の関係を特定します。データがどこにあっても、実際のデータ ポイントを生成するように要求できます。

このツールは、ソース データセットに含まれるデータよりも多くのデータを生成でき、データの特性を維持しながら機密詳細は含まない安全な環境でそれを実行します。

機械学習を加速する最も包括的なデータ分析

ボーダフォンは、さまざまな国でさまざまな広告キャンペーンがどのように機能するかを調べ、これらのデータセットから学びながら、より包括的なデータ分析を実施したいと考えています。

「壮大な計画」とは、各国で合成データ資産を作成し、それを一箇所に集約して、より広範かつ大規模な分析を可能にすることです。たとえば、顧客離脱分析などです。

その他の関心領域には、負荷予測、不正行為予測、ネットワーク停止の検出と予測などがあります。

人工データの大きな使用例の 1 つは機械学習です。モデルの作成と改善、迅速な実験の実行といった内部開発プロセスを高速化します。

データへのアクセスが不十分な場合が多く、オープンソース データを使用することは可能ですが、それが必要なものではなく、状況に適合しないことがよくあります。ネットワークの現実を反映した合成データを作成する必要があります。

人工データは、データ アクセスの改善と高速化に役立ち、プロジェクトをより迅速に開始できるため、生産性と企業の俊敏性が向上します。

データは機械学習の燃料のようなものです。データがなければ、教師あり学習は不可能です。

コラボレーションを促進し、自動化を促進

Vodafone のモバイル ネットワーク サプライヤーの広大なエコシステムも機械学習の分野で革新を起こしており、新しい機械学習モデルをトレーニングするにはデータが必要です。

しかし、ネットワークデータを配布するのは簡単ではありません。対照的に、合成データを提供することで、これらの障壁を取り除くことができます。

ソフトウェアテストももう一つの重要なユースケースです。ボーダフォンは社内でさらに多くのソフトウェアを開発しており、テストが必要になるだろう。人工データは、障害が発生する可能性が高い時期、特定のネットワーク ソフトウェア コンポーネントの負荷が時間の経過とともにどのように変化するか、ソフトウェア コンポーネントにコンピューティング リソースを最適に割り当てる方法、エネルギー消費を最小限に抑える方法などを判断するのに役立ちます。

すべての大企業の基本業務をテストするには何年もかかる可能性があり、最大のハードルは代表的な生産データを入手することです。

さらに、合成データはネットワークの自動化にとって重要です。したがって、予測を行うには可能な限り自動化することが望ましいです。

通信分野を超えた合成データの検討

もちろん、合成データは通信以外の用途にも使用できます。これは、ChatGPT などのパブリック モデルにとって「非常に機密性の高い」企業固有のデータを漏らすことなく、大規模言語モデル (LLM) を微調整するために一部の企業で使用されています。

一方、銀行業界では、詐欺検出やマネーロンダリングに関する新技術の開発を支援するために、人工データがサンドボックスシステムの一部として使用されています。同時に、BMW は合成データを活用して、潜在顧客の信用状態に関する判断をより迅速かつ正確に行えるようになりました。アクセンチュアは、クレジットカードやデビットカードの取引記録に基づいて脆弱な顧客を特定し、早期介入によって不利な財務状況を防ぐことを目的としたアプリケーションを開発しました。

同様に、この技術はデータセットの特定の領域を生成して現実をよりよく反映するためにも使用できます。たとえば、データ セットに女性が 20% しか含まれていない場合、組織はさらに 30% を生成して、ユーザー ベースにさらに良いサービスを提供できます。

人工データは企業のイノベーションの強度を高め、迅速な実験とイノベーションを可能にします。

認知度の向上が企業の成熟度を決定する

文化的な観点から見ると、合成データの使用はプライバシー担当者の不安を和らげ、彼らがイノベーションの障害、あるいはデータ サイエンティストの敵であるという認識を払拭するのに役立ちます。

合成データは、真に匿名のデータと考えることができます。しかし、それでもなお、組織内でのデータの移動方法が変わるため、CISO、CIO、CEO、セキュリティおよび法務チーム、その他の役員や部門長からの承認を得る必要があります。

小さなことから始めて、証拠ポイントを積み上げていきましょう。これをサポートするために、Hazy は合成データ成熟度モデルを作成しました。成熟段階には、探索、評価、運用化、拡張、組み込みが含まれます。

しかし、人工データは「偽物」または不正確であるという反発に対処することも重要です。

合成材料を使用すると精度が多少低下するという誤解があります。合成データは実際のデータのように 100% 正確になることはありません。

確かに。データを非公開にすることで、正確さが多少犠牲になります。しかし、若干の低下にもかかわらず、まだ多くの有用性が残っています。

最終的には、合成データが成熟するでしょう。規制当局は合成データの可能性を探り始めており、合成データを採用する企業が増えるにつれて、データの使用と共有に関する業界標準が確立されるでしょう。

今は合成データにとって興味深い時期です。合成データは複雑な製品であり、企業が導入するのは容易ではありません。しかし、今後数年間は非常に重要な転換点となるでしょう。

<<:  ガートナー:世界の会話型 AI 支出は 2023 年に 186 億ドルに達すると予測

>>:  200以上の大規模モデル論文の調査と分析、数十人の研究者が1つの論文でRLHFの課題と限界をレビュー

ブログ    
ブログ    

推薦する

Appleとオレゴン州立大学がAutoFocusFormerを提案: 従来のグリッドを廃止し、適応型ダウンサンプリング画像セグメンテーションを使用

従来の RGB 画像はラスター形式で保存され、ピクセルは画像全体に均等に分散されます。ただし、この均...

アメリカの科学者が新技術を開発:ロボットが行動する前によく考えさせる

カリフォルニア大学バークレー校の新しい研究によると、ロボットはビデオ認識技術を通じて物体を移動させる...

滴滴出行の米国研究責任者:インテリジェント運転は間違いなく未来を変えるだろうが、そのプロセスは単純ではない

6月20日、滴滴出行研究院副院長兼アメリカ研究院長のゴン・フェンミン博士が、TechCrunch I...

ソラを解剖:技術的な詳細を推測するための37ページのリバースエンジニアリング、マイクロソフトも参加、中国チームが制作

ソラは発売後すぐにリバースエンジニアリングによって「解剖」されたのでしょうか? !リーハイ大学とマイ...

お伝えする 5 つの理由: セキュリティ監視はなぜ人工知能なしでは実現できないのか?

人工知能は、特にセキュリティ分野において業界に大きな影響を与え始めています。成熟したセキュリティ サ...

Googleの人工知能学習により低ピクセル画像も鮮明に

【環球網智能報記者張洋】過去2年間で、人工知能技術が次のホットスポットとなり、多くの有名なテクノロジ...

これはアリババに入社してジャック・マーと一緒に働けるようになる良いニュースです。これを逃すと何年も待たなければなりません。

ジャック・マーがあなたをアリババに来て一緒に働くように呼んでいます〜これ以上くだらないことは言いませ...

大規模な機械学習: データサイエンスを本番システムアーキテクチャに導入するための典型的なパターン

ここ数年、データサイエンスの概念は多くの業界で受け入れられてきました。データ サイエンス (科学的研...

チューリングテストは死んだ! ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

世界で最も強力な AI - ChatGPT は、さまざまなテストに合格し、真偽を区別するのが難しい回...

2つのセッションにおけるインターネット大手の提案の要約:デジタル経済とスマートカーが頻出語に

[[385182]]中国人民政治協商会議第13期全国委員会第4回会議が2021年3月4日に北京で開催...

あなたの周りにある、機械学習の一般的な使用例トップ 7!

想像してみてください。あなたはずっと夢見てきた機械学習の職種の面接を受けに行こうとしています。すべて...

eMule プロトコルの DHT アルゴリズム

BT プロトコルと eMule プロトコルのアルゴリズムにはいくつかの違いがあり、この 2 つを併用...

...

サイボーグの時代が到来すると予想される:人間の体が機械に置き換えられる時代

ロボット工学ジャーナリストで専門家のクリス・ミドルトン氏は、早ければ2070年には私たちの体全体がロ...

上位 10 の古典的なソートアルゴリズムを理解するのに役立つ 20 枚の写真

[[433768]]ソートアルゴリズムのトップ10のアイデアのまとめ手書きのソートアルゴリズムは面接...