AIにとって合成データが必須である理由

企業はペタバイト、エクサバイト、さらにはゼタバイト単位のデータを収集しています。

しかし、データは乱雑で、断片化され、サイロ化されていることがよくあります。多くの企業は、データが高度に独占的であるため、特定の環境でデータを使用することを躊躇します。電気通信などの規制産業では、データの多くは機密性が高いため、触れることさえできません。

AI に必要な規模の利用可能なデータの不足、データの偏り、データのドリフトなどのこれらの理由やその他の理由により、ますます多くの企業が合成データに注目しています。合成データは、その名前が示すように、実際のデータではありませんが、実際のデータに非常に似ています。

現実世界のデータの強化と保護

合成データは数学的かつ統計的に現実世界のデータを反映します。しかし、それは現実世界から収集され測定されるのではなく、小規模で匿名化された現実世界のサンプルに基づくコンピューターシミュレーション、アルゴリズム、単純なルール、統計モデリング、シミュレーション、およびその他の手法を通じて作成されます。

実際のデータは、ほとんどの場合、データから得られる洞察を得るための最良の情報源ですが、プライバシー規制により、高価であったり、不均衡であったり、入手できなかったり、使用できなかったりすることがよくあります。合成データは、実際のデータの効果的な補足または代替となり得ます。

人工データは、実際のデータの弱点を軽減するのに役立ちます。また、リアルタイムデータが存在しない、機密性が高い、または偏っている、または使用、共有、移動できない状況で使用できます。しかし、必ずしも実際のデータでトレーニングする必要はありません。ドメインや組織の知識、または実際のデータの痕跡を調べることで生成できます。

データ集約型の生成 AI モデルの使用が増え、プライバシーとセキュリティの必要性が高まる中、さまざまな業界の企業が合成データの可能性を認識しています。合成データの世界市場価値は 2021 年時点でわずか 1 億 6,890 万ドルでしたが、2031 年までに 35 億ドルにまで成長すると予想されており、年間複合成長率は約 36% です。

ガートナーは、2030 年までに AI モデル内の合成データが実際のデータを完全に上回ると予測しています。

合成データでプライバシーの壁を克服

多国籍企業である Vodafone は、さまざまな規則や規制がある複数の異なる管轄区域で事業を展開しており、当然ながらデータの使用において障害に直面しています。データへのアクセスは、主にプライバシー上の懸念から制限されることが多く、地理的境界を越えたデータの流れに関しても制限があります。

これを実現するために、ボーダフォンはロンドンを拠点とする合成データのスタートアップ企業Hazyと提携した。同社は3月にシリーズAシードラウンドで900万ドルの資金調達を発表しており、ボーダフォン、アクセンチュア、PwC、BMWグループ、ウェルズ・ファーゴなどの大企業と提携している。これらの企業はデータに関する最大の問題に直面しているからだ。

これらの大企業には、さまざまな地域に散在する「大量の機密データ」と「多数のデータサイロ」があります。

これらのエンタープライズツールは、構造化されたデータセットを取得し、機械学習 (ML) を使用してそれらをスキャンし、傾向、パターン、相関関係、相違点、列間の関係を特定します。データがどこにあっても、実際のデータポイントを生成するように要求できます。

このツールは、ソースデータセットに含まれるデータよりも多くのデータを生成でき、データの特性を維持しながら機密詳細は含まない安全な環境でそれを実行します。

機械学習を加速する最も包括的なデータ分析

ボーダフォンは、さまざまな国でさまざまな広告キャンペーンがどのように機能するかを調べ、これらのデータセットから学びながら、より包括的なデータ分析を実施したいと考えています。

「壮大な計画」とは、各国で合成データ資産を作成し、それを一箇所に集約して、より広範かつ大規模な分析を可能にすることです。たとえば、顧客離脱分析などです。

その他の関心領域には、負荷予測、不正行為予測、ネットワーク停止の検出と予測などがあります。

人工データの大きな使用例の 1 つは機械学習です。モデルの作成と改善、迅速な実験の実行といった内部開発プロセスを高速化します。

データへのアクセスが不十分な場合が多く、オープンソースデータを使用することは可能ですが、それが必要なものではなく、状況に適合しないことがよくあります。ネットワークの現実を反映した合成データを作成する必要があります。

人工データは、データアクセスの改善と高速化に役立ち、プロジェクトをより迅速に開始できるため、生産性と企業の俊敏性が向上します。

データは機械学習の燃料のようなものです。データがなければ、教師あり学習は不可能です。

コラボレーションを促進し、自動化を促進

Vodafone のモバイルネットワークサプライヤーの広大なエコシステムも機械学習の分野で革新を起こしており、新しい機械学習モデルをトレーニングするにはデータが必要です。

しかし、ネットワークデータを配布するのは簡単ではありません。対照的に、合成データを提供することで、これらの障壁を取り除くことができます。

ソフトウェアテストももう一つの重要なユースケースです。ボーダフォンは社内でさらに多くのソフトウェアを開発しており、テストが必要になるだろう。人工データは、障害が発生する可能性が高い時期、特定のネットワークソフトウェアコンポーネントの負荷が時間の経過とともにどのように変化するか、ソフトウェアコンポーネントにコンピューティングリソースを最適に割り当てる方法、エネルギー消費を最小限に抑える方法などを判断するのに役立ちます。

すべての大企業の基本業務をテストするには何年もかかる可能性があり、最大のハードルは代表的な生産データを入手することです。

さらに、合成データはネットワークの自動化にとって重要です。したがって、予測を行うには可能な限り自動化することが望ましいです。

通信分野を超えた合成データの検討

もちろん、合成データは通信以外の用途にも使用できます。これは、ChatGPT などのパブリックモデルにとって「非常に機密性の高い」企業固有のデータを漏らすことなく、大規模言語モデル (LLM) を微調整するために一部の企業で使用されています。

一方、銀行業界では、詐欺検出やマネーロンダリングに関する新技術の開発を支援するために、人工データがサンドボックスシステムの一部として使用されています。同時に、BMW は合成データを活用して、潜在顧客の信用状態に関する判断をより迅速かつ正確に行えるようになりました。アクセンチュアは、クレジットカードやデビットカードの取引記録に基づいて脆弱な顧客を特定し、早期介入によって不利な財務状況を防ぐことを目的としたアプリケーションを開発しました。

同様に、この技術はデータセットの特定の領域を生成して現実をよりよく反映するためにも使用できます。たとえば、データセットに女性が 20% しか含まれていない場合、組織はさらに 30% を生成して、ユーザーベースにさらに良いサービスを提供できます。

人工データは企業のイノベーションの強度を高め、迅速な実験とイノベーションを可能にします。

認知度の向上が企業の成熟度を決定する

文化的な観点から見ると、合成データの使用はプライバシー担当者の不安を和らげ、彼らがイノベーションの障害、あるいはデータサイエンティストの敵であるという認識を払拭するのに役立ちます。

合成データは、真に匿名のデータと考えることができます。しかし、それでもなお、組織内でのデータの移動方法が変わるため、CISO、CIO、CEO、セキュリティおよび法務チーム、その他の役員や部門長からの承認を得る必要があります。

小さなことから始めて、証拠ポイントを積み上げていきましょう。これをサポートするために、Hazy は合成データ成熟度モデルを作成しました。成熟段階には、探索、評価、運用化、拡張、組み込みが含まれます。

しかし、人工データは「偽物」または不正確であるという反発に対処することも重要です。

合成材料を使用すると精度が多少低下するという誤解があります。合成データは実際のデータのように 100% 正確になることはありません。

確かに。データを非公開にすることで、正確さが多少犠牲になります。しかし、若干の低下にもかかわらず、まだ多くの有用性が残っています。

最終的には、合成データが成熟するでしょう。規制当局は合成データの可能性を探り始めており、合成データを採用する企業が増えるにつれて、データの使用と共有に関する業界標準が確立されるでしょう。

今は合成データにとって興味深い時期です。合成データは複雑な製品であり、企業が導入するのは容易ではありません。しかし、今後数年間は非常に重要な転換点となるでしょう。

<<: ガートナー：世界の会話型 AI 支出は 2023 年に 186 億ドルに達すると予測

>>: 200以上の大規模モデル論文の調査と分析、数十人の研究者が1つの論文でRLHFの課題と限界をレビュー

Leetcode の基本アルゴリズム: スライディングウィンドウについてお話しましょう

AIにとって合成データが必須である理由

現実世界のデータの強化と保護

合成データでプライバシーの壁を克服

機械学習を加速する最も包括的なデータ分析

コラボレーションを促進し、自動化を促進

通信分野を超えた合成データの検討

認知度の向上が企業の成熟度を決定する

Leetcode の基本アルゴリズム: スライディングウィンドウについてお話しましょう

フォーカス分析: 動画向けAIと画像向けAIの違い

機械学習の 3 つの時代の計算パワーの法則をまとめる: 大規模モデルの出現によって何が変わったのでしょうか?

Fei-Fei Li DeepMind の新しい「コードチェーン」が CoT を圧倒! Pythonコード推論を使用することで、大規模モデルのパフォーマンスが12%向上しました。

人工知能を活用して顧客サービスを向上させる方法

スタンフォード大学のエビ揚げロボットがネットで話題に！中国チームの費用は22万元で、フルコースの食事の調理や食器洗いもできる。

日本生命保険は6年間にわたりRPAを導入し、1万人の従業員の2,000万時間以上の工数を節約した。

こんなの今まで見たことないよ！ AIの巨人たちが「人類絶滅説」に立ち向かい、ヒントン、アンドリュー・ン、ルカンが排除され、マスクは強く見守った

LeCun 氏はリツイートしました: 中国がトップ AI カンファレンスのリストで首位を占め、米国が 2 位です!中国と米国が世界の数学計算分野を支配している

推薦する

AI と Wi-Fi 6: 家庭内 Wi-Fi の革命を推進

機械学習における 5 つのよくある問題点とその解決方法

AI 転移学習はどのように機能しますか? AI モデルとトレーニングプロセスでどのような役割を果たすのでしょうか?

OpenAI がハッカーのグループチャットに潜入！盗まれたChatGPTは「Meow Meow GPT」に置き換えられました、ネットユーザー：まさに伝説的

どこにでも「ゴミ」がある: 人工知能には高品質のデータが不足しています!

JD テクノロジーオープンデー第 4 号 - 電子商取引推奨検索システムのアーキテクチャとアルゴリズムの実践

2024年のテクノロジートレンド: AI、5G、IoT、ブロックチェーンの影響

Hacker Newsのランキングアルゴリズムの仕組み

2021年のAI展望

人工知能、VR、音声検索、従来のマーケティングモデルを変える「三銃士」