合成データは AI をより良くすることができるでしょうか?

合成データは AI をより良くすることができるでしょうか?

人工知能 (AI) は指数関数的な成長によりさらに進歩していますが、この最新技術には依然として限界が存在します。

では、合成データは AI 関連のすべての問題の解決策となり得るのでしょうか?

第四次産業革命では、あらゆる業界が人工知能 (AI) や機械学習 (ML) などの最新テクノロジーの可能性を発見しています。

ほぼすべての組織が、より効率的なビジネスプロセスを作成し、顧客満足度を高めるために AI を導入しています。しかし、スタートアップ、SOHO、中小企業 (SMB) は、AI を導入する際に、いわゆるコールド スタート問題という大きな問題に直面します。スタートアップ企業や中小企業には一般的にビッグデータを収集するためのリソースがありませんが、コールドスタートの問題は基本的にそのような関連データが不足していることにあります。

一方、業界の大手企業はすでに、現実世界のデータを収集し、そのデータを AI システムのトレーニングに適用するためのリソースを持っています。したがって、中小企業にとって有利な状況が生まれます。この場合、合成データが必要な要因となる可能性があります。

合成データは、データ駆動型ビジネス モデルの原動力となる可能性があります。さらに、研究により、合成データは実際のデータと同じ結果を生み出すことが示されています。 合成データは実際のデータよりも安価で、処理にかかる時間も短いと考えられています。したがって、合成データの出現により、現在は大企業が支配している競争の場が、中小企業や新興企業に有利になる可能性がある。

合成データの利点を知る

合成データは、データが実際の履歴データに可能な限り近くなるように、ユーザーが指定したパラメータに基づいてコンピューターによって生成される人工的なデータです。通常、Unreal Engine や Unity などのゲーム エンジンは、自動運転車などの AI ベースのアプリケーションのテストやトレーニングのためのシミュレーション環境としてよく使用されます。合成データに基づいて AI 駆動型アプリケーションを開発することには多くの利点があります。これらの利点には次のようなものがあります:

1. プロトタイプを開発する

関連する実際のデータを大量に検索、集約、モデル化するのは面倒なプロセスです。したがって、合成データを生成することが最善の解決策となる可能性があります。このようなデータにより、プロトタイプの構築とテストが可能になり、量産前に望ましい結果を得ることができます。合成データを使用してプロトタイプを構築すると、実際のデータを使用するよりも効率的でコスト効率が高くなります。

非営利の人工知能研究会社である Open AI は、多数の AI ベースのアプリケーションを開発しています。これらのアプリケーションでは、研究者は、一度だけ実行されたアクションを見ただけで新しいタスクを学習できる合成データでトレーニングされたロボットを開発しました。カリフォルニアのテクノロジー系スタートアップ企業が、Amazon Goに似たビジョンを持った人工知能プラットフォームを開発している。このスタートアップは、合成データの助けを借りて、コンビニエンスストアや小売店にチェックアウト不要のソリューションを提供することを目指しています。また、店舗内のすべての買い物客を監視し、彼らの学習パターンを特定して分析する AI 駆動型スマート システムも導入しました。

2. データのプライバシーを確​​保する

2018年11月、注目を集めたデータ侵害により、マリオットの顧客5億人が影響を受けました。 5億人のうち、3億2,700万人のユーザーのパスポート情報、電子メールアドレス、郵送先住所、クレジットカード情報が盗まれました。このような事件により、人々はデータのセキュリティとプライバシーについて懸念を抱いています。

合成データは、このようなプライバシーの問題に効果的に対処できます。合成データには個人データは含まれません。したがって、データのプライバシーを簡単に確保できます。合成データは、ヘルスケアアプリケーション向けの AI システムのトレーニングに非常に役立ちます。人工知能システムでは、実際の患者データが必要になることがよくあります。これは患者のプライバシーを脅かすことになります。合成データにより、患者の機密性を維持しながら、ヘルスケアにおける高度な AI アプリケーションの開発が可能になります。

たとえば、ミネソタ州のメイヨー クリニックやボストンの MGH および BWH 臨床データ サイエンス センターと協力する Nvidia の研究者は、生成的敵対的ネットワークを使用して、ニューラル ネットワークのトレーニング用の合成データを生成しています。 生成された合成データには、アルツハイマー病神経画像化イニシアチブ データセットからの 3,400 個の MRI と、マルチモーダル脳腫瘍画像セグメンテーション ベンチマーク データセットからの 200 個の 4D 脳 MRI および腫瘍が含まれています。同様に、シミュレーションされた X 線を実際の X 線と併用して、AI システムがさまざまな健康状態を認識できるようにトレーニングすることもできます。

3. 前例のないシナリオテストとトレーニング

AI 駆動型アプリケーションの開発において最も重要なプロセスの 1 つは、システム パフォーマンスのテストです。システムが期待どおりの出力を生成しない場合は、再トレーニングする必要があります。この場合、合成データが有益であることがわかります。合成データを使用すると、実際のデータを使用したり、実際の環境でシステムをテストしたりするのではなく、AI システムをテストするためのシナリオを生成できます。この方法は、実際のデータを取得するよりも安価で、時間もかかりません。

同様に、合成データは、実際のデータやイベントが不足している将来発生する可能性のあるシナリオに対して、新規または既存のシステムをトレーニングするために使用できます。このアプローチにより、研究者はより未来的な AI アプリケーションを開発できます。さらに、正確な現実世界のデータを収集するよりも合成データを生成する方が簡単なので、合成データを使用して AI システムを再トレーニングする方が簡単です。

これらの利点により、合成データは自動運転車のテストとトレーニングに利用できる代替手段となっています。多くの自動運転車開発者は、GTA V のようなシミュレーションゲーム環境を使用して AI ベースのシステムをトレーニングしています。同様に、May Mobility は合成データを使用して車両をトレーニングすることで、自律型マイクロモビリティ サービスを構築しています。

もう一つの自動運転車開発会社であるWaymoは、シミュレーション道路で50億マイル、実際の道路でさらに800万マイル走行して自動運転車をテストした。合成データアプローチにより、開発者はシミュレーションされた道路で自動運転車をテストすることができ、実際の道路で直接テストするよりもはるかに安全です。

4. データの柔軟性を向上させる

実際のデータを入手するには、注釈の料金を支払い、著作権侵害を確実に回避する必要がある面倒なプロセスが必要です。さらに、実際のデータは、特定のドメインで十分な履歴データがある特定のシナリオでのみ使用できます。実際のデータとは異なり、合成データは、オブジェクト、シーン、イベント、人物の任意の組み合わせを瞬時に表現できます。合成データは、ニッチなアプリケーションを発見できる一般的なデータセットを生成できます。したがって、研究者は合成データを使用して無限の可能性を探求することができます。いくつかのスタートアップ企業は、顧客の要件を満たすトレーニング データセットを開発することで、オープン データ エコノミーを構築しました。

5. 合成データの限界を探る

合成データは AI が未発見の領域に到達するのに役立ちますが、その限界が主流への導入の大きな障害となる可能性があります。まず、合成データは現実世界のデータのいくつかの特性をシミュレートしますが、元のデータの正確な複製にはなりません。 このタイプの合成データをモデル化する場合、AI システムは実際のデータ内の共通の傾向と状況のみを探します。したがって、現実世界のデータの極端なケースに含まれるまれなシナリオは、合成データには決して含まれない可能性があります。

さらに、研究者たちはデータが正確かどうかを確認するためのメカニズムをまだ開発していません。合成データを使用するよりも、実際のデータの欠陥を見つけてそれを減らす方が簡単です。 AI 駆動型システムには、意図しない偏見を助長する可能性のあるダークサイドがすでに存在します。合成データを使用する場合、このバイアスの範囲と影響を予測するのは時期尚早かもしれません。

6. 課題を克服する

企業組織が合成データを理解する必要性は、ごく最近になって発見されました。このようなデータの効率性と正確性は、現在の業界標準に基づいて評価されていません。したがって、合成データは独立したデータ ソースとは見なされません。特に、ヘルスケアアプリケーションや自動運転車など、安全性の問題に直面しているアプリケーションでは、合成データを現実世界のデータと組み合わせて AI システムを開発する必要があります。しかし、小売業におけるアプリケーションはリスク要因が低く、合成データに容易に依存できます。

テスト目的の場合、合成データは実行可能で低コストのソリューションです。ただし、他の目的の場合、合成データをスタンドアロンのソリューションとして採用する前に、AI システムの結果を徹底的に調査および分析する必要があります。さらなる研究により、合成データはさまざまな操作においてより信頼できるものになる可能性があります。

<<:  この方程式はバイナリツリーの森ですか?データから直接未知の支配方程式と物理的メカニズムを発見する

>>:  ローコード自動化が銀行業務をどう変えるか

ブログ    
ブログ    

推薦する

OpenAI: GPT-5が危険すぎる場合、理事会はアルトマンの釈放を阻止する権利がある

OpenAIは新たな発表を行った。取締役会はアルトマン氏の決定を拒否する権限を持つようになった。特に...

通信業界は最大のAI市場となり、2021年に重要な転換点を迎える

Informa傘下の世界的に有名な市場調査会社Tractica/Ovumは、30の分野で約300件の...

将来のシステム設計のための機械学習

エリアス・ファロン氏は、電子設計自動化技術の大手プロバイダーである Cadence Design S...

...

機械学習 = 「新しいボトルに入った古いワイン」の統計?いいえ!

最近、ディープラーニングと人工知能に関するジョークがソーシャルメディア上で広く流布しており、この2つ...

...

1 つの記事で 26 個のニューラル ネットワーク活性化関数 (ReLU から Sinc まで) を紹介します

ニューラル ネットワークでは、活性化関数によって、指定された入力セットからノードの出力が決定されます...

...

機械学習研究開発プラットフォームの選択

機械学習は現在隆盛を極めていますが、機械学習を学習・研究し、実稼働環境で活用したい場合には、プラット...

少なくとも 8 つのトップカンファレンス論文! NvidiaのLLM研究科学者の求人数は非常に多く、元Google Brainの科学者を驚かせるほどである。

機械学習の分野で仕事を見つけるのはどれくらい難しいですか? NVIDIA の大規模モデル研究科学者の...

...

AIによる顔を変える技術によって危害を受けるのではないかと心配ですか?怖がらないで!ディープフェイク偽造対策チームが到着

ディープフェイクは登場以来、人間性の暗い側面へと向かっています。 Bステーションのユーザーは、陸小玲...

Python の基礎: FP 成長アルゴリズムの構築

Apriori アルゴリズムと比較すると、FP-growth アルゴリズムではデータベースを 2 回...

Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...