企業はアルゴリズムやデータを通じて、どのようにより深い堀を築くのでしょうか?

[51CTO.com からのオリジナル記事] データは今最もホットなものです。当時は「紙は洛陽と同じくらい高い」という光景がありましたが、現在ではデータは業界の大物たちの間では必戦事項となっており、その人気は「紙は洛陽と同じくらい高い」に匹敵します。

ビッグデータの波の到来により、ビッグデータ企業が雨後の筍のように出現しました。私の周りのほとんどの人はビッグデータについて語っていますが、ビッグデータはまるで大企業に必要なだけでなく、中小企業にも「利益」をもたらす「万能薬」であるかのように思われます。

[[224722]]

しかし、ビッグデータの奔流に飛び込む企業がますます増えるにつれ、スタートアップ企業も大企業も大量のデータを収集していると主張していることが見落とされがちです。中にはテラバイトレベルのデータもあれば、米国議会図書館の全情報よりも多くのデータを持つ企業もあります。しかし、量だけでは「データの堀」を築くことができないことがよくあります。

まず、生のデータは、問題を解決するために使用されるデータほど価値がありません。これは公開市場でも見られます。データのアグリゲーターや販売者として活動する企業 (Nielsen や Acxiom など) は、データやアルゴリズム、機械学習対応製品を開発する企業 (Netflix や Facebook など) よりもはるかに低い価格で評価されています。

現在の世代の AI スタートアップはこの違いを認識しており、機械学習モデルを使用して収集したデータから価値を抽出しています。しかし、データを使用して機械学習ベースのソリューションを強化する場合でも、データセットのサイズは 1 つの側面にすぎません。

アプリケーションによっては、顧客に価値を提供するためにモデルを高い精度でトレーニングする必要があるものもあれば、まったくデータを必要としないものもあります。データセットには完全に独自のものもあれば、いつでもコピーできるものもあります。データの価値は時間の経過とともに低下しますが、永続的な価値を持つものもあります。

「データ要件」の定義

機械学習アプリケーションでは、エンドユーザーに価値ある機能を提供するために、さまざまな量のデータが必要になる場合があります。

MAP 閾値

クラウド時代では、初期の顧客を獲得するのに十分な価値のあるソフトウェア機能である、最小限の実行可能な製品 (MVP) の概念が普及してきました。インテリジェンスの時代では、データとモデルに関して同様の状況が見られます。つまり、採用を正当化するために必要な正確なインテリジェンスの最大レベル、つまり最大アルゴリズムパフォーマンス (MAP) です。

ほとんどのアプリケーションでは、価値を生み出すために 100% の精度は必要ありません。たとえば、医師向けの生産性向上ツールは、最初は電子医療記録システムにデータを入力するプロセスを簡素化しますが、時間が経つにつれて、医師がシステムにデータを入力する方法を学習して、そのデータ入力を自動化できるようになります。この場合、アプリケーションは最初からソフトウェア機能のみに基づいて価値があるため、MAP はゼロになります。ただし、AI が製品の中核となるソリューション (CT スキャンで脳卒中を検出するツールなど) では、既存の (人間ベースの) ソリューションと同等の精度が必要になる場合があります。この場合、MAP は放射線科医と同等の性能を発揮する必要があり、市場に投入されるまでに大量のデータが必要になる可能性があります。

パフォーマンスしきい値

すべての問題がほぼ完璧な精度で解決できるわけではありません。一部の問題は複雑すぎるため、現在のレベルでは完全にモデル化することができません。この場合、データを追加するとモデルのパフォーマンスが徐々に向上する可能性がありますが、すぐに収穫逓減に達します。

その反対に、モデル化される問題が比較的単純で、追跡する次元が少なく、結果があまり変わらないため、一部の問題は非常に小さなトレーニングセットを使用してほぼ最大の精度で解決できます。

つまり、問題を効果的に解決するために必要なデータの量は大きく異なります。実現可能なレベルの精度に到達するために必要なトレーニングデータの量をパフォーマンスしきい値と呼びます。

AI による契約処理は、パフォーマンスしきい値が低いアプリケーションの代表的な例です。契約には何千種類もの異なる種類がありますが、ほとんどの契約には、関係する当事者、交換される価値項目、および時間枠という重要な側面が共通しています。住宅ローン申請書や賃貸契約書などの特定の文書は、規制に準拠するために高度に標準化されています。いくつかのスタートアップ企業では、文書を自動的に処理するアルゴリズムでは、許容できる精度を達成するために数百の例をトレーニングするだけで十分であることがわかっています。

起業家は慎重にバランスを取る必要がある。パフォーマンスのしきい値が高ければ、製品の開発、顧客の使用促進、およびさらなるデータの収集に十分なデータを取得するというローンチの問題に遭遇します。しきい値が低すぎると、データの堀を構築できません。

安定性の閾値

機械学習モデルは、それが表す現実世界の環境から取得した例に基づいてトレーニングされます。時間の経過とともに条件が徐々にまたは突然変化し、モデルがそれに応じて変化しない場合、モデルは劣化します。言い換えれば、モデルの予測は信頼できなくなります。

たとえば、Constructor.io は機械学習を使用して e コマースサイトの検索結果をランク付けするスタートアップです。システムは、顧客が検索結果をどのようにクリックするかを観察し、そのデータを使用して将来の検索結果の順序を予測します。しかし、電子商取引の製品カタログは常に変化しています。モデルがすべてのクリックを平等に扱ったり、特定の期間のデータセットのみでトレーニングしたりすると、古い製品の価値を過大評価し、新しく発売された現在人気のある製品の価値を過小評価する可能性が高くなります。

モデルを安定させるには、環境の変化と同じ速度で新しいトレーニングデータを取り込む必要があります。このデータ取得率を安定性しきい値と呼びます。

簡単に古くなるデータでは、強固なデータの堀を構築することはできません。一方、安定性の閾値が低い場合、豊富で新鮮なデータへの長期的なアクセスが参入障壁として高くなる可能性があります。

長期的に防御できる機会を特定する

MAP、パフォーマンスしきい値、安定性しきい値は、強固なデータ防御壁を見つけるための中核要素です。

先発者は新しい製品カテゴリーに参入するための MAP が低いかもしれませんが、いったんカテゴリーを創設してリーダーになれば、将来の参入者に対するハードルは先発者よりも低くなければなりません。

パフォーマンスしきい値に到達し、そのパフォーマンス (安定性しきい値) を維持するために必要なデータが少ないドメインは、あまり防御力が高くありません。新規参入者は常に、あなたのソリューションに匹敵するかそれを上回るだけの十分なデータを蓄積することができます。一方、パフォーマンスしきい値が低い（多くのデータが必要ない）および安定性しきい値が低い（データが急速に劣化する）問題を解決する企業は、競合他社よりも早く新しいデータを取得することで、依然として防壁を築くことができます。

強力なデータ防御の要素

AI 投資家は、データセットを「公開データ」と「独自データ」という流行語で分類することがよくありますが、データの堀の強さには、次のような多くの側面が関係します。

•アクセシビリティ。

• 時間– データはどのくらいの速さで蓄積され、モデルで使用できますか?データには即座にアクセスできますか?それとも、取得と処理に多くの時間がかかりますか?

• コスト– このデータを取得するにはどれくらいの費用がかかりますか?データユーザーはライセンス権に対して料金を支払ったり、データにラベルを付ける人に料金を支払ったりする必要がありますか?

• 一意性– 同様のデータが広く利用可能であり、他の人が後でモデルを構築して同じ結果を得ることができるか?このいわゆる独自データは、求人情報、秘密保持契約やローン申請書などのすぐに入手できる文書、人の顔画像など、「コモディティ化されたデータ」と表現した方がよいかもしれません。

• 次元性– データセットはいくつの異なる属性を記述しますか?これらの特性の多くは問題解決に関連していますか?

• 幅– 属性の値はどのくらい幅広く変化するか?データセットでは、個々のケースやまれな例外が考慮されていますか?多くの顧客からのデータや学習内容を集約して、1 人の顧客からのデータよりも広範囲にカバーすることはできますか?

• 消耗性– データは時間の経過とともにどの程度広く適用可能か?このデータでトレーニングされたモデルは長期にわたって耐久性がありますか、それとも定期的に更新する必要がありますか?

• 好循環– パフォーマンスフィードバックや予測精度などの結果を、アルゴリズムを改善するための入力として使用できますか?時間の経過とともにパフォーマンスは向上しますか?

***

ソフトウェア定義の時代では、企業が長期的な競争上の優位性を築くために、データの堀がこれまで以上に重要になっています。テクノロジー大手がクラウドコンピューティングの顧客を引き付けるために AI ツールキットを推進する中、データセットは差別化を図る最も重要な方法の 1 つです。真に防御力の高いデータの堀は、単に大量のデータを集めることから生まれるのではなく、顧客の問題を解決するにつれて価値が増す独自の新しいデータを使用して、特定の問題領域に結び付けられることから生まれます。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

【編集者のおすすめ】