アルゴリズム、データ、機械学習機能... AI スタートアップの堀とは何でしょうか?

[[207684]]

投資家が最も注目する点の一つは、起業家が独自の堀を見つけているかどうかだ。そして、これから先、あなたの堀はますます深くなるでしょうか?

AI時代に、AI分野で成功を望む企業の堀とは何でしょうか？それはアルゴリズムではなく、データでもなく、データの二乗です。

既存のデータは既存の大企業の手に渡っているため、スタートアップにとってはこれは困難です。この記事は、次のような疑問に答えるために書かれています。中小企業は、どうすればデータの利点を活かしてダビデ・ゴリアテのような逆転劇を起こせるのか？あるいは少なくとも強者と共存できるのか？

ネタバレは以上です、本文をお読みください。

投資とは、特定の業界における企業の独自の優位性や強みである「堀」を見つけることに他なりません。なぜなら：

将来予想されるキャッシュフローは企業の評価を示します。
利益を上げる能力は、予想される将来のキャッシュフローを示します。
堀は利益を上げる能力を示します。

なぜ堀が収益性を予測できるのでしょうか? それは、堀がサプライヤーや顧客との企業の交渉力を高め、製品価格の引き上げやコストの削減に役立ち、結果としてより多くの利益を獲得できるからです。さまざまな市場における既存のネットワーク効果は、堀の優れた例です。 Airbnb を例に挙げてみましょう。貸し出し可能な部屋が増えれば増えるほど、より多くの家主が Airbnb に参加し、そこに自分の部屋を掲載する可能性が高くなります。これにより閉ループが形成され、他のプラットフォームがこの市場に参入することが難しくなります。

このメカニズムにより「勝者がすべてを手に入れる」状況が生まれ、勝利した企業は競合他社よりも数桁規模が大きくなることがよくあります。これが投資家がこれらのユニコーンを好む理由です。

AI が特別な理由は何でしょうか?

現在、AIの波で人々の注目を集めているのは、AIが新しいタイプのネットワーク効果をもたらしていることであり、これを「データネットワーク効果」と呼ぶ人もいます。機械学習アルゴリズムには、それをサポートするデータが必要です。アルゴリズムとデータの間には線形関係はありませんが、機械学習アルゴリズムは大量のデータを受け取った後、予測/分類タスクの処理がより正確になります。

次のメカニズムも注目に値します。企業のユーザーが増えるにつれて、企業はアルゴリズムをトレーニングして最適化するためにますます多くのデータを収集します。顧客の好みを予測する精度が高まり、製品の全体的な品質も向上し、より多くの新規顧客が製品を購入し、企業にさらに多くのデータを提供します。これにより、閉じたループが形成されます。

これにより、もう 1 つの自己強化型フィードバックループが作成されます。これを私たちは「人材誘致ループ」と呼んでいます。企業が保有するデータが多いほど、社内で働くデータ研究者を引き付けることができ、業界の専門家を引き付けて最高の機械学習製品を作成できる可能性が高まります。

問題は、スタートアップがデータなし（または非常に少ないデータ）でスタートし、運営を継続するために少数の有能な人々（通常は創業者）に頼るしかないことです。市場がネットワーク効果を生み出すのに時間とリソースがかかるのと同様に、AI 企業も独自の強化ループを形成し始めるために初期データを必要とします。

このデータの所有者は誰ですか?

既存の大企業。

既存の企業が既存の優位性を活かして、不当に AI の波に乗っているのはそのためです。

しかし、幸いなことに、既存の大企業がこのトレンドに乗るのはそれほど簡単ではありません。

ゴリアテが倒せるもの:

既存の企業の強みを分析するためのフレームワーク

AI 企業の成功の一部を説明するには、次の式を使用できます。

AI企業の成功 = データ + 機械学習機能 + アルゴリズム

つまり、成功し、市場で防御可能な AI 企業は、機械学習が最良のアルゴリズムを作成するために使用できる十分なデータを保有しているということです。

AI 分野における既存企業の強みを確認する便利な方法は、この 2×2 マトリックスを見ることです。1 つの軸は各ユースケースで利用可能なデータの量、もう 1 つの軸は、そのユースケースにおける企業の性質です。

それぞれの潜在顧客が大量のデータを保有している大手テクノロジー企業のユースケースを見ると、既存企業の利点は明らかです。一般的な利点（より広い顧客基盤、より大きな投資能力、損失への耐性など）に加えて、大手テクノロジー企業は、長年にわたって蓄積されたデータに依存しているため、資金が尽きることなく山ほどあるようなものです。

また、ブランドと強力な財源の恩恵を受け、最高の機械学習の才能のある人材を雇用し、最高のアルゴリズムを開発することができます。既存企業のスコア: 3/3。

このような状況では、スタートアップ企業は既存のテクノロジー企業と真っ向から競争すべきではない。

しかし、マトリックスのこの部分、つまり右下の領域では、既存企業は大きな優位性を持っていません。ここは非テクノロジー企業の本拠地であり、それぞれの潜在的顧客はすでに大量のデータを保有しています。高速道路を管理し、料金所に関する長年のデータを持っている運営者のことを考えてみましょう。

歴史は、特にディープラーニングの登場以降、データがアルゴリズムよりも価値がある可能性があることを証明しています。

さらに、大手テクノロジー企業は、最新の機械学習パッケージを継続的にオープンソース化し、特に物体認識や自然言語処理の分野でアルゴリズムを商品化しています。これを私たちは一般化機械学習と呼んでいます。一般化された機械学習により、大規模なデータセットを持つ非テクノロジー企業は、以前にテクノロジー企業のデータセットを使用してトレーニングされたオープンソースのデータセットを使用して、関連性のある有用な結果を得ることができます。

一般的に、大企業は、それがハイテク企業であるかどうか、社内に一流の機械学習の専門家がいるかどうかに関係なく、一流の機械学習の専門家がいる中小企業よりも優れた AI 製品を作成できます。それは、大企業の方が小さなスタートアップよりも多くのデータを持っているからです。それだけです。

この場合、方程式では機械学習の機能よりもデータにもっと注意を払う必要があるため、前の式は次のように修正する必要があります。

AI企業の成功 = データ × データ + 機械学習機能 + アルゴリズム

スタートアップにとって、これは多くのチャンスを意味する可能性があります。特にスタートアップ企業が以下のことができる場合:

大手テクノロジー企業に欠けている複数の情報源を統合する、または:
追加の独自データを生成します。

このマトリックスの残りの左下隅には、最大のチャンスが含まれている可能性があります。テクノロジー企業は関与しておらず、顧客は一般化された機械学習が機能するのに十分な大きさのデータセットにアクセスできません。農業やヘルスケアの特定の分野は、大手テクノロジー企業がまだ市場を独占しておらず、各顧客が保有するデータの量がわずかである良い例です。

スタートアップはどのようにしてより深い堀を掘るのでしょうか?

新しい計算式は、当初データ量が少ない場合、計算式が改訂される前ほど影響が大きくなく、機械学習の能力とアルゴリズムの比重が大きくなることを意味します。この場合、既存企業の優位性は以前ほど明白ではありません。

この計算の直接的な結果は、市場にデータが豊富にある場合、主要な機械学習機能と革新的なアルゴリズムのおかげで、スタートアップ企業が市場の勝者になるチャンスがあるということです。

ここでは、データ集約型の世界でスタートアップを立ち上げる方法という問題に対する 3 つの相互に関連するアプローチを紹介します。

方法1: 多くの顧客からデータを収集する

単一の企業では高度な AI 製品を構築するのに十分な規模のデータセットにアクセスできないかもしれませんが、AI スタートアップ企業が主要顧客からデータを収集し続け、独自のデータプールを形成すれば、顧客を満足させることができる製品を持つ唯一の企業になる可能性があります。このプロセスでは、アルゴリズムがより大きなデータに基づいてトレーニングされ、その恩恵を受けることができるように、すべての関係者が取得したデータを提供しなければなりません。

方法2: (複数の)インテリジェントシステム

大規模なデータセットが入手しにくい他の理由をもう少し深く掘り下げてみると、これらのデータセットは異なる顧客間だけでなく、異なる SaaS ツール間にも存在していることがわかります。

これら 2 種類のデータセットを持つ AI スタートアップは、最も正確な予測を行い、インテリジェントなシステムになる可能性が非常に高くなります。

データセットはバリューチェーンにおける補完的な資産と考えることができます。新しく設立された、一見無害な AI スタートアップ企業は、既存の企業が協力したくない顧客と協力することで、補完的な資産を構築し、既存企業との競争に生き残ることができます。

この議論の裏返しは、単一の非独占的データに依存する企業は、複数のデータソースを組み合わせる企業よりも市場競争に対する耐性が低くなるということです。

最後に、「私のデータで誰が儲けているのか？」という疑問に戻ります。データを生成した会社でしょうか？データを保管している会社でしょうか？それとも、最高の機械学習製品を開発した会社でしょうか？

方法3: ユーザーが生成したユニークなデータセットを取得する

企業が複数の顧客や複数の SaaS ツールからデータを収集できない場合、または正確なモデルを作成するためにデータが不十分な場合は、外部に提供している SaaS サービスから追加のデータを生成してみることができます。この独自のアプローチにより、同社は他の既存企業では利用できない独自のデータセットにアクセスできるようになります。

ほんの少しの時間、労力、費用を費やせば、顧客の期待に応えるのに十分なデータを取得できるため、企業の防御力は比較的限られています。これは、使用されるデータが公開されている場合に特に当てはまります。

顧客がデータを提供する可能性は低く、データネットワーク効果が現れるまでには長い時間がかかるため、企業はますます防御されやすくなります。

2 番目のデータ侵害のシナリオでは、企業の防御力が大幅に強化される可能性がありますが、企業にとって非常に困難な状況になる可能性もあります。

最後のポイントは、機械学習の防御機能と SaaS サービスの防御機能は相互に排他的ではないということです。非常に詳細な製品ロードマップ、素晴らしいユーザーエクスペリエンス、ユーザー/データのロックインはすべて、AI 企業がデータネットワーク効果に依存することで構築される防御力よりも強力な独自の壕を構築する上で重要な役割を果たします。

<<: プログラマーの 90% が職を失いつつあり、Google AI によって書かれた機械学習コードはプログラマーよりも優れている!

>>: 人工知能がITサービス管理を変える3つの方法