生成AIスタートアップにとっての大きな問題は、資金不足ではなくトレーニングデータの不足だ

6月16日、生成型人工知能のスタートアップ企業数社が数十億ドルの資金を調達したが、適切なデータを入手できない場合は失敗する可能性がある。これは難しい作業です。なぜなら、特に大規模な言語モデルを開発する場合、大企業は独自のデータをスタートアップと共有することに消極的であることが多いからです。

「多くの企業がAIの優れたアプリケーションを求めていますが、強力なアプリケーションを構築するためのデータにアクセスできないことが多く、ビジネスで競争力を高めるのに役立つ独自のデータにアクセスできないことがよくあります」と、ベンチャーキャピタル会社プライマリー・ベンチャー・パートナーズの共同創設者兼ゼネラルパートナーであるブラッド・スヴルルガ氏は語った。

これまで以上に、正しいデータを持つことが大切になっています。投資会社ブルペン・キャピタルの常駐最高技術責任者ポール・ティマ氏は、実際のモデルの開発が商業化されるようになった今、真の価値はデータにあると語った。

PitchBookによると、生成AIスタートアップへのベンチャーキャピタル投資は昨年48億ドルだったが、今年最初の5か月間ですでに127億ドルに達している。現在、これらの企業の多くは、金融やヘルスケアなどの分野でよりニッチな AI モデルの構築を目指していますが、それらの分野でトレーニングデータセットを入手するのは簡単ではありません。

AI スタートアップの中には、豊富なデータを持つ大企業との提携を目指すところもあります。例えば、EYの税務担当グローバル副社長であるマーナ・リッカー氏は、同社には膨大な取引データが蓄積されているため、生成型人工知能を開発するスタートアップ企業から毎日問い合わせがあると語った。しかし、EYの顧客サービス担当グローバルマネージングパートナーであるアンディ・ボールドウィン氏は、EYのデータが外部モデルのトレーニングに使用された場合に何が起こるかを懸念していると述べた。

「データの所有者は誰なのか？モデルをトレーニングする際のアクセス権限は何か？他の人はそのモデルをどのように使用できるのか？」とボールドウィン氏は語った。「データも私たちの知的財産の一部です。」

スタートアップ企業は、各顧客のデータを使用して異なるモデルをトレーニングできるため、知的財産の問題を回避できます。スタートアップ企業の TermSheet は、この戦略を使用して、不動産開発業者、ブローカー、投資家の業界の質問に答えることができる生成 AI モデルである Ethan を構築しています。しかし、顧客にこれに同意してもらうことさえ面倒な場合があると、TermSheetの最高経営責任者兼共同創設者のロジャー・スミス氏は述べた。

リーガルテクノロジー企業 Logikcull の共同創設者兼 CEO である Andy Wilson 氏は、優れたサイバーセキュリティを備え、データを効果的に保護できることを企業に納得させることも課題であると考えています。

プライマリー・ベンチャー・パートナーズのスヴォルーガ氏は、大手テクノロジー企業は、自社のデータを安心して取り扱う大手顧客の信頼をすでに得ているため、生成型AIアプリケーションの開発において新興企業よりも有利かもしれないと述べた。

金融サービス会社トゥルーイストの最高データ責任者、トレイシー・ダニエルズ氏は、AIのユースケースを模索する際には、現在はスタートアップ企業ではなく大手テクノロジーベンダーとのみ協力していると述べた。ダニエルズ氏は、大手ベンダーの方がデータセキュリティをより確実に確保できると考えています。

つまり、公開データから優位性を得ているスタートアップ企業であっても、企業のデータセットを使用してモデルを充実させるという課題に直面することになります。人工知能のスタートアップ企業 Veesual は、ユーザーが服を試着している画像を生成できる。同社は当初、インターネット上の公開画像を使用してモデルをトレーニングしたが、結果を向上させるために大手小売業者に独自のデータを引き渡すよう求めるのは困難だった。

ヴィージュアルの最高経営責任者（CEO）兼共同創業者のマキシム・パテ氏は、大手小売業者がデータの使用に対して多額の支払いや同社の株式を要求したケースもあったが、最終的にはそうした取引は成立しなかったと述べた。

PatentPal は、法律事務所による特許出願書類の作成を支援する生成 AI スタートアップです。最高経営責任者兼創業者のジャック・シュー氏は、同社は公開されている特許出願書類を使ってモデルを訓練したと語った。暗号化または匿名化された実際の顧客フィードバックによる継続的なトレーニングにより、ツールの精度がさらに向上する可能性があると彼は述べた。しかし、フィードバックは企業秘密などの機密性の高いデータから分離する必要があるため、プロセスは複雑です。

「初期段階のスタートアップにとって、一つはブランド認知の問題であり、もう一つは社会的認知の問題だ」と彼は語った。

同時に、プレッシャーも高まっています。ストラック・キャピタルの創業者兼マネージング・パートナーであるアダム・ストラック氏は、一部のスタートアップ企業は特定の市場セグメントに関するデータをより早く、より多く入手しようと競争していると語った。

「独占的なデータセットがあるとわかれば、他社より先にそれを手に入れ、独占権を交渉したいと思うだろう」とストラック氏は言う。「そういう意味では、ほとんど軍拡競争になる」

<<: MetaチーフAIサイエンティストLeCun Yang氏：ChatGPTは犬ほど賢くない

>>:

時速22キロのスピードと50キロの荷重で、四足の車輪付きロボット「スイスマイル」は変形することを学んだ。

生成AIスタートアップにとっての大きな問題は、資金不足ではなくトレーニングデータの不足だ

時速22キロのスピードと50キロの荷重で、四足の車輪付きロボット「スイスマイル」は変形することを学んだ。

AIがワンクリックでタトゥーを除去し、数秒でスターの「素顔」を見ることができる

Amazon SageMaker を使用した機械学習モデルのトレーニングとデプロイ

2022 RPA認定ランキング

人工知能と機械学習の違いとその重要性を区別する必要がある

人材管理を改善する人工知能の可能性

深層強化学習について知っておくべきこと

ビッグニュース！人工知能における新たなブレークスルー！ Google ストリートビューを使って住民の投票傾向を調べてみましょう。

推薦する

Huang が H100 を「ブースト」: NVIDIA が大規模モデルアクセラレーションパッケージを発表、Llama2 推論速度が 2 倍に

11 分で GPT-3 をトレーニングしましょう! Nvidia H100が8つのMLPerfベンチマークを制覇、25年ぶりにリリースされた次世代グラフィックカード

スタンフォード大学の美容博士の起業プロジェクトは大成功！ AIビデオ生成がトップストリーマーとしてデビュー

4Dミリ波レーダーSLAMソリューション研究

AIによる売上予測により、組織は不確実性の中でコントロールを獲得できる

現代のサイバーセキュリティに人工知能が必要な理由

自動運転車向けエッジAIコンピューティングの可能性

スマートカーのブラックテクノロジーとは何ですか?

物体検出のための深層畳み込みニューラルネットワークの進歩

自動運転分野でファーウェイの「異常運転行動」関連特許が認可：認識精度向上が可能

マスク氏は人気検索に頻繁に登場、テスラは「過大評価されている」

技術革命: 人工知能の最新動向