生成AIスタートアップにとっての大きな問題は、資金不足ではなくトレーニングデータの不足だ

生成AIスタートアップにとっての大きな問題は、資金不足ではなくトレーニングデータの不足だ

6月16日、生成型人工知能のスタートアップ企業数社が数十億ドルの資金を調達したが、適切なデータを入手できない場合は失敗する可能性がある。これは難しい作業です。なぜなら、特に大規模な言語モデルを開発する場合、大企業は独自のデータをスタートアップと共有することに消極的であることが多いからです。

「多くの企業がAIの優れたアプリケーションを求めていますが、強力なアプリケーションを構築するためのデータにアクセスできないことが多く、ビジネスで競争力を高めるのに役立つ独自のデータにアクセスできないことがよくあります」と、ベンチャーキャピタル会社プライマリー・ベンチャー・パートナーズの共同創設者兼ゼネラルパートナーであるブラッド・スヴルルガ氏は語った。

これまで以上に、正しいデータを持つことが大切になっています。投資会社ブルペン・キャピタルの常駐最高技術責任者ポール・ティマ氏は、実際のモデルの開発が商業化されるようになった今、真の価値はデータにあると語った。

PitchBookによると、生成AIスタートアップへのベンチャーキャピタル投資は昨年48億ドルだったが、今年最初の5か月間ですでに127億ドルに達している。現在、これらの企業の多くは、金融やヘルスケアなどの分野でよりニッチな AI モデルの構築を目指していますが、それらの分野でトレーニング データ セットを入手するのは簡単ではありません。

AI スタートアップの中には、豊富なデータを持つ大企業との提携を目指すところもあります。例えば、EYの税務担当グローバル副社長であるマーナ・リッカー氏は、同社には膨大な取引データが蓄積されているため、生成型人工知能を開発するスタートアップ企業から毎日問い合わせがあると語った。しかし、EYの顧客サービス担当グローバルマネージングパートナーであるアンディ・ボールドウィン氏は、EYのデータが外部モデルのトレーニングに使用された場合に何が起こるかを懸念していると述べた。

「データの所有者は誰なのか?モデルをトレーニングする際のアクセス権限は何か?他の人はそのモデルをどのように使用できるのか?」とボールドウィン氏は語った。 「データも私たちの知的財産の一部です。」

スタートアップ企業は、各顧客のデータを使用して異なるモデルをトレーニングできるため、知的財産の問題を回避できます。スタートアップ企業の TermSheet は、この戦略を使用して、不動産開発業者、ブローカー、投資家の業界の質問に答えることができる生成 AI モデルである Ethan を構築しています。しかし、顧客にこれに同意してもらうことさえ面倒な場合があると、TermSheetの最高経営責任者兼共同創設者のロジャー・スミス氏は述べた。

リーガルテクノロジー企業 Logikcull の共同創設者兼 CEO である Andy Wilson 氏は、優れたサイバーセキュリティを備え、データを効果的に保護できることを企業に納得させることも課題であると考えています。

プライマリー・ベンチャー・パートナーズのスヴォルーガ氏は、大手テクノロジー企業は、自社のデータを安心して取り扱う大手顧客の信頼をすでに得ているため、生成型AIアプリケーションの開発において新興企業よりも有利かもしれないと述べた。

金融サービス会社トゥルーイストの最高データ責任者、トレイシー・ダニエルズ氏は、AIのユースケースを模索する際には、現在はスタートアップ企業ではなく大手テクノロジーベンダーとのみ協力していると述べた。ダニエルズ氏は、大手ベンダーの方がデータセキュリティをより確実に確保できると考えています。

つまり、公開データから優位性を得ているスタートアップ企業であっても、企業のデータセットを使用してモデルを充実させるという課題に直面することになります。人工知能のスタートアップ企業 Veesual は、ユーザーが服を試着している画像を生成できる。同社は当初、インターネット上の公開画像を使用してモデルをトレーニングしたが、結果を向上させるために大手小売業者に独自のデータを引き渡すよう求めるのは困難だった。

ヴィージュアルの最高経営責任者(CEO)兼共同創業者のマキシム・パテ氏は、大手小売業者がデータの使用に対して多額の支払いや同社の株式を要求したケースもあったが、最終的にはそうした取引は成立しなかったと述べた。

PatentPal は、法律事務所による特許出願書類の作成を支援する生成 AI スタートアップです。最高経営責任者兼創業者のジャック・シュー氏は、同社は公開されている特許出願書類を使ってモデルを訓練したと語った。暗号化または匿名化された実際の顧客フィードバックによる継続的なトレーニングにより、ツールの精度がさらに向上する可能性があると彼は述べた。しかし、フィードバックは企業秘密などの機密性の高いデータから分離する必要があるため、プロセスは複雑です。

「初期段階のスタートアップにとって、一つはブランド認知の問題であり、もう一つは社会的認知の問題だ」と彼は語った。

同時に、プレッシャーも高まっています。ストラック・キャピタルの創業者兼マネージング・パートナーであるアダム・ストラック氏は、一部のスタートアップ企業は特定の市場セグメントに関するデータをより早く、より多く入手しようと競争していると語った。

「独占的なデータセットがあるとわかれば、他社より先にそれを手に入れ、独占権を交渉したいと思うだろう」とストラック氏は言う。「そういう意味では、ほとんど軍拡競争になる」

<<:  MetaチーフAIサイエンティストLeCun Yang氏:ChatGPTは犬ほど賢くない

>>: 

推薦する

人工知能とビッグデータを開発する際に留意すべき12のこと

人工知能は近年の科学技術発展の重要な方向です。ビッグデータの時代において、データの収集、マイニング、...

...

人工知能は、電力網とユビキタス電力のIoTの構築と開発にとって重要な方向性となるだろう

[[285204]]現在、モバイルインターネット、ビッグデータ、スーパーコンピューティングなどの新し...

...

Docker Compose + GPU + TensorFlow が生み出す魔法の火花

Docker は素晴らしいです。開発と配布に Docker を使用する人が増えています。 Docke...

Sora のようなモデルをトレーニングしたいですか? You YangのチームOpenDiTが80%の加速を達成

2024年初頭のキング爆弾として、ソラの出現は追いつくための新たな目標を設定しました。ヴィンセントビ...

地下鉄路線図のための高速経路探索アルゴリズム

1. 概要過去2日間、Blog Parkで地下鉄マップの実装について話していました。その前に、私もク...

PyTorch の 4 分間のチュートリアルで線形回帰の実行方法を学びます

[[271978]]ビッグデータダイジェスト制作編纂者:洪英飛、寧静PyTorch は、ディープラー...

...

AAAI2018にはアリババからの11の論文が収録され、6人の著者がメインカンファレンスでプレゼンテーションを行うよう招待されました。

2018年の初め、アリババは人工知能の分野での最新の成果を発表しました。人工知能に関するトップ学術...

認知知能は魔法のようなもの:2021 年の主要なブレークスルーを振り返る

著者: ユン・チャオ[51CTO.com からのオリジナル記事]人工知能ソリューションの応用が進むに...

人工知能に適したプログラミング言語はどれですか? ——人工知能におけるPythonの役割

Google の AI が囲碁の名人に勝利したことは、人工知能の突然かつ急速な進歩を測る手段であり、...

...