生成AIスタートアップにとっての大きな問題は、資金不足ではなくトレーニングデータの不足だ

生成AIスタートアップにとっての大きな問題は、資金不足ではなくトレーニングデータの不足だ

6月16日、生成型人工知能のスタートアップ企業数社が数十億ドルの資金を調達したが、適切なデータを入手できない場合は失敗する可能性がある。これは難しい作業です。なぜなら、特に大規模な言語モデルを開発する場合、大企業は独自のデータをスタートアップと共有することに消極的であることが多いからです。

「多くの企業がAIの優れたアプリケーションを求めていますが、強力なアプリケーションを構築するためのデータにアクセスできないことが多く、ビジネスで競争力を高めるのに役立つ独自のデータにアクセスできないことがよくあります」と、ベンチャーキャピタル会社プライマリー・ベンチャー・パートナーズの共同創設者兼ゼネラルパートナーであるブラッド・スヴルルガ氏は語った。

これまで以上に、正しいデータを持つことが大切になっています。投資会社ブルペン・キャピタルの常駐最高技術責任者ポール・ティマ氏は、実際のモデルの開発が商業化されるようになった今、真の価値はデータにあると語った。

PitchBookによると、生成AIスタートアップへのベンチャーキャピタル投資は昨年48億ドルだったが、今年最初の5か月間ですでに127億ドルに達している。現在、これらの企業の多くは、金融やヘルスケアなどの分野でよりニッチな AI モデルの構築を目指していますが、それらの分野でトレーニング データ セットを入手するのは簡単ではありません。

AI スタートアップの中には、豊富なデータを持つ大企業との提携を目指すところもあります。例えば、EYの税務担当グローバル副社長であるマーナ・リッカー氏は、同社には膨大な取引データが蓄積されているため、生成型人工知能を開発するスタートアップ企業から毎日問い合わせがあると語った。しかし、EYの顧客サービス担当グローバルマネージングパートナーであるアンディ・ボールドウィン氏は、EYのデータが外部モデルのトレーニングに使用された場合に何が起こるかを懸念していると述べた。

「データの所有者は誰なのか?モデルをトレーニングする際のアクセス権限は何か?他の人はそのモデルをどのように使用できるのか?」とボールドウィン氏は語った。 「データも私たちの知的財産の一部です。」

スタートアップ企業は、各顧客のデータを使用して異なるモデルをトレーニングできるため、知的財産の問題を回避できます。スタートアップ企業の TermSheet は、この戦略を使用して、不動産開発業者、ブローカー、投資家の業界の質問に答えることができる生成 AI モデルである Ethan を構築しています。しかし、顧客にこれに同意してもらうことさえ面倒な場合があると、TermSheetの最高経営責任者兼共同創設者のロジャー・スミス氏は述べた。

リーガルテクノロジー企業 Logikcull の共同創設者兼 CEO である Andy Wilson 氏は、優れたサイバーセキュリティを備え、データを効果的に保護できることを企業に納得させることも課題であると考えています。

プライマリー・ベンチャー・パートナーズのスヴォルーガ氏は、大手テクノロジー企業は、自社のデータを安心して取り扱う大手顧客の信頼をすでに得ているため、生成型AIアプリケーションの開発において新興企業よりも有利かもしれないと述べた。

金融サービス会社トゥルーイストの最高データ責任者、トレイシー・ダニエルズ氏は、AIのユースケースを模索する際には、現在はスタートアップ企業ではなく大手テクノロジーベンダーとのみ協力していると述べた。ダニエルズ氏は、大手ベンダーの方がデータセキュリティをより確実に確保できると考えています。

つまり、公開データから優位性を得ているスタートアップ企業であっても、企業のデータセットを使用してモデルを充実させるという課題に直面することになります。人工知能のスタートアップ企業 Veesual は、ユーザーが服を試着している画像を生成できる。同社は当初、インターネット上の公開画像を使用してモデルをトレーニングしたが、結果を向上させるために大手小売業者に独自のデータを引き渡すよう求めるのは困難だった。

ヴィージュアルの最高経営責任者(CEO)兼共同創業者のマキシム・パテ氏は、大手小売業者がデータの使用に対して多額の支払いや同社の株式を要求したケースもあったが、最終的にはそうした取引は成立しなかったと述べた。

PatentPal は、法律事務所による特許出願書類の作成を支援する生成 AI スタートアップです。最高経営責任者兼創業者のジャック・シュー氏は、同社は公開されている特許出願書類を使ってモデルを訓練したと語った。暗号化または匿名化された実際の顧客フィードバックによる継続的なトレーニングにより、ツールの精度がさらに向上する可能性があると彼は述べた。しかし、フィードバックは企業秘密などの機密性の高いデータから分離する必要があるため、プロセスは複雑です。

「初期段階のスタートアップにとって、一つはブランド認知の問題であり、もう一つは社会的認知の問題だ」と彼は語った。

同時に、プレッシャーも高まっています。ストラック・キャピタルの創業者兼マネージング・パートナーであるアダム・ストラック氏は、一部のスタートアップ企業は特定の市場セグメントに関するデータをより早く、より多く入手しようと競争していると語った。

「独占的なデータセットがあるとわかれば、他社より先にそれを手に入れ、独占権を交渉したいと思うだろう」とストラック氏は言う。「そういう意味では、ほとんど軍拡競争になる」

<<:  MetaチーフAIサイエンティストLeCun Yang氏:ChatGPTは犬ほど賢くない

>>: 

ブログ    
ブログ    
ブログ    

推薦する

よりスマートなモバイルプラットフォームを構築するため、Ant mPaaS5.0がYunqiカンファレンスで発表されました

1 11月2日、雲旗会議において、Ant FinancialはmPaaSが正式にバージョン5.0にア...

予想:2018年ワールドカップで優勝するのはどの国でしょうか?人工知能アルゴリズム分析が結果を教えてくれる

最近、世界で最も注目されているイベントはワールドカップです。現在、ロシアでは2018年ワールドカップ...

...

人工知能の終焉は人工性か?

先月外出した時、交差点の交通警察や補助警察の数が大幅に増えていることに気づきました。疑問に思わずには...

ディープラーニング、NLP、コンピュータービジョンのための 30 の優れた Python ライブラリ

[[357895]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

トップカンファレンスで新たな AI 技術が登場: リアルな 3D 顔を生成できるのは顔写真だけ

写真しかない場合、どのようにして人物のリアルなデジタルアバターを作成するのでしょうか? 2020年の...

...

...

マスク氏はテスラの完全自動運転が今年中に利用可能になると予測するが、AIの大きな変化を懸念している

同氏は、テスラは人間の介入なしの完全自動運転の実現に近づいていると述べ、完全自動運転の実用性と自動車...

業界アプリケーション: ドローンに正確な測位技術を提供するにはどうすればよいでしょうか?

背景ステータス:科学技術の発展に伴い、無人航空機であるドローンは、一定の高さから地上の映像を取得でき...

...

20年後には、すべての仕事の半分が人工知能に置き換えられるのでしょうか?これらの「高リスク産業」とは何でしょうか?

「アイ、ロボット」は蔡蔡が子供の頃に特に好きだった映画であり、今でも古びていない。子どもの頃は、映...

プログラマーに必要ないくつかの一般的なソートおよび検索アルゴリズムの概要

[[434262]]序文最近、アルゴリズムの基礎を固めるために、アルゴリズムの本にある基本的なアルゴ...

レポート予測:Appleは2020年にSiriオペレーティングシステムをリリースする

[[271210]]海外メディアの報道によると、マングローブ・キャピタル・パートナーズは今週、201...