中国AIGCデータラベリングパノラマレポート：市場規模100億、求人数100万

データラベリングは重大な再編の時期を迎えています。

ビッグモデル時代の到来により、データ中心の AI 開発モデルが最前線へと加速しており、データの価値は今日ほど十分に探求されたことはありません。

トレーニングから展開、アプリケーションまでの大規模モデルの反復、多くの垂直シナリオでの AIGC の実装、汎用インテリジェンスや具現化インテリジェンスなどの最先端分野の探究はすべて、高品質で専門的なシナリオデータと切り離せません。

基礎となる基本サービスとして、データラベリングは今日ほど注目を集めたことはありませんが、同時に機会と課題も生まれています。

データラベル付けの要件は客観的なものから主観的なものへと変化しますが、標準をどのように統一できるでしょうか?タレントのラベル付け要件にはどのような新しい変更がありますか?

大手モデル企業/AI企業が市場に殺到する中、専門データサービスプロバイダーはどのように対応すべきでしょうか?

新たな分野として、合成データにはどのような成長の可能性がありますか?

これらの疑問をきっかけに、Quantum位シンクタンクの「中国AIGCデータラベリング産業パノラマレポート」が誕生し、その答えを探ろうとしました。

このレポートでは、Quantum位 Think Tank が中国のデータラベリング業界の現状、4 つの重要な変化、3 つの影響要因、業界の発展と市場規模など、中国のデータラベリング業界の全景をさまざまな角度と方向から総合的かつ立体的に描写します。

中心となる考え方は次のとおりです。

データ注釈サービスは大規模モデルのライフサイクル全体を通じて実行され、上流と下流の協力関係はより密接に結びついています。
ビッグモデルパラダイムがデータ注釈に浸透し、自動注釈の効率がさらに向上しています。
高度な教育を受けた多分野にわたる才能は厳しい指標となり、その格差は100万人に達する可能性がある。
業界チェーンの再編により、専門的なデータサービスプロバイダーは、垂直分野での企業のプライベート展開を支援する機会が増えることになります。
チャネルの人材などの要素に依存する従来のフライホイール効果は失敗し、データ注釈は知識集約型へと移行しました。
国内市場規模は数百億に達し、合成データの成長率が最も高くなります。

ビッグモデル時代のデータアノテーション

データラベリングとは、分類、ボックス描画、注釈、ラベル付けなどの生データを処理し、機械が認識できる情報に変換するプロセスです。

国内のデータラベリングメーカーは、広くは基本データサービスプロバイダーとも呼ばれ、通常、データセットの構造/プロセス設計、データ処理、データ品質検査などのタスクを完了し、下流の顧客にトレーニングデータセットとカスタマイズされたサービスを提供する必要があります。これも本研究の主な研究対象です。

ビッグモデルの時代の到来により、データラベリングはかつてないほどの注目を集めています。

上場企業の株価が急騰し、起業企業への資金調達が加速した。

中国で唯一のAIデータ上場企業である海天瑞盛は、ChatGPTブームの影響を受け、今年2月から株価が急騰している。スタートアップ企業も資金調達で進展が見られ、代表的な企業としては、Stardust Data、Biaobei Technology、Integer Intelligence、Baichuan Data、Manfu Technology、Kaiwang Dataなどが挙げられ、いずれも新たな資金調達を受けた。

ビッグモデルデータソリューションは、ワンストップやカスタマイズサービスを中心に、さまざまな場所で開花しています。

大規模モデル開発のライフサイクル全体（事前トレーニング、教師あり微調整、RLHF、ベンチマークなどを含む）に焦点を当て、専門的なデータサービスプロバイダー、大規模モデル企業、AI企業などが関連するデータソリューションを考案してきました。

ビッグモデルパラダイムがデータアノテーションに浸透し、自動アノテーションの敷居は大幅に下がっている

「Segment Anything」に代表される画像セグメンテーションモデルはオープンソースであり、プロンプトワードを通じて画像や動画内の任意のオブジェクトをセグメンテーションすることができます。これらはあらゆる新しいタスクや新しい分野に拡張することができます。これらはCV分野では「GPT-3」モーメントと呼ばれ、画像分野での注釈閾値を大幅に低減します。

インテリジェント運転のための新しい認識パラダイム：BEV+Transformerは機会であり課題でもある

最も代表的な応用シナリオとして、インテリジェント運転は新たな認識パラダイムをもたらします——

BEV + Transformer に代表される 4 次元認識は、2D + CNN に代表される 2 次元認識ソリューションに取って代わり、シーンのラベル付けの難しさやデータ大量生産能力に対する高い要件など、データサービスプロバイダーにさらに多くの機会と課題をもたらします。

4つの重要な変更点

需要の変化: 業界のシナリオと密接に関連し、高品質のデータのニーズは長期的かつ継続的である

ビッグモデル時代の到来により、人工知能開発はモデル中心からデータ中心へと変革が加速しています。

△画像出典: データ中心のAI: 展望と課題

データ中心の製品であるため、データの量と品質によって、ビッグモデルの機能の上限が大きく決まります。特に、トレーニングプロセスの最後の 2 つの段階は、大規模モデルのパフォーマンスを直接決定します。

データを生成、書き換え、または並べ替えて、最終的に人間の基準（専門的なロジック、コアバリューなど）を満たす高品質のデータを形成する専門家が必要です。

処理フローの変化：基準は客観的から主観的へ、高学歴や複数分野が人材の明確な指標となる

データフローの観点から見ると、従来のデータラベリングはターゲットタスク指向であり、ボックスの描画、ポイントの描画、転記などの方法を通じて手動または自動で実行されます。評価基準は主に精度と効率に基づいています。

大規模モデルデータのラベリングは段階に分かれており、通常、自然言語に対する要求が高く、より多くの専門的人材の参加が必要です。ラベリングの要件は主観的であり、統一された標準を形成することは困難です。

データのラベリングは、労働集約型から知識集約型へと移行しています。

そのうち、大型モデル専用に海口市に構築された百度のデータラベリング拠点は学士取得率が100％で、1,000人の専門人材を育成した。今後 5 年間で、データラベリングに関連する専門人材の不足は数百万人に達するでしょう。

ビジネスの変化: 合成データは、巨大な潜在的市場スペースを持つ新しい派生的なトラックです

合成データは、新たな派生トラックとして、幅広い注目を集めています。いわゆる合成データは、実際のデータではなく AI によって生成されたデータであり、実際のデータの代わりに使用して大規模なモデルをトレーニング、テスト、検証できます。 OpenAIのCEO、サム・アルトマン氏はかつてこう語った。

将来的には、すべてのデータが合成データになります。

コストを削減し、効率を高めるだけでなく、より多くのエッジおよびロングテールのシナリオデータを補完し、ビッグモデル時代の「データギャップ」を効果的に解決し、データのプライバシー、セキュリティ、コンプライアンスなどの問題を自然に回避できます。

これは、データ拡張、モデル検証、説明可能な AI、自動運転、ロボット工学、バイオメディカルなどの分野で関連するアプリケーションがあります。

QuantumBit Think Tank は、合成データが将来、年間成長率が最大 45% に達し、最も急速に成長する分野になると予測しています。

サプライチェーンの変化：業界チェーンの再編、大手モデル企業/AI企業の流入

ビッグモデル企業/AI企業は独自のデータ処理パイプラインを構築し、ビッグモデルデータソリューションを外部に輸出し、産業チェーンを再編しています。

一部のメーカーはクラウドサービス機能も備えており、これをデータサービスとパッケージ化して出力することで、顧客の間で評判と信頼を効果的に構築できます。

3つの主要な影響要因：テクノロジーのフライホイール効果+シナリオ集約

技術的能力の考察

基盤となる AI サービスとして、データラベリングの本質は、下流の顧客のコスト削減と効率性の向上にあります。テクノロジーはコストを削減し、効率を高めるための最適なソリューションです。テクノロジー能力を継続的に向上させる企業は、際立つチャンスを得るでしょう。

これらには、データクローズドループツールチェーンのインテリジェンスレベル、大規模モデル/AI アルゴリズムの理解、データエンジニアリング機能、インフラストラクチャ構築などが含まれますが、これらに限定されません。

次に、シーンのリソースを確認します

シナリオリソースの機能には、主にデータと人材という 2 つの側面が含まれます。高品質のシナリオデータとシナリオの人材 (ドメインエキスパート、ディープユーザーなど)

これは、業界が長年にわたり継続的に取り組んできた努力と密接に関係しています。企業は業界のノウハウを理解しており、顧客のニーズに基づいてシナリオに最適なデータと人材リソースを迅速に見つけて活用することができます。

フライホイール効果の3つの見方

データのラベル付けには依然としてフライホイール効果があります。これまで、サービスプロバイダーは販売チャネル、人件費などの推進要因に依存してビジネスの成長を達成し、それによって市場を獲得し、評判を獲得し、新規顧客を獲得することがますます容易になりました。

今日では、テクノロジーとシナリオリソースの両方の能力によって、データ処理能力が強化され、大規模モデル注釈の経験が豊富になり、実用的なケースが増え、データ処理のスケーラビリティと柔軟性が高まります。

その結果、新しいスタートアップの参入障壁はさらに高まり、専門的なデータサービスプロバイダーは垂直シナリオにおいて企業のプライベート展開の完了を支援する機会が増えることになります。

国内基本データサービス市場規模は100億

従来、チャネルや人材などに依存してきたデータラベリング業界の低コストの優位性は再形成され、データ需要者はデータの品質、シナリオの多様性、拡張性にさらに注目するようになります。以上の理由から、Quantum位シンクタンクは、データインフラとシナリオリソースの2つの側面から国内の市場分布と現状を分析します。

象限1: 技術とシナリオの両方を備えたスター企業

この象限には 2 つの状況があります。

1つ目は、モデルレイヤー企業自体が大規模なモデル技術パラダイムとシーン実装の経験を蓄積しており、データソリューションを迅速に出力し、クラウドサービスのパッケージ出力との信頼を構築できることです。

2 番目のタイプは、主にテクノロジー主導のスター企業です。その多くはデータクローズドループツールチェーンを備えています。数年の業界経験と相まって、ビッグモデルの波の中で企業ユーザーから好まれやすい企業です。

第 2 象限: 強力な技術的サポートを備えた新しい起業家勢力。

この象限は、主に過去 2 年間に設立されたスタートアップに焦点を当てており、主に自動運転シナリオをエントリーポイントとして、AIGC やその他の分野をカバーしています。彼らは資本市場から高い評価を受けています。Kaiwang Dataを例に挙げると、同社はわずか1年半で3回の資金調達を完了しました。

第 3 象限: 小規模および中規模のチーム、自社で構築したデータパイプラインを持つ企業などが含まれます。

第4象限: シナリオ障壁がより深い業界プレーヤー

この象限は、より深い業界データ障壁を表しており、下流のユーザーに高品質のデータセットを提供したり、大規模なモデルデータ注釈チームを持つことができます。海天瑞盛を例にとると、同社はLIama2の唯一の中国パートナーであるだけでなく、超大規模な中国語マルチラウンド対話データセットDOTS-NLP-216もリリースしました。同社は810社以上の協力企業を持ち、世界の約200の主要言語と方言をカバーし、約20年にわたる深い業界経験を持っています。

Quantum位シンクタンクは、データラベリングが再編の時期を迎えており、より高品質で専門的なデータラベリングが厳格な要求となっていると考えています。

今後5年間で、国内のAI基礎データサービスは数百億規模に達し、年間複合成長率は約27％になります。

私の国で注目に値する業界を代表する上位 20 の組織は次のとおりです。

<<: Spring Boot 3.2フレームワークはほぼ完成、VMWareは利用が大幅に増加したと主張

>>: OpenAI CEOがGPT-5の開発中であることを明らかに