AIデータサービス業界は「認知戦争」に突入。なぜYunce Dataは業界No.1の座を維持しているのか?

AIデータサービス業界は「認知戦争」に突入。なぜYunce Dataは業界No.1の座を維持しているのか?

新しいインフラストラクチャにより、AI の実装が加速され、その背後にある「糧」である AI データ ラベリング業界も急速に発展しました。

先日、今年最初の国内の国際経済貿易の主要イベントである中国国際サービス貿易交易会の成果発表会で、データラベリング分野の大手企業であるYunce Dataが初めて成果を披露しました。同社のデータプロジェクトの最高納品精度は99.99%に達しました。

AI製品の実装レベルを決定するこの分野で、99.99%の精度は業界の新記録を樹立しました。実際のAIプロジェクトのニーズに応じて、AI顧客が選択できるサービス基準は新しい時代に入りました。

実際、人工知能のシナリオが多様化するにつれて、AI データの品質に対するより高い基準が AI に対する厳格な要求となっています。今回のサービス見本市では、大手データラベリング会社が示した結果の99.99%も、業界のハイレベルな進化の変化を暗示しています。最も顕著なのは「労働集約型」というラベルで、これは完全に剥がれる可能性があります。

高精度によりデータのラベル付けが「差別化」されるのでしょうか?

AIデータラベリング業界は、人工知能チェーンの中で最も「手動」の部分です。初期の敷居が低かったため、市場には大小さまざまな企業やスタジオが存在し、良いものも悪いものも混在していました。

しかし現在、この状況は変化しつつあり、AIデータサービス業界はAI業界のニーズに合わせて適者生存のプロセスを経ていることがわかりました。業界をリードする企業が最高のプロジェクトデリバリー精度を「トップ」レベルにまで引き上げた現在、マシュー効果は顕著となり、差別化の傾向がより顕著になっています。

1. 表面的には均質なサービスだが、データの精度はデータアノテーション企業が「差別化された認識」を獲得することを促進する。

これまで長い間、AI企業は自社のプロジェクトニーズに基づいてデータラベリングサービスプロバイダーを選択することがほとんどであり、AIデータ業界には厳格なルールはあまりありませんでした。これまでのデータラベリングは「差別化認識」が欠如した業界だったといえます。A社とB社をどう区別するかという明確な基準がありませんでした。

大手企業が自社の視点で初めて業界標準を標準化し、最大99.99%のデータラベリング精度を公式に発表することは、実際に業界にとって実現可能な認知標準を設定することであり、このようなAIデータだけが高品質なデータです。

この時点で、AI エンタープライズ顧客と業界の専門家はどちらも、認知の観点から企業を単にひとまとめにするのではなく、精度を使用してデータ ラベリング業界の企業を区別することができます。

これはもちろん、99.99% という精度が、92%、95%、98% といった他の数字と比べて画期的であるという事実から来ています。

これは、AIによる長年の発展を経て、データラベリング業界が成熟し始め、主要プレーヤーがますます強力になり、業界の有利なリソースとテクノロジーが効果的に集められ、100%に向かって進んでいることをある程度示しています。99.99%は、人工知能時代の到来を加速させるマイルストーンのようなものです。

2. 高精度を活用してAIの開発ニーズを満たすことで、データアノテーション企業は「差別化された競争優位性」を獲得する可能性が高くなります。

一般人の「認知」の原動力を超えて、高精度データのもう一つの差別化された価値は、AI発展のニーズを満たすことです。

AIの継続的かつ徹底的な発展に伴い、シナリオ実装が技術研究に取って代わり、データアノテーションのサービス方向が「AI製品のトレーニング」から「AI製品の実装」へと移行しました。これは、AIプロジェクトの試行錯誤の空間が技術研究に比べて大幅に縮小され、ユーザーエクスペリエンスを満たすためにより高い精度が求められるようになったことを意味します。

さらに、新インフラの重要な部分であるAI新インフラは、実用化を強く志向して誕生し、主要産業のアップグレードを推進するためには、より実践に近づく必要があります。

データ品質がAIアルゴリズムの精度を決定し、アルゴリズムの精度が製品の品質を決定するという連想ロジックの下では、実装に重点を置くAIプロジェクトは、より積極的にデータ品質(精度)の高いサプライヤーを探すことになる。データラベリング業界は、これまで存在しなかったグラデーションを形成するだろう。最大99.99%の精度基準でクラウドテストデータを公開する大手企業は、より多くの産業顧客を引き付けるための「差別化された競争優位性」も獲得するだろう。これ以上追随する企業がいなければ、彼らは唯一の「第一層」であり続けるだろう。

PK の高精度化の後、「労働集約型」データラベル付けに対する偏見を捨てるべき時が来たのでしょうか?

労働集約型は、これまでAIデータのラベリングに対する業界の主な評価、あるいは固定観念でした。AI界における「フォックスコン」などの用語は、業界の恥ずかしい外部イメージを露呈しています。

しかし、より正確なデータラベリング結果の出現により、これらすべてが変わり始めました。

通常の即席のデータラベリングチームでも、合格ラインを超える AI データの精度を達成できる可能性があります。これは、機械的な人間の操作の自然な能力です。結局のところ、データラベリングは主に人間の労働に依存しています。しかし、精度をさらに向上させ、特に限りなく 100% に近づけるためには、さまざまなスキルのサポートにさらに頼り、高いレベルで継続的に最適化し、精度を向上させる余地を絞り出す必要があります。

データ注釈の精度が高ければ高いほど、「人的資源」から得られるサポートは少なくなり、「スキル」から得られるサポートが増えて、再び改善できるようになります(サポートサービスの品質を確保できます)。

したがって、データラベリング業界が 99.99% などの高精度の結果を達成するということは、スキル要素が人材要素を上回る可能性があることを意味し、業界はさまざまな最先端技術に支えられた「スキル集約型」の段階に入ったことになります。

この「スキル集約型」の高精度サポートには、次の 4 つの側面が含まれます。

1. 専門的人材スキル: 専門化の需要がデータアノテーション人材の質の向上を促します

専門的かつ垂直的なデータラベリングには、一般的なデータラベリングよりも多くのスキルが必要であり、特に高精度が求められる場合、単純な肉体労働では不可能になります。

1 つ目は、特殊なデータ注釈タイプです。たとえば、自動運転はクラウド測定データの主なサービス シナリオの 1 つであり、LIDAR センサーによって生成されたデータにはラベルを付ける必要があることがよくあります。一般に、車載カメラのデータ注釈は比較的「物理的」であり、指定された要素をフレーミングすることで、アルゴリズムにその要素を認識するように教えることができます。

[[343181]]

LiDAR からのデータは現実世界とはかけ離れています。

[[343182]]

現時点では、クラウド測定データは、人間がレーダーデータを処理する上で豊富な知識、スキル、経験を持つ必要があり、物理学の知識も多大に必要になる可能性があり、もはや単純な肉体労働ではありません。

2つ目は、専門分野におけるデータのラベリングです。この点における典型的な例は、金融やホームファニシングなどの垂直分野における音声およびテキストデータのアノテーションです。これらのデータアノテーションの需要は、これらの分野の第一線のビジネス担当者の需要に劣りません(専門的な語彙やロジックを含むデータにアノテーションを付けるには、ビジネスに対する深い理解が必要です)。そのため、Yunce Dataなどのプラットフォームは、金融、ホームファニシングなどの分野で「専門家」を育成しており、一部の金融機関にサービスを提供する場合でも、需要に応じて作業を実行するために、品質要件を満たすアノテーションチームを提供する必要があります。

2. 複雑なツールスキル:データアノテーション自体も何らかのデジタルアップグレードを受けている

高精度を実現するために、データラベリング担当者を組立ライン作業員から専門技能を持つ専門家に転換するほか、業務量の拡大に伴い、プロセス全体に浸透する各種デジタルツールも活用し、精度と効率性の向上を図っています。これは、厳しい市場競争に対応するためにデジタル化とインテリジェント化を進めている製造企業のようなものです。

クラウド テスト データの事例から判断すると、99.99% の精度率は多数の技術ツールによってサポートされています。

標準 API インターフェースを備えたデータ処理プラットフォームは、さまざまな主流のフォーマットをサポートし、多くの AI 企業と短時間でシームレスに接続できるため、オフラインでのインポートとエクスポートの面倒な手順が不要になります。データ生成プロセスは、テンプレート化されたタスク作成、データ収集、クリーニング、ラベル付けを通じてすべてオンラインで行われ、従来のオフライン流通で直面する可能性のある情報の損失や歪みの問題が解決されます。

さらに、Yunce Dataはルールベースの機械スクリーニング方法を導入し、手動検証プロセスの前に、マークされたコンテンツの要件に応じて関連するエラーチェックルールを導入しました。このデジタル支援により、データの精度と効率が直接向上します。

実際、ツールの機能強化は、さまざまなデータラベリングプラットフォームが常に行ってきたことであり、AI自体の開発も、データラベリング作業をサポートしてきました。 Yunce Dataなど、業界に深く根ざした企業は、近年、ツール開発に多くのリソースを投入しています。不適切な例えをすれば、これはFoxconnが工場のインテリジェントレベルを継続的に高め、大量のインテリジェントマシンを導入し、「ハイエンド製造」に向かって進んでいるようなものです。

3. 総合的な研究開発スキル:「ソリューション」出力に基づく統合的な収集と注釈

AI技術がさまざまなサブセクターに深く浸透するにつれて、企業はAIの商業化においてより高いパフォーマンスを求めるようになっています。多くの分野で、顧客企業はサービスプロバイダーに対してより多様な要求をします。このとき、データラベリング業界では「ソリューションベース」の協力モードが避けられません。Yunce Dataは、99.99%の精度を提供すると同時に、スマートシティ、スマートホーム、スマートドライビング、​​スマートファイナンスの4つのシナリオ向けの「フルチェーンAIトレーニングデータサービスソリューション」もリリースしました。

簡単に言えば、これらのソリューションは、これまでのコラボレーションの拡大と深化です。超高精度を確保するには、このプロセスに多くの専門的かつ技術的な作業が必然的に伴います。

データラベリング業界チェーンにおいて、データ収集とラベリングは切り離せないものです。華東、華北、華南にデータ配信センターとデータシナリオラボを持つ Yunce Data は、提供する 4 つのシナリオソリューションの中で、シナリオベースのデータ収集サービスに重点を置いています。

たとえば、スマート シティ データ ソリューションの重要なハイライトまたは価値は、さまざまな照明条件下での人物検出、危険行為の検出、その他のロングテール シナリオなどの「ロングテール シナリオ データ」をクライアント企業に提供することです。これらのデータには、ロングテール シナリオを継続的に強化して「スマート」カバレッジ機能 (一部の都市管理タスクの処理と統計) を強化することが必要です。

Yunce Dataが設立した「データシナリオラボ」は、シーンを復元し、ロングテールシーンの特徴を研究することで、対応するセンサーの下でシーンデータ収集作業を完了します。この動作は、データラベリング会社がスマートシティAIプロジェクトの特定のルールの下でナレッジグラフの構築を完了することと本質的に同等です。

同様に、スマートホームのシナリオでは、さまざまな複雑な音声背景の下で音声データを収集し、研究室では背景ノイズ、残響、方言、言語などの特殊な要件の下でのデータ収集を開発しています。また、スマート運転のシナリオでは、クラウドテストデータを収集して実際のシーンに近づけ、さらに車の改造やセンサーの調整を行って、スマート運転車の運転シーンを参照して必要なAIデータを収集します。

明らかに、これらの方法は「労働集約的」の範囲をはるかに超えています。

4. セキュリティスキル:データアノテーションの「ハードコア」な技術力は無視されている

AIが深化すればするほど、データ資産の重要性は増します。特にAIデータがより立体的かつ豊かになり、その精度が新たなレベルに達すると、AIデータの価値は高まり、顧客企業にとってデータセキュリティはより一層切実なニーズとなります。

データラベリング業界の進化から判断すると、セキュリティの重視により、多くのデータラベリング企業がデータセキュリティ維持において少なくとも注目すべき技術的努力を行っており、テクノロジー企業と呼ばれる他の大手企業に劣っていません。

現実には、Yunce Data のような大手企業は、業界で最も専門的な専任チームを抱えていても、高品質のデータを保証し、効率的な運用効率を実現し、さらには業界の標準化された発展を継続的に導くことができます。これらのステータス、価値、または利点も、データのプライバシーとセキュリティの原則に基づいています。

データの精度が高くなるほど、Yunce Data のような企業はデータのプライバシーとセキュリティの保護を重視するようになります。近年、Yunce Dataはプロセスと作業方法の厳格な管理に加えて、データ分離や品質保証などの一連のデータセキュリティ技術も開発しており、これもデータラベリング会社の「テクノロジー」ラベルをより顕著にしています。

Testin Cloud TestingのCMOである張鵬飛氏も、「現時点では、AIデータ業界にはセキュリティやプライバシーなどに関する統一基準がありません。しかし、長期的な視点から見ると、当社は業界に貢献し、プライバシーとセキュリティ保護の観点からデータ品質のベンチマークを設定するために懸命に取り組んでいます。この責任ある姿勢で顧客にサービスを提供することによってのみ、私たちの業界は『良貨が悪貨を追い出す』ことができ、人工知能を真に新たな技術革命に導き、社会全体と人類の進歩を変えることができるのです」と強調しました。

結論

99.99%のAIデータ精度は、Yunce Dataが蓄積してきた技術力とサービス能力の成果であると同時に、業界が一定のレベルまで発展し、より高い段階に飛躍していることの証でもあります。

さらに、精度を 100% に近づけようとする各社の動きは、本質的にはデータ ラベリング業界が「労働集約型」の開発段階から「スキル集約型」の開発段階に移行していることを意味しており、これは精度と同様に重要な業界開発のマイルストーンです。データのラベリングは、最終的には古い偏見のラベルを剥がし、AI と並んでハイテク サービス産業の仲間入りを果たすことになるでしょう。

<<:  この肖像生成AIは、簡単なスケッチから1秒で本物の顔を生成できる

>>:  人工ニューラル ネットワーク入門 - コンピューターは学習できるか?

推薦する

Volcano Engine は Deepin Technology が業界初の 3D 分子事前トレーニング モデル Uni-Mol をリリースするのを支援します

新薬の継続的な登場により、人間の生活の質と平均寿命はある程度向上しました。医薬品設計の分野では、薬物...

...

...

AI 開発者の高額給与は魅力的すぎるでしょうか?国内の開発者がAIに変革するためのガイドをぜひご利用ください

著者注: AI関連のニュースを閲覧すると、「高給」「年収100万ドル」など、非常に魅力的な言葉が頻繁...

マイクロソフト、ヘルスケア業界がデータの価値を解き放つための新しい AI ソリューションをリリース

ヘルスケア業界とそのサービス技術が急速に発展するにつれて、大量のデータと情報が生成されます。統計レポ...

GNN の推奨システムとアプリケーション

1. GNN推奨システムの基礎となる計算能力の進化過去 20 年間にわたり、コンピューティングは進化...

...

機械学習アルゴリズムのコレクション: ベイズ学習からディープラーニングまで、それぞれの長所と短所

私たちが日常生活で使用する推奨システム、インテリジェントな画像美化アプリケーション、チャットボットな...

...

AIoTは公共交通機関をよりスマートかつ安全にします

さまざまな公共交通機関を頻繁に利用する人にとって、安全性と質の高い体験は最も重要です。人工知能やモノ...

JetBrains が 2023 年開発者レポートをリリースしました。 35年来の危機は存在するのか?最高のプログラミング言語はどれですか?

開発者の間で大きな影響力を持つ JetBrains が、毎年恒例の「開発者エコシステムの現状」レポー...

科学者たちは人間のように「考える」ことができる人工知能を開発している

[[429745]]人間のような AI を作るということは、単に人間の行動を模倣するということだけで...

2018年の人工知能の発展に関する5つの予測

2017年は人工知能技術(AI)において画期的な発展があった年でした。過去 1 年間の大きな宣伝にも...

クラウド コンピューティングの 10 年間のベテランが、ディープラーニング手法をゼロから始める

[[206505]]人工知能は現在、熱く議論されている業界であり、ディープラーニングは最もホットな、...

...