業界最高品質の AI データを作成するにはどうすればよいでしょうか?クラウドデータの成功の秘密を明かす

業界最高品質の AI データを作成するにはどうすればよいでしょうか?クラウドデータの成功の秘密を明かす

[[344160]]

AIの実装が加速する中、AIデータのラベリングは人工知能産業の実装における重要なリンクとして、業界からますます注目を集め、大きな変化を遂げています。

先日のサービス見本市で、データラベリング分野のリーディングカンパニーであるYunce Dataが初めて標準を発表しました。同社のAIデータプロジェクトの最高納品精度は99.99%に達し、業界新記録となりました。これに関して、自主メディア「曽向玲」は、AIデータラベリングは「労働集約型」の時代から「スキル集約型」の時代に入ったとコメントした。

AIデータ業界では、データの精度=合格した承認数/総数となり、極めて高い精度は、何らかの客観的な基準を満たすだけでなく、AIプロジェクト側のニーズと深く一致し、需要に基づく承認プロセスを通過する必要があることを意味します。

実際、多くの点で製造業に似ている業界である AI データラベリングにとって、より高い精度を生み出すプロセスは、製造業の「リーン生産方式」に似ています。一方がデータサービスを提供し、もう一方が物理的な製品を生産するという点を除けば、この 2 つは多くの点で開発方法が似ています。

業界大手企業の行動から判断すると、この適合には 4 つの側面が含まれます。

ビジネスプラットフォーム:複雑なAIデータの受け渡しや運用に対応するため、オンライン自動化された「組立ライン」が登場

製造業におけるリーン製造とは、まず「組立ライン」の自動化とインテリジェント化、より精密なツールや機械の導入、そして製品のリーン生産のための生産環境基盤の提供を伴います。

データのラベリングについても同様です。大規模なビジネスプラットフォームでは、複雑な AI データの引き継ぎや操作がますます実行できなくなっています。こうした背景から、オンラインで自動化された「組立ライン」が登場し始めています。

これまで、データラベリングプロセスには、特にデータのインポートとエクスポートにおいて「オフライン」の痕跡が強く残っており、ハードディスクのコピーと引き渡しの「オリジナルモード」が時々現れていました。

Yunce Data が代表する企業は、効率性と安全性を向上させ、短時間でシームレスな接続を実現するために、オンラインの「組立ライン」ビジネス プラットフォーム モデルを模索してきました。具体的には、AI企業自身のデータ処理プロセスに合わせて標準化されたAPIインターフェースのプロセス埋め込みを完了し、オンラインでデータにアクセスし、ジョブが完了したらオンラインで出力します。途中で、テンプレート化されたタスク作成と責任配置があり、さまざまな注釈タイプと方法をサポートしています。

このプロセスは、製造業に当てはめると、実際には「材料が投入され、多くの生産ラインの中から適切なものを見つけ、生産作業員を配置し、製品を出力する」というプロセスです。オンラインでは、データ ラベリングにより、データ入力、ラベリング、配信のシームレスなクラウドベースのプロセスが実現しました。

これらのうち、データラベリングにおける「リーン製造」の最も明らかな価値は、「生産ツール」の最適化である可能性があります。ツール機能の向上により、データラベリングの効率と精度が大幅に向上しました。これは、組み立てライン上の機能豊富な自動ロボットアームが企業の効率と品質を大幅に向上させるのと同じです。

Yunce Dataなどの企業が開発したツールを例にとると、現在、データアノテーションツールの価値は次の3つの側面に反映されています。

1 つ目は、顔のキーポイントを 26、54、96、206 ポイントにマークしたり、特定のタスクのキーポイントを 3 ピクセル以内に収めて追跡するなど、直接的な操作支援です。これにより、注釈者の操作がより洗練され、効率的になります。

2つ目は、特殊データに対する運用支援です。例えば、自動運転におけるライダーで形成される3D点群データは、カメラで形成される2D画像データとは異なります。ラベリングがより難しく、偏差が生じやすくなります。このとき、フュージョンラベリングツール(3D点群データと2D画像データを組み合わせて比較する)の価値が反映されます。

3つ目は、データ注釈のエラー訂正保証です。これは、「リーン生産方式」における手動品質検査前の機械の自動品質検査に似ています。データ注釈プロセス中、ツールはAIプロジェクトの要件に応じてエラーチェックルールを設定し、注釈の正確性を保証します(たとえば、高さ3メートルの物体を人体としてラベル付けするのは間違いです)。

もちろん、ツールの品質検査は補助的な方法にすぎません。データラベリングの「リーン生産」プロセスでは、手動の品質検査(抜き取り検査)も不可欠です。 Yunce Data は、ラベリング プロセスの形式化と科学化を実現しただけでなく、タスクの作成、タスクの割り当て、ラベリング フローまでのシステムを設計し、品質検査/サンプリングから最終承認までの管理プロセスも改善しました。

データ運用:AI実装の詳細なニーズに応えて、「データクラフトマンシップ」などの洗練された運用が登場

生産プロセスは「リーン生産方式」の中核要素の 1 つです。プロセスが優れているほど、製品の品質が高くなり、市場での発言力が高まります。 「組立ライン」生産環境をベースに、AI実装の需要が深まるにつれ、AIデータラベリングは「データ職人技」と呼べる同様の洗練された操作プロセスを見せ始めています。99.99%の精度そのものが「データ職人技」の結果です。

クラウドテストデータの日常業務では、より豊富なデータ注釈タイプなど、このような「データクラフト」のようなプラクティスを数多く見つけることができます。また、「線分」などの一見単純な注釈オブジェクトも、破線、曲線、ベジェ曲線などに分割されています。

さらに、製造業が継続的にプロセスの経験を蓄積し、徐々にプロセスの標準を改善してより高品質の製品を生産するのと同様に、データラベリングにも経験の蓄積のプロセスがあり、「データテクノロジー」のレベルが向上します。たとえば、業界内の似たような部品のラベリングでは、類似モデルの2本のネジを区別するために、より詳細なレベルが必要です。小売業の類似したSKUが大量にある場合は、アルゴリズムが識別できるように、ブランドやラベルなど、複数の詳細な角度からラベリングする必要があります。

一般的に、AI データに対する複雑な需要は、データ ラベリングを「データ テクノロジー」の方向に推進する直接的な理由です。

現在の AI データには 3 つの特徴があります。第一に、AI 製品の実装シナリオの複雑さにより、光の強度、撮影角度、ノイズ要件、屋内と屋外の環境など、データ シナリオの要件が多様化しています。第二に、同じ種類のデータでもサンプルの多様性が見られます。音声データだけでも、年齢、性別、アクセントなどの違いがある場合があります。第三に、同じアプリケーション ターゲットのデータは多次元です。たとえば、インテリジェント ドライビングでは、カメラ、ライダー、超音波レーダーなどのさまざまなセンサーによって生成されたデータが必要になる場合があります。

当然ながら、この文脈では、AI 開発の初期段階で完成した「データセット」を直接適用したり購入したりするアプローチは機能しません。これらのアプローチは、アルゴリズムを迅速に形にするのに役立ちますが、より多様な AI 実装のニーズをサポートすることは困難です。

したがって、「データ職人技」などの洗練された操作のためのデータラベリングの需要は、当然のことながら、単純なデータラベリングの業務範囲を超え、上流のデータ収集の重要なリンクを統合する必要があります。 Yunce Data に代表される企業は、シナリオベースのデータ収集能力を積極的に向上させていることがわかります。顧客が実装シナリオに必要な AI データを復元できるように支援し、ソースからの AI データの品質を確保することで、AI 産業化の徹底的な実装に適用しやすくなります。

おそらくこの理由から、Yunce Data は 99.99% という最高のプロジェクト納品精度を発表する一方で、実際のシナリオに適合し、より多くの業界が「AI 製品のより迅速かつ優れた実装」を実現できるようにするために、自社のサービス機能と業界の専門知識を組み合わせて、スマート シティ、スマート ホーム、スマート ドライビング、​​スマート ファイナンスの 4 つのシナリオで「AI トレーニング データ サービス ソリューション」を立ち上げました。

データ収集とラベル付けを統合したこれらのシナリオ AI データ ソリューションでは、「データ職人技」のより明らかな痕跡が見つかります。

たとえば、屋外のシーンでは、カメラは歩行者、自動車、自転車などの道路シーンのデータを大量にキャプチャしますが、スマート シティの AI アプリケーションでは、群衆の検出や緊急事態などのロングテールのシーン データを識別する必要がある場合があります。

Yunce Data のスマート シティ ソリューションでは、業界初のデータ シナリオ ラボを使用して実際のシナリオを復元および構築し、さまざまな照明条件下での人物検出や危険行動検出などのロングテール シーン データを収集します。

スマート運転でも同様のシナリオがあります。インテリジェント運転のための外部環境認識には、アルゴリズムのトレーニングに大量の実シーンデータが必要です。運転の安全性を確保するには、傘をさした歩行者や突然現れたペットなど、多くのロングテールシーンデータをカバーする必要があります。感染拡大後、マスクを着用した歩行者は、外部環境認識に必要な別のタイプの「シーンAIデータ」です。

より複雑で詳細な AI データのニーズに詳細に対応し、独自のかけがえのない AI データ取得機能を提供することで、データ ラベリングは業界でより高い地位を獲得し続けることができます。

人材育成:高度化する「データ技術」に対応するため、プロの「AIトレーナー」が登場

「リーン製造」は、「ライン」の生産基礎とより高度な生産技術を結合した後、工業労働者がその技術を実施する能力を持っているかどうかもテストします。産業の高度化の波の下で、工業労働者の質は「リーン製造」の重要な要素の1つになっています。

データラベリングへのマッピングでは、高度に洗練された「データテクノロジー」に対応するために、専門的な「AIトレーナー」が登場し始めており、それは3つの側面で現れています。

一つ目は、体系的な人材育成であり、全体的なスキルの専門性、現場知識の専門性、人材の質が向上しています。

Yunce Data を例に挙げると、Yunce Data は就職前研修だけでなく、従業員のスキル研修、機能研修、業界分野知識、責任研修、注釈コンテンツ研修、1 対 1 の継続的なコミュニケーションなどを提供し、従業員の能力を高めています。同時に、従業員の能力を評価するためのオンラインの体系的なスコアリング システムも備えています。

かつては、街頭や学校で何人かの人々を選び、写真を認識し、基本的な文法やスペルを理解できる限り作業を開始するというデータラベリングの慣行でしたが、もはや競争力はありません。

第二に、さまざまなニーズに合った「人材階層」が形成され始めました。

より複雑な製品にはより熟練した作業員が配置される「リーン生産方式」と同様に、データラベリングの分野では、データ需要に差別化が見られ、企業はある意味で「人材チーム」を育成する必要に迫られています。

医療、法律、金融、家庭など、高度に専門化された分野では、履歴書であれ自然言語処理であれ、データを正しくラベル付けして解釈するためには AI トレーナーが非常に専門的である必要があり、これはトレーニングだけでは解決できないことです。 Yunce DataはNLPの分野で、金融業界や家具業界から専門家を採用し、該当分野のデータラベリング能力を向上させています。これは、データラベリング業界が人材の出所に一定の要件を持ち始めており、もはや一般的な集団ではないことを意味します。

第三に、大量の運用の詳細と専門性が継続的に追加されます。

産業労働者は、一方では厳しい労働要件により、他方では専門的な経験を継続的に蓄積することにより、「熟練者」になります。データ注釈についても同様です。

徹底した管理の下、従来のデータラベリング業界は「混沌とした」気質を帯びており、臨時のチームは混乱した状態で大量のデータラベリング作業を完了しました。しかし、現在では、高精度という旗印の下、データサービスチームの専門能力が厳しく求められています。Yunce Dataでは、インテリジェントカスタマーサービスの単一シナリオの意図ラベル付けを10~20の主要なカテゴリと数百のサブカテゴリに分割しています(同じ意図を表現するために、アルゴリズムが直面するユーザーは異なる表現方法を持っている可能性があるため、細分化が多ければ多いほど良い)。ビジネスニーズに基づいて、さらにラベル付けを細分化することもできます。

これにより、データラベラーは会話の意図を判断する能力を向上させる必要があり、文章を一般化し、文章構造とラベルをさまざまな説明方法で再編成または拡張する必要があります (たとえば、ユーザーが単に口を滑らせたり、方言が混じったりした場合は、AI アルゴリズムが学習できるようにデータを明確にラベル付けする必要があります)。

全体的な品質の継続的な向上に基づいて、人工知能トレーナーはより多様なグラデーションを提示し、より高品質のラベリング人材が目立つようになります。

需要の相互作用:詳細なプロジェクトのニーズを満たすために、詳細な相互作用を備えた専門的なサービスモデルが登場します。

最後に、「リーン生産方式」段階の製造業では、発注側と生産側の間で綿密なコミュニケーションが伴うことが多く、需要側が生産と製造に深く関与して初めて、本来の意図に沿った製品を生産することができます。

これは実は「リーン生産方式」をサポートする専門的なサービスモデルであり、データラベリングの分野でも同様です。 AIデータの標準を明確にするために、高精度を追求するYunce Dataなどの企業は、プロジェクトマネージャーに対し、プロジェクト開始前にAIプロジェクトの関係者と要件を繰り返し伝え、業界のトレーナーと協力してラベラーに予備トレーニングを提供し、ラベリングプロセス中にリアルタイムのコミュニケーションとフィードバックを維持することを長年要求してきました。

この繰り返しのコミュニケーションには、最終的なデータ結果の精度に影響する多数の詳細が含まれます。たとえば、CV プロジェクトでは、どのような光を「強い光」としてラベル付けして定義する必要がありますか?需要者によって理解が異なる場合もあります。

データ標準の明確な伝達に加えて、データのラベル付けもより柔軟に実行できるようになりました。

典型的な例は金融のシナリオです。業界の特殊性、特にデータセキュリティに対する要求が極めて高いため、データラベリング企業は、自社の業務プロセスと深く統合された金融業界向けのAIデータサービスソリューションセットを提供するだけでなく、時には物理的な展開と運用の方法も変更する必要があります。たとえば、Yunce Dataが提供するプライベート展開とオンサイト運用サービス。このサービスモデルでは、データラベリングの「エンタープライズサービス」としての性質がより明確になります。

データのプライバシーとセキュリティに関して、Yunce Data が一連の厳格な対策を講じていることは強調する価値があります。中核原則の 1 つは、データが再利用されないことです。適格なデータが配信されると、バックアップは保存されず、関連データは破棄されます。次に、Yunce Data からデータを収集するすべてのユーザーは、データ承認契約に署名して、企業がトレーニングに使用するデータがソースから合法かつ準拠していることを保証します。同時に、Yunce Data は、データ分離や品質保証などの一連のデータ セキュリティ プロセスとテクノロジも設定しています。

つまり、AIの導入が加速したことで、AIデータのニーズはより複雑化し、もともと製造プロセスに似ていたAIデータのラベリングが業界独自の「リーン製造」プロセスに参入し、生産環境、運用基準、人材育成、サービスモデルに大きな変化がもたらされました。クラウドテストデータによってもたらされるこの変革は、AIデータの精度と品質の向上をもたらすだけでなく、データラベリング業界がAI時代の産業チェーンにおいてますます重要な役割を果たすようになります。データラベリングは情報世界の新しいインフラのようなもので、基礎がしっかり確立されて初めてAI産業の高層ビルが建設され、人工知能の到来が加速されるのです。

<<:  機械学習クラウド プラットフォームにはどのような機能が必要ですか?

>>:  新しいインフラストラクチャの何が新しいのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

人工知能によって作られた、素晴らしい美しさと能力を持つ美しいロボット

我が国初の自主開発人工知能美容ロボットも誕生しました。その皮膚は先進的なシリコンで作られており、まる...

TensorFlowに関する簡単な例

[[220444]]この記事では、TensorFlowの例をいくつか見て、テンソルテンソルまた、テン...

...

中国がテンセントやアリババなどのプラットフォーム構築に力を入れている中、日本は何をしているのでしょうか?

中国ではブロックチェーン、ニューリテール、シェアサイクルが急成長しているが、技術大国である日本は明ら...

AIが初めて量子レベルで物質を記述!自然:化学分野で最も価値のある技術の一つ

[[440047]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

動的ベンチマークDynabenchがリリースされました。Facebookは人間を使って人工知能を「尋問」したいと考えています

Facebook は、人工知能分野初の動的データ収集およびベンチマーク プラットフォームである Dy...

空飛ぶ脳?ヒントン氏のツイートは白熱した議論を引き起こした。ニューラルネットワークは鳥が飛ぶための「羽」なのか?

[[407838]]ヒントン氏はツイッターでちょっとした議論を始めた。「ニューラルネットワークを設...

敏捷性の秘密: iPCA ネットワーク パケット保存アルゴリズム

次世代ネットワークにおける「見える化」への欲求ネットワークが複雑になるにつれて、ネットワーク管理に対...

IoTとAIはビジネスの生産性を向上させる完璧なパートナーです

今日のハイテクな世界では、何百万ものデバイスが相互作用し、データを交換し、貴重な洞察を重要な行動方針...

Sora のようなモデルをトレーニングしたいですか? You YangのチームOpenDiTが80%の加速を達成

2024年初頭のキング爆弾として、ソラの出現は追いつくための新たな目標を設定しました。ヴィンセントビ...

...

2019年人工知能サバイバルガイド

「資本の冬は業界のマシュー効果と適者生存を加速させており、AI分野も例外ではありません。」Infer...

フェイフェイ・リーのチームはディープラーニングの「遊び場」を作った。AIも独自に進化しており、考えてみると恐ろしいことだ。

[[427578]]動物の知能は、環境と相互作用するにつれて、その体の形に合わせて進化します。例え...

AIは、群衆の中でディープフェイクされたのはあなただけだと認識します

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...