この記事では、インテリジェントな注釈の原理について説明します。人工知能が注釈の問題を解決する方法を学びます。

従来の機械学習の分野でも、今日注目されているディープラーニングの分野でも、明確なラベルや結果を持つトレーニングサンプルに基づく教師あり学習は、依然として主要なモデルトレーニング方法です。特にディープラーニングの分野では、モデルの効果を向上させるためにより多くのデータが必要になります。現在、ImageNet、COCO などの大規模な公開データセットがいくつかあります。ディープラーニングを初めて学ぶ人にとって、これらの公開データセットは非常に役立ちます。しかし、特に医療用画像処理、自動運転、工業品質検査などの分野のほとんどのエンタープライズ開発者にとっては、専門分野の実際のビジネスデータを使用して AI モデルアプリケーションをカスタマイズし、ビジネスでより適切に適用できるようにする必要があります。そのため、ビジネスシナリオデータの収集とラベル付けも、実際の AI モデル開発プロセスにおいて不可欠かつ重要なステップとなります。

データ注釈の品質と規模は、通常、AI モデルの適用効果を向上させる上で重要な要素です。ただし、注釈担当者のトレーニングと手動注釈にはコストと時間がかかります。そのため、完全に手動のデータ注釈によって高品質で大規模な専門分野のデータセットを確立することは容易ではありません。この問題を解決するには、アクティブラーニング手法を使用し、データラベル付けに「ヒューマンインザループ」インタラクティブフレームワーク (図 1) を採用して、手動によるデータラベル付けの量を効果的に削減することができます。

図1. 能動学習に基づく「人間参加型」インタラクティブデータアノテーションフレームワーク

アクティブラーニング (AL) は、非常に有益なデータを選択するための効果的な方法です。データ注釈付けプロセスを、学習アルゴリズムとユーザー間のインタラクションとして表現します。その中で、アルゴリズムは AI モデルのトレーニングにとってより価値のあるサンプルを選択する役割を担い、ユーザーは選択されたサンプルにラベルを付けます。たとえば、「Human-in-the-loop」インタラクティブデータラベリングフレームワークは、ユーザーがラベル付けしたデータの一部を使用して AI モデルをトレーニングし、このモデルを使用して残りのデータにラベルを付け、次に AI モデルが手動でラベル付けするのが難しいデータを選択し、このデータを使用してモデルを最適化します。数回のラウンドを経て、データラベル付けに使用される AI モデルの精度が向上し、データラベル付けの品質が向上します。画像分類問題を例にとると、まず、画像データの一部を手動で選択してラベル付けし、初期モデルをトレーニングします。次に、トレーニングしたモデルを使用して、残りのラベルなしデータを予測します。次に、「アクティブラーニング」の「クエリ方式」を使用して、モデルが区別するのが難しいカテゴリのデータを選択します。次に、これらの「難しい」データのラベルを手動で修正し、トレーニングセットに追加して、トレーニングモデルを再度微調整します。「クエリ方法」はアクティブラーニングの中核の一つです。最も一般的な「クエリ方法」は、不確実性ベースのサンプルクエリ戦略と多様性ベースのサンプルクエリ戦略です。

不確実性ベースのサンプルクエリ戦略では、ディープラーニングモデルが予測するときに、決定境界に近いサンプルをクエリできます。バイナリ分類問題を例にとると、ラベルのないサンプルが任意のラベルとして予測される確率が 50% の場合、サンプルは予測モデルにとって「不確実」であり、誤分類される可能性が非常に高くなります。アクティブラーニングは反復的なプロセスであることに注意してください。各反復で、モデルは修正されたラベル付きデータを受け取り、モデルを微調整します。このプロセスにより、モデルの決定の境界が直接変更され、分類の精度が向上します。

多様性に基づくクエリ戦略は、現在のディープラーニングモデルの下で、状態が不明なサンプルのクエリを実現できます。多様性クエリを通じて選択されたデータをトレーニングセットに追加すると、トレーニングセットの機能の組み合わせが強化され、モデルの一般化能力が向上します。モデルによって学習されるデータの特徴が豊富であればあるほど、その一般化能力は強くなり、予測モデルの適用可能なシナリオは広くなります。

大量のデータのラベル付けの問題点を解決するために、アクティブラーニングに基づき、さまざまなクエリ戦略を統合したインテリジェントなラベル付け AI ソリューションが誕生しました。 EasyDL プラットフォームでスマートラベリングを使用すると、開発者はデータセット内の約 30% のデータにラベルを付けるだけで済みます。その後、スマートラベリングを開始して、残りのデータを EasyDL バックグラウンドで自動的にラベル付けし、バックグラウンドで判別しにくい少量のデータを再度手動でラベル付けすることで、自動ラベリングの精度が向上します。数回の試行を経て、実際のプロジェクトテストでは、スマートラベリング機能により、ユーザーはデータラベリングの量を 70% 節約でき、データラベリングの人件費と時間コストを大幅に削減できます。

EasyDLは、企業の開発者にインテリジェントなラベリング、モデルのトレーニング、サービスの展開などのフルプロセス機能を提供するゼロスレッショルドAI開発プラットフォームであり、AIモデル開発プロセスにおける複雑なタスクに便利で効率的なプラットフォームソリューションを提供します。 EasyDL は、さまざまなユーザーグループ向けに、クラシックエディション、プロフェッショナルエディション、インダストリーエディションの 3 つの製品形式を提供しています。その中で、EasyDL プロフェッショナルエディションは、高精度のビジネスモデルの詳細な開発をサポートし、豊富な大規模な事前トレーニング済みモデルを内蔵しており、少量のデータで優れたモデル効果を実現できます。現在、EasyDL のインテリジェントラベリング機能は、コンピュータービジョン (CV) 方向のオブジェクト検出モデルと自然言語処理 (NLP) 方向のテキスト分類モデルという 2 つの主要な方向でのデータラベリングをすでにサポートしています。 EasyDL Professional Edition モデルのカスタマイズを選択し、「スマートラベリング」をクリックして入力します。使い方も非常に簡単で、次の 3 つのステップがあります。

ステップ1 スマートラベリングを開始する

「データ管理/アノテーション」でトレーニングデータセットをアップロードした後、「スマートアノテーションタスクの作成」ボタンをアクティブにすることができます (図 2)。ボタンをクリックした後、データセットの選択を入力します。システムは選択したデータセットを自動的に検証することに注意してください。検証ルールは次のとおりです。

画像データセット: 各ラベルに 10 個以上の注釈ボックスがあることを確認します。

テキストデータセット: データセット内のラベル付きデータの量が 600 を超え、ラベル付きラベルごとのデータの量が 50 を超え、ラベルなしデータの量が 600 を超えています。

上記の画像データセットとテキストデータセットが異なる検証ルールを採用している理由は、実際のシナリオでは、テキストデータセットと画像データセットの取得方法とデータ規模が大きく異なり、インテリジェントラベリングバックエンドAIモデルをトレーニングするための開始サンプル数も異なるためです。

「スマートラベリングを開始」をクリックすると、データ検証段階に入ります。検証が失敗した場合は、「スマートラベリングの起動に失敗しました」というプロンプトが表示されます。検証が成功した場合は、データスクリーニング段階に入り、ユーザーはしばらく待つ必要があります。

図2 インテリジェントな注釈タスクの作成

ステップ2: データをマークする

システムは、ラベル付けされていないデータセットから最も代表的なサンプルデータを自動的にフィルタリングします。このデータセットは、最初にラベル付けする必要があるデータでもあります。ユーザーは、これらの推奨サンプルデータに手動でラベルを付ける必要があります。ラベル付けの効率を向上させるために、システムは、ユーザーが変更して確認できるように事前ラベル付けも提供します。画像インテリジェント注釈では、ユーザーは右上隅の「事前注釈を表示」をチェックして補助機能をオンにし（図3）、「事前注釈結果に満足」をクリックして事前注釈の結果を確認します。テキストインテリジェント注釈では、システムが自動的に事前注釈ラベルを表示し、各テキストの右側にある「確認」をクリックするか、右上隅の「このページのすべてを確認」をクリックして事前注釈を確認します（図4）。

すべての推奨データの事前ラベル付けを確認した後、ユーザーは次のデータスクリーニングに進むかどうかを選択できます。画像インテリジェント注釈では、ユーザーがインテリジェント注釈を終了しない場合、システムは自動的に次のラウンドに進みます。テキストインテリジェント注釈では、テキストデータセットの規模が一般的に大きく、データの事前注釈を確認するための人件費が高いため、ユーザーエクスペリエンスを向上させるために、システムはデフォルトで次の反復ラウンドに進みません。ユーザーは、右上隅の「インテリジェント注釈結果の最適化」をクリックして、次のスクリーニングラウンドに進むことができます（図5）。複数回のスクリーニングを通じて、データの事前ラベル付けの精度は向上し続けます。インテリジェントなデータラベリングを確実に行うには、ユーザーが少なくとも 1 ラウンドのデータスクリーニングを実行するか、「インテリジェントなラベリングを最適化」することをお勧めします。

図3 画像インテリジェント注釈

図4 テキストインテリジェント注釈

図5 テキストインテリジェントアノテーションがデータスクリーニング最適化反復に入る

ステップ3 スマートラベリングを終了する

ユーザーが現在の推奨データの事前ラベル付けが十分に正確であり、次のラウンドのデータラベル付け推奨スクリーニングを実行する必要がないと感じた場合、またはシステムが現在のラベル付けされたデータで十分であると自動的に判断した場合、インテリジェントなラベル付けフェーズは終了します。画像インテリジェントラベリングでは、システムからプロンプトが表示されます (図 6)。「ワンクリックラベリング」を選択すると、システムは残りのラベルなしデータに自動的にラベルを付けます。「今すぐトレーニング」を選択すると、インテリジェントラベリングは停止します。その後、確認されたラベル付きデータを使用してモデルをトレーニングできます。テキストインテリジェントラベリングでは、「ラベリング結果の最適化」を選択しないと、インテリジェントラベリングは停止します。システムはすべてのラベルなしデータに自動的にラベルを付け、「ラベル付きインテリジェント」データセットとして分類します。このタイプのデータと「ラベル付き手動」データは、モデルのトレーニングに使用できます。

図6 画像のインテリジェント注釈の終了

図7 EasyDLインテリジェントアノテーションの使用フローチャート

インテリジェントなラベリング機能のサポートにより、反復的で退屈なラベリング機能が AI モデルに引き継がれ、時間と労力のコストが大幅に削減されます。データ面では、EasyDL の EasyData インテリジェントデータサービスプラットフォームは、収集、クリーニング、ラベル付け、処理などをカバーするワンストップのデータ処理機能を提供し、モデルトレーニングリンクとシームレスに接続し、データクローズドループ機能を通じて効率的なモデル反復をサポートします。

Baidu で「EasyDL」を検索するか、直接 https://ai.baidu.com/easydl/ にアクセスして、インテリジェントなラベリングを体験し、高精度のビジネスモデルを開発してください。

<<: AIが製造業に力を与え、PowerLeader Serverは製品、サービス、生産に焦点を当てる

>>: 860万の超軽量中国語と英語のOCRモデルをオープンソース化し、ワンストップでトレーニングと展開が可能