画像解析アプリケーション向けの大規模サンプルフィルタリングソリューション

画像解析アプリケーションでは、大量の画像サンプルを効果的かつ自動的にフィルタリングすることが重要な基本タスクです。本稿では、有効な画像サンプルを自動的に抽出し、手動によるラベル付けの作業負荷を大幅に削減できる、複数のアルゴリズムフィルタリングに基づく処理ソリューションを紹介します。

背景と問題の説明

ディープラーニング技術は、コンピュータービジョンの分野で大きな成功を収めています。その画期的な出来事の 1 つは、Imagenet コンテストでコンピューターアルゴリズムが物体認識の精度で人間を上回ったことです。学術界では革新的な成果が爆発的に生まれている一方、大手企業もディープラーニング技術を活用し、画像解析に関わる人工知能関連製品やアプリケーションシステムを多数発表しています。これらの成果で採用された技術的ルートの多くは、大量のラベル付きサンプルデータを使用して、ディープニューラルネットワーク上の対応する認識モデルまたは検出モデルをトレーニングします。エンタープライズアルゴリズムアプリケーションに関しては、アルゴリズムの有効性を向上させるために、実際のアプリケーションシナリオに基づいて独自のトレーニングサンプルセットを構築することが必要になることがよくあります。ディープラーニングが普及している今日、大量の高品質なラベル付きサンプルを取得できることは、効率的なアプリケーションアルゴリズムシステムを構築するための重要な前提条件です。一方、従来のアルゴリズムと比較すると、ディープラーニングの優れた特徴の 1 つは、提供されるトレーニングサンプルが多いほど、アルゴリズムの精度が高くなることです。一方、教師なしディープラーニングアルゴリズムも学術分野でかなりの進歩を遂げていますが、現時点では、特にエンタープライズレベルのアプリケーションでは、教師ありディープラーニングアルゴリズムが依然として主流です。

画像認識アルゴリズムを適用するには、通常、さまざまなカテゴリのオブジェクトの十分な数のサンプル画像を取得する必要があります。サンプルの基本的なソースは 4 つあります。

関連するオブジェクトをその場で撮影します。この方法は比較的非効率的であり、ターゲット検出など、カテゴリが少なく、カテゴリごとに大量の高品質のサンプルが必要な状況に適しています。
識別対象が商品の場合、そのメイン画像を使用できますが、商品のメイン画像は加工されており、比較的単純なため、実際のシーンと一致しません。
テキスト検索やさまざまな Web サイトでのマッチングを通じて、関連するオンライン画像を取得します。この方法では、多数の画像サンプルを取得できます。
サンプル画像は、近年急速に発展している敵対的生成ネットワーク (GAN) などの画像生成によって取得されます。このタイプの方法は非常に有望な将来性を持っていますが、多数の異なるカテゴリに対する効果はまだ改善が必要です。

図1 さまざまなチャネルから取得した製品画像サンプルの例: a ポーズ写真、b メイン写真、c オンライン画像

現在、ネットワーク画像を取得する 3 番目の方法は、一般的に使用されているサンプル収集スキームです。

インターネットからの画像サンプルの大きな問題は、ノイズが非常に多いことです。キーワード検索を使用して候補画像セットを取得すると、無関係な画像がその大部分を占め、そのソースは比較的ランダムです。電子商取引 Web サイトの注文写真を候補画像セットとして使用すると、請求書、外装、チャット記録などの無関係な画像や、上面図やクローズアップ図などの非準拠画像も多数含まれます。したがって、取得した画像セットをフィルタリングして、ノイズの多い画像を除外する必要があります。このタイプのフィルタリングは、手動で実行すると実際の要件を満たすには非効率すぎるため、主に自動アルゴリズムスクリーニングを通じて実装し、手動検証で補完する必要があります。この問題に対処するために、この記事では多重処理に基づく実用的な画像サンプルフィルタリング方法を紹介します。

アイデアと技術的なステップ

ネットワークを介して直接取得された画像サンプルセットは、一般的に次のような特徴を持ちます。

ノイズ画像は、繰り返し画像と非常に類似した画像、一般的なノイズ画像、不規則で乱雑なノイズ画像に分類でき、それぞれが一定の割合を占めています。
ターゲットサンプル画像も一定の割合を占めており、クラス内類似度はノイズ画像よりも高くなっています。

上記の問題の特徴を参考にすると、いくつかの的を絞った解決策が得られます。

大量の複雑なノイズデータについては、複数の処理方法を使用して徐々に除去します。ノイズデータの種類は非常に多様であり、単一の方法でそれらすべてを除外することは困難です。特性に応じて粗いスクリーニングと細かいスクリーニングを複数回実行し、さまざまな種類のノイズデータをバッチごとに処理することで、各リンクの技術的リスクを軽減し、各リンクの有効性を確保できます。
ターゲットはサンプル空間内でより集中的に分散されているため、選択されたサンプルセットに対して教師なしクラスタリングを実行すると、ターゲットサンプルはよりコンパクトなクラスターに集中します。ノイズ画像の無秩序さや混沌に比べ、対象サンプル自体のクラス内ギャップは比較的小さく、これは大量の実データを観察することで確認できます。
特定のサンプルの場合、分類子によって返されるカテゴリの信頼度は、サンプルとカテゴリの関連性の尺度として使用できます。通常のクラスタリングアルゴリズムでは、サンプルポイントとそのクラスター間の相関関係を簡単に定量化できず、より正確なサンプルスクリーニングを実行することができません。対照的に、分類器を使用して取得されたカテゴリの信頼性は、残りのノイズサンプルを微調整するための適切な関連性の尺度として使用できます。

図2 技術ソリューションの概要

上記のソリューションのアイデアに基づいて、マルチフィルタリング技術ソリューションが設計され、その具体的なプロセスは次のステップに分けられます (図 2 を参照)。

画像の重複排除: 重複した画像や非常に類似した画像を削除します。
一般的なノイズ画像のフィルタリング: 顔、荷物、請求書など、無関係な一般的なタイプのノイズ画像をフィルタリングします。
クラスタリングベースのサンプル選択: 深層特徴空間でクラスタリングを実行し、適切なクラスターをターゲットサンプルとして選択し、その他のクラスターはノイズ画像として除去します。
分類ベースのサンプルスクリーニング: 分類子によって返された信頼性を使用して、対応するカテゴリに対するサンプルの関連性を評価し、サンプルをさらにスクリーニングします。

詳しい紹介

画像の重複除去と一般的なノイズ画像のフィルタリング

サンプルセットに重複した画像や非常に類似した画像が多数含まれている場合、さまざまな方法で削除できます。画像のヒストグラム特徴ベクトルを抽出し、特徴ベクトル間の類似性を使用して重複を削除します。または、ハッシュテーブルを作成し、画像の単純な色とテクスチャの特徴を抽出し、特徴を定量化して、ハッシュテーブルを使用してクエリを実行します。見つかった画像は重複した画像または非常に類似した画像であり、見つからない画像はテーブルに追加されます。前者の方法は小さな差異に対してより優れたパフォーマンスを発揮しますが、後者の方法には計算パフォーマンスの大きな利点があります。

選択されるサンプルセットには、顔、段ボールのパッケージ、請求書、チャットの記録、製品または店舗のロゴ画像など、一般的なノイズ画像パターンが比較的高い割合で含まれることがよくあります。これらの一般的なノイズ画像については、まず HOG 特徴が抽出され、次に事前トレーニング済みの SVM 分類器を使用して分類されます。精度を確保するために、1vN SVM 分類器はそれぞれ異なるタイプのノイズ画像に対してトレーニングされます。画像が何らかのタイプのノイズ画像として識別される限り、その画像は除外されます。

上記の 2 つの手順では、画像の単純な特徴のみを利用し、サンプルセット内の重複画像と一般的なノイズ画像のみを削除できます。より複雑なノイズ画像パターンの場合は、より効果的な画像特徴を使用する必要があり、複雑なカテゴリのマイニングには教師なしクラスタリングを使用する必要があります。

クラスタリングに基づくサンプル選択

画像に含まれる豊富な情報を活用して画像をクラスタリングするには、まず、より豊富な画像の特徴を抽出する必要があります。したがって、ディープネットワークモデルを使用して画像の特徴を抽出することができます。得られた特徴は、共通の基本的な画像の特徴を組み合わせ、より高次の画像の意味情報を含み、より強力な表現能力を備えています。ここでは、Imagenet データセットでトレーニングされたネットワークモデルを使用し、既存のサンプルセットを使用して微調整することで、モデルの特定のカテゴリを表現する能力を強化します。ここで、画像サンプルの場合、ディープネットワークによって取得される特徴は 1024 次元のベクトルであり、これは PCA を通じてさらに 256 次元の特徴ベクトルに削減されます。このように、画像サンプルセットは特徴データ空間を構成します。

次に、密度ベースのクラスタリングアルゴリズムを使用して、次元削減後のフィーチャデータ空間でクラスタリングを実行します。このアルゴリズムの最も顕著な特徴は、新しいクラスター中心選択方法を使用していることです。その基準は次のように説明できます。

クラスター中心付近の点密度は非常に大きく、その密度は隣接するどの点の密度よりも高くなります。
クラスターの中心とポイント密度の高いデータポイント間の距離は比較的大きくなります。

適切なクラスターセンターを選択した後、各データポイントはそれに最も近いクラスターに分類され、各ポイントは対応するクラスターセンターからの距離に応じてコアデータポイントとエッジデータポイントに分割されます。

クラスタリングアルゴリズムは、シンプルなアイデア、高い効率、さまざまなシナリオに対する優れた堅牢性を備えています。

得られたクラスタリング結果において、さらに密度が大きく半径がコンパクトなクラスタが選択され、その中のサンプルが選択対象となるサンプルデータとして使用され、他のクラスタに対応するサンプルはノイズサンプルとして除外されます。

分類に基づくサンプルスクリーニング

上記のクラスタリングによって得られたターゲットサンプルには、さらにスクリーニングが必要な無関係なサンプルが少数含まれている可能性があります。ここでは、分類器の信頼度を使用してサンプルのカテゴリ関連性を評価し、属するカテゴリに無関係または関連性が弱いサンプルをさらに削除できます。

具体的な方法は、対象サンプルからランダムに数サンプルを復元抽出し、新しいカテゴリでラベル付けして新しいトレーニングサンプルとし、既存の畳み込みニューラルネットワークモデルを微調整します。この畳み込みニューラルネットワークモデルは、特徴抽出に使用したネットワークモデルとは異なる必要があります（モデル構造とトレーニングデータの両方が異なります）。この新しいモデルを使用して、ターゲットサンプルが識別され、そのカテゴリの信頼性が得られます。サンプルのカテゴリ内での信頼性が非常に低い場合、そのサンプルは無関係なサンプルとして除外されます。

上記のスクリーニング後、最終的なターゲットサンプルは、簡単な手動検証を経て、トレーニングおよびテスト用の高品質サンプルセットとして使用できます。

アプリケーション効果

アルゴリズムのスクリーニング結果は、インターネットから取得した数万のカテゴリの約 500 万枚のサンプル画像を処理して手動で検証されました。最終的なターゲットサンプルの全体的なカテゴリ関連性は 95% であり、より人気のあるカテゴリの場合、サンプル関連性は 99% を超えることがあります。全体的な効率は、手動スクリーニングよりも 100 倍以上高くなります。図3の左側はスクリーニングによって得られたターゲットサンプルを示し、右側はスクリーニングによって除去されたノイズ画像を示しています。

図3 サンプル画像スクリーニング結果の例

Suningの「Intelligent Visual Graph」は、社内外の関連ビジネスシナリオにアプリケーションアルゴリズムサービスを提供することを目的とした、画像とビデオ関連の総合アルゴリズムプラットフォームです。現在提供されているアルゴリズムインターフェースには、商品認識、顔特徴分析と顔認証、ロゴ検出、感性画像分析、広告感性語分析、画像切り抜きなどがあり、それぞれ商品内容認識、顔認識、ターゲット検出、感性画像認識、OCRアルゴリズム、画像分割と切り抜きなどのアルゴリズム分野に関係しています。プラットフォームがサポートするアルゴリズムサービスはまだ増加しており、既存のアルゴリズムの効果と性能も、さまざまな実際のアプリケーションシナリオのニーズを満たすために継続的に最適化されています。その中でも、認識に関連する多くのアルゴリズムサービスでは、高精度の分類器をトレーニングするために十分なサンプルデータを使用する必要があります。上記の技術ソリューションは、製品画像認識、高感度画像認識、ロゴ認識などのアプリケーションアルゴリズムのサンプルスクリーニングに広く使用されており、開発効率が大幅に向上し、人件費が節約され、効率的なアルゴリズムモデルのトレーニングに信頼性の高いデータ保証が提供されました。商品画像認識アルゴリズムを例にとると、上記のサンプル収集とフィルタリング方法を使用して高レベルの実画像サンプルを取得し、ResNetモデルをアーキテクチャとして使用して高精度の商品認識モデルをトレーニングします。これに基づいて、すべてのカテゴリの商品を対象とした画像検索システムが構築され、商品タイプの認識、外観に基づく商品の推奨、商品画像の検索、外観の類似性に基づく商品のマッチングなど、実際のビジネスシナリオで広く使用されています。

要約する

エンタープライズレベルのディープラーニング画像アプリケーションでは、大量の高品質画像サンプルを取得することが、優れたアルゴリズムパフォーマンスを実現するための重要な前提条件です。エンジニアリングの実践では、画像サンプルが著しく不足している場合、サンプルに対してデータ拡張を実行するだけで、テストセットの結果を数パーセント向上させることができます。より豊富で実際のサンプルデータを追加できれば、対応するカテゴリの認識率がすぐに向上し、一般化のパフォーマンスが非常に良好になり、さまざまな実際のシナリオのテストに耐えることができます。そのため、サンプルエンジニアリング（画像サンプルの取得と選択）は無視できない重要な作業であり、長期間にわたって実行する必要があります。しかし、「画像をクロールするのは簡単だが、その中から選択するのは難しい」。膨大なサンプルデータが蓄積されても、効果的な処理方法やラベリングの人手不足により、選択することが難しい。これも、よく遭遇するデータのジレンマです。

本論文では、主にこの問題に対する実用的な解決策を紹介します。結果は、多重フィルタリングアプローチを採用し、プライマリ特徴やディープ特徴などの特徴表現と、教師なしクラスタリングやディープ分類器などの分類手法を最大限に活用することで、複雑なネットワーク画像から高品質のターゲットサンプルを効果的に抽出できることを示しています。さらに、ディープラーニングの分野では、新たな研究成果が絶えず達成されていることもわかります。その中でも、教師なしディープラーニングは人間の認知習慣にもっと沿っており、サンプルの品質に対する厳しい要件もありません。この分野における理論と技術の急速な発展は、企業のディープラーニングアプリケーションのより明るい未来を意味します。

主な参考文献:

1. 密度ピークの高速検索と発見によるクラスタリング、Science、2014、344(6191):1492-6、Alex Rodriguez および Alessandro Laio、。

2. インターネットからの視覚的知識の抽出、Y Yao、J Zhang、XS Hua、F Shen、Z Tang。

3. 畳み込みをさらに深く考える[J]。arXiv プレプリント arXiv:1409.4842、2014、Szegedy C、Liu W、Jia Y、et al。

4. 画像認識のための深層残差学習、コンピュータビジョンおよびパターン認識、2015:770-778、K He、X Zhang、S Ren、J Sun。

<<: 機械学習を始めるときによくある5つの間違い

>>: アンサンブル法からニューラルネットワークまで：自動運転技術で使用される機械学習アルゴリズムとは？