[51CTO.com からのオリジナル記事] 周知のとおり、画像検索はコンピューター ビジョン分野において初期から広く研究されてきた分野です。画像コンテンツを記述する方法の違いにより、一般的にはテキストベースの画像検索 (TBIR) とコンテンツベースの画像検索 (CBIR) の 2 つのカテゴリに分けられます。 2018年11月30日から12月1日まで、51CTO主催のWOTグローバル人工知能技術サミットが北京JWマリオットホテルで開催されました。 今回のサミットのテーマは人工知能です。Meili United GroupのSong Hongliang氏が「ビジュアル検索テクノロジーシステムとビジネスアプリケーション」について紹介します。 この共有は次の 3 つの部分に分かれます。
ビジュアルシェアリングの背景と現状テキストベースの画像検索方法は 1970 年代に始まりました。テキスト注釈を使用して画像の内容を説明し、画像内のオブジェクトやシーンなど、各画像の内容説明のキーワードを生成します。 この方法は、手動でのラベル付け、または画像認識技術による半自動のラベル付けのいずれかで実行できます。検索中に、システムはユーザーが指定したクエリ キーワードに対応する画像を見つけて、ユーザーに返すことができます。 この方法は実装が簡単なため、一部の中小規模の画像検索アプリケーションで今でも使用されています。 もちろん、この方法には次のような欠点もあります。
画像データの急速な増加に伴い、テキストベースの検索方法における上記の問題がますます顕著になってきています。したがって、業界では一般的に、画像情報をインデックスする最も効果的な方法は、画像コンテンツ自体に基づくべきであると考えています。 この方法は、コンピュータに画像コンテンツの表現と類似性を処理させ、そのコンピューティングの利点を最大限に活用し、検索の効率を大幅に向上させます。 しかし、コンテンツベースの検索方法にも大きな欠点があります。それは、特徴の記述と高レベルのセマンティクスの間に埋められないギャップがあるということです。 環境からの干渉が大きいため、SIFT など、干渉に対してより耐性があり、不変のローカル機能を持つ方法を選択する必要があります。同時に、このような方法では、より高い特徴次元を持つことも求められます。 近年、ディープラーニング(特に畳み込みニューラルネットワーク(CNN))に基づく自動画像特徴検索手法が広く使用されています。 検索精度を大幅に向上させることができます。さらに、PCA などの次元削減手法を使用して、大規模または大量の画像の検索タスクに適応する効率的で合理的な高速検索メカニズムを構築できます。 上の図は、コンテンツベースの画像検索の基本的なフレームワークを示しています。画像特徴ベクトルの記述を事前に作成し、画像特徴ライブラリに保存することができます。 ユーザーがクエリする画像を入力すると、同じ方法を使用してクエリする画像の特徴を抽出し、クエリ ベクトルを取得します。 次に、特定の類似度測定基準に基づいて、クエリ ベクトルと特徴ライブラリ内の各特徴間の類似度が計算されます。最後に、類似度の大きさに応じて並べ替え、対応する画像を順番に出力します。 当社の電子商取引シナリオでは、さまざまなデータのソースは一般に次の 2 つの部分に分かれています。
これらの画像データは、容量が膨大であるだけでなく、「自然な」構造化された情報も含まれています。アップロード時に、販売者は写真に対応するカテゴリと属性を入力することで、明確なラベル付けを完了できます。 基本データ ソースを使用すると、背景画像データベースを構築して、スタイル属性の認識、OCR テキスト認識、画像機能の取得などの操作を実行できます。 これを基に、さまざまな運用活動や戦略を組み合わせることで、ユーザーが閲覧して購入できるようにフロントエンドに商品を表示できるようになります。 ご存知のとおり、被写体は撮影環境の影響を受けやすいものです。たとえば、照明の変化、スケールの変化、視点の変化、遮蔽、背景の乱雑さなどの要因は、検索結果に大きな影響を与えます。 さらに、電子商取引は次のような側面から課題に直面しています。
Mogujie ビジュアル検索技術のアーキテクチャと開発上記のデータ特性と課題に基づいて、独自のビジュアル検索テクノロジーアーキテクチャを開発しました。上の図に示すように、プロセスは次のようになります。
上記のプロセスに基づいて、さまざまなリンクを1つずつ紹介します。カテゴリ予測では、次の 3 つの方向に分けます。
画像品質評価 画像品質評価は、実際には画像の美観を認識することです。現在市場で入手可能な画像品質分析のほとんどは、主に「良好」「中」「不良」などの粗いレベルで品質等級を示します。 そのため、彼らは問題を単純に分類問題に分類し、人間の美的感覚を詳細にシミュレートして画像の品質を判断することはしませんでした。 ここでは、論文「属性とコンテンツ適応による写真美学ランキングネットワーク」のアイデアを借用し、論文に記載されている最初の 2 つのネットワーク構造を採用しました。 まず、上図の右側に示す多次元属性方向からデータを手動でラベル付けし、全体的な美観スコアを取得しました。次に、単一ブランチ回帰ネットワークと複数ブランチ回帰ネットワークの両方を使用しました。 単一回帰ネットワークは、画像の合計スコアをラベルとする回帰モデル Reg をトレーニングします。特定の画像に 11 個のスコアリング ポイントを追加することで、マルチ ブランチが構築され、スコアリング回帰ネットワーク Reg+Att に統合されます。 トレーニング中、ラベルの 11 個の属性スコアと最終スコアは、Reg によってトレーニングされた重みを Reg+Att に転送し、最終的に Reg+Att ネットワークを使用して予測を行います。 このネットワークを使用すると、データベース内の画像の美しさをスコア化し、美しさのスコアが低い画像を除外することができます。 同じ画像フィルタリング 検索結果に同一の画像が多数あると、必然的にユーザーエクスペリエンスが低下します。そのため、同じ画像をすばやくフィルタリングするために、軽量の pHash メソッドを使用します。 この方法の基本的な考え方は、各画像に対してハッシュ値を形成することです。計算プロセス全体は次のとおりです。
カテゴリ分類 カテゴリ分類の主な目的は、取得するデータの量を減らし、取得の精度を向上させることです。電子商取引のシナリオでは、「カテゴリの数」という概念があります。たとえば、衣料品、靴とバッグ、婦人服、トップス、T シャツは、カテゴリ番号の異なるブランチを構成します。 そのうち、衣料品、靴、バッグは第1レベルのカテゴリ、婦人服は第2レベルのカテゴリ、トップスは第3レベルのカテゴリ、Tシャツは第4レベルのカテゴリに該当します。上の図に示すように、上記の 10 個のカテゴリは、さまざまなカテゴリ数のデータ分布と、カテゴリに対するユーザーの認識に基づいて分類されています。基本的に、これらはシステムのすべてのリーフ カテゴリをカバーします。 上記の 10 個の水平カテゴリに加えて、その後の結果の想起における欠点を補うために、4 つの垂直カテゴリ (合計 504 個) も組み合わせました。 同時に、さまざまなタスク間の相関関係を考慮して、相互促進を通じてモデルの一般化能力を向上させるマルチタスク学習方式を採用しています。 上の図に示すように、ここでの基盤となるネットワークは ResNet18 であり、その背後にある 2 つの FC ブランチは 2 つの異なる特定のタスクに対応しています。反復を通じて、モデルの上位 1 つは、10 カテゴリのレベルで 92%、4 カテゴリのレベルで 84% に到達できます。 被写体検出 画像の場合、2 つの主流のターゲット検出方法を使用できます。
2 段階方式は RNN をベースとしているため、精度が高くなりますが、同時に、シリーズ方式であるため、計算パフォーマンスはわずかに低下します。 1 段階方式は正反対です。 2 つの方法の長所と短所を考慮して、最終的に Refinement ネットワークに基づくモデル トレーニングを採用しました。このうち、アンカー改良モジュールは Faster R-CNN の RPN に似ており、オブジェクト検出モジュールは SSD に似ています。中間では、TCB モジュールを介して特徴変換が実行され、上位層の ARM 特徴が検出モジュールにアップロードされます。 一方、TCB には、FPN のピラミッド形式に似たフォワード パス プロセスがあります。したがって、このネットワークは、RPN と後続の検出モジュールを並列に処理することと同等であり、検索パフォーマンスを保証します。 さらに、FPN の特定のシステムに接続されているため、いくつかの小さなターゲットの検出に優れた効果を発揮します。 このネットワークをベースに、いくつかの検出ターゲットも開発しました。例えば、写真に写っているトップス、パンツ、スカート、靴、バッグ、顔などを検出します。 反復的なトレーニングを通じて、最終的に MAP 0.95、K40 で 25FPS、P100 で 50 FPS を超える検索パフォーマンスを達成できます。 上記の 4 つの画像は、さまざまなシナリオでのターゲット検出の結果を示しています。最初の画像は製品検索の結果、2 番目の画像はユーザーの実際の写真、3 番目のスクリーンショットはライブ ブロードキャスト シーン、最後の画像はオフライン データの実際の測定から取得されています。 画像特徴学習 実際の電子商取引のシナリオでの画像特徴抽出のニーズに応えて、マルチビットのラベリング システムを構築しました。これらには、カテゴリ CID、SKU の色、画像パターン情報、形状情報、その他の拡張情報が含まれます。 ラベルを作成する際には、必然的に大量のデータクリーニングとソート作業を行う必要がありますが、販売者は写真をアップロードする際にすでに商品にタイトルなどの属性情報を追加しているため、これらのテキスト説明を通じて直接「自然な」ラベルを取得できます。 さらに、スタイル属性モデル、要素パターン モデル、およびいくつかのきめ細かいカラー モデルを使用して、このデータを再ラベル付けしたり検証したりすることもできます。 上記の 2 つの基盤があれば、いくつかの手動レビュー方法を組み合わせて、最終的に比較的完全なラベルを作成できます。上の画像の右側にある 2 行のテキストに示されているように、それらはそれぞれラベルの具体的な意味を表します。 ラベル付けシステムが確立されたら、データの整理を開始できます。一般的に言えば、カテゴリはできる限り詳細であるべきであり、各カテゴリのデータが多いほど良いです。 ただし、実際には、サンプルの不均衡の問題を回避するために、各タイプのデータの量を上限 20,000、下限 1,000 に設定する必要があります。したがって、ソート後、最終的に 2319 個のラベルと約 1000 万個のトレーニング サンプルが得られました。 データ ラベルとトレーニング データを使用すると、CNN ネットワークに基づく分類モデルを通じて機能をトレーニングできるようになりました。 より良い分類結果を得るために、トリプレット ネットワーク構造を導入しました。上の図に示すように、右側には 3 つのブランチがあります。中央はクエリ、上はポジティブ、下はネガティブです。 最終的に、2 つの損失を使用しました。1 つは分類損失、もう 1 つはトリプレットベースの損失です。このようにして、クラス内距離を減らし、クラス間距離を増やすことができ、それによって特徴学習の効果を高めることができます。トリプレット損失に基づく学習では、上記の 3 つのブランチの選択が重要な問題であることがわかります。 陽性サンプルの場合は同じラベルを持つサンプルを選択し、陰性サンプルの場合は異なるシフトに対応するラベルを持つ画像を選択しようとします。したがって、反復的なトレーニングを通じて、最終的な分類効果 (つまり、トップ 1) は 68% になります。 上記の基本的な特徴抽出ネットワークを使用して、どの特定の特徴を選択するかを検討する必要があります。上図に示すように、res に対応する 5a、5b、5c、および res4 の一部のレイヤー (fc レイヤーなど) から特徴を抽出しました。検証の結果、res 5a レイヤーに基づく結果が最適であると最終的に結論付けました。 res 5a レイヤーでは、GAP (Global Average Pooling) メソッドを組み合わせて機能を集約します。 GAP は主に完全接続の問題を解決するために使用されます。 上記のように、res 5a に基づいて 512×7×7 の特徴マップを処理すると、512 個の特徴を持つ 1×512 が得られます。次に、さまざまな二乗および正規化操作を実行して、最終的な検索機能を取得します。 近似最近傍探索 次に、積量子化による近傍検索を実行する必要があります。積量子化は、メモリと効率のバランスを実現する方法です。画像検索構造に十分なメモリを提供できるだけでなく、検索の品質と速度も保証できます。 中心となる考え方は、特徴をグループ化して量子化することです。つまり、特徴を M 個のグループに分割し、各グループに対して詳細な量子化を実行し、各グループの量子化中心の微積分によって最終的なコードブックを取得します。 検索プロセス中に、インデックスの構造を構築する必要があります。上の左側の図は、データベースに使用する検索構造です。入力 Y はデータベース内の画像に対応します。 粗い量子化中心の計算により、対応する反転ファイルエントリである粗い量子化 QC を取得できます。 Y と QC 間の残差ベクトルを計算することで、RY を取得できます。 次に、RY は M グループに分割され、各グループは洗練された定量化された中心に対応します。このようにして、画像を対応する粗量子化されたポスティング チェーンに追加できます。 上図の右側に示すように、画像をクエリする場合、まず粗い量子化を使用して X に対応する検索エントリを見つけ、次にその残差を計算し、既存の候補クエリ セットに基づいて残差とセット間の特定の距離を計算し、最後にソートして検索結果を取得します。 再ランク付け よりグローバルな特徴を取得するには、再ランキングを使用して画像のローカルな特徴をマイニングする必要があります。ここでは、RMAC 機能と Attention メソッドを組み合わせることでこれを実現します。 RMAC メソッドは、ウィンドウを変更することでスライディング ウィンドウを実行します。スライディング ウィンドウ プロセスは画像自体に対して実行されるのではなく、特徴マップに対して実装されます。したがって、特徴抽出の速度が保証されます。 ただし、RMAC は多くのローカル領域の特徴を抽出できますが、さまざまな領域の重要性は考慮されません。さらに、場合によっては、画像に背景領域が多く含まれ、検索効果を妨げることがあります。したがって、特徴の重要性を導き出すには、学習に地域的な注意を組み合わせる必要があります。 具体的なアプローチは上の図に示されています。以前にトレーニングされたネットワーク構造を通じて、画像の Res 次元の特徴を取得できます。次に、さまざまなスケールに基づいてローカル機能を抽出します。 これら 4 つのスケールでフィーチャを選択することで、隣接するウィンドウが 40% 重なることを確認できます。その後、2 つのブランチが存在します。
上記の RMAC 機能を組み合わせて重み付けし、ローカル機能に基づいた表現を取得します。次に、topN の結果に基づいて再ランキングを実行します。もちろん、クエリ拡張を組み合わせて検索結果をさらに改善していきます。 上図に示すように、左側は RNN ネットワークによって抽出されたグローバル特徴を示し、右側は RMAC + Attention ネットワークによって抽出されたローカル特徴を示しています。 評価セットと指標 効果を評価するために、以下の評価データを用意しました。
結果に関しては、TopN リコール結果と TopN mAP 結果という 2 つのアルゴリズム テスト指標を設定しました。 上の図は視覚検索の効果を示しています。 システムおよびビジネスアプリケーション上記はMogujieビジュアル検索のシステムアーキテクチャ図です。 4 つのレベルに分かれています。
具体的なビジネス アプリケーションは次のとおりです。 運用商品選定事業:ビジュアル検索技術を活用し、人気の衣料品などの画像をもとに、Mogujie上で該当商品を探すショッピングガイド業務。商品選択バックエンドにアクセスすることで、操作によって入力された画像に基づいて、さまざまな類似商品画像を検索します。 これらの写真には、価格、販売量、割引、棚の期間などの製品情報が添付されています。オペレーターは必要な製品を選択し、APP フロントエンドを通じてユーザーにプッシュすることで、手動による画像検索の作業負荷を回避し、運用効率を向上させます。 同商品レビュー:電子商取引の基本業務は、販売業者がアップロードした商品画像の同商品レビューを必須とし、レビュー結果に関するオンライン問い合わせを販売業者に提供します。 そのため、視覚検索技術を統合した後、認識システムを使用して同じ製品を識別し、結果データを返します。アルゴリズムの導入後、実際の業務データの測定値と組み合わせたところ、システム全体の精度は 99.06% に達し、検出漏れ率はわずか 3% であることがわかりました。 画像検索と商品購入:2017年末にアプリ版をリリースし、2018年初頭にWeChat婦人服ミニプログラムをリリースしました。この製品の全体的な状況は、1日の平均紫外線量が約50万に達する可能性があるということです。 マッチングTAB :ユーザーに様々なマッチング商品を推奨するために、既存の画像データベースに基づいて全身画像商品を検出し、ターゲット検出アルゴリズムと組み合わせました。システムは異なるブロックを区別して、類似製品の検索結果を取得します。 上図に示すように、ユーザーがホームページ上の一致する画像をクリックすると、詳細な表示情報が得られ、その後、第 3 レベルのページでさまざまなブロックの類似性推奨結果を確認できます。 Buy The Look : コンテンツ共有のシナリオでは、インフルエンサーが自分の衣服の自撮り写真を投稿します。これらの写真に基づいてターゲット検出を実行し、各ブロックで類似性検索を実装して、最終的に対応する類似製品をユーザーにプッシュします。 [51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください] |
<<: ブロックチェーンは自動運転車の開発を促進できるか? BMW、GM、フォードはいずれも
>>: 女の子があなたを好きかどうか知りたいですか?ハーバード大学の10代のAIがチャット記録に基づいて恋愛の確率を計算
ロボットの学習方法を開発する際に、大規模で多様なデータセットを統合し、強力で表現力豊かなモデル (T...
人工知能が徐々に物理セキュリティの分野に参入するにつれて、より高度なアクセス制御ソリューションが登場...
お腹が空いたら、キッチンロボットがミシュランレストランの基準に匹敵するステーキを調理します。運転した...
COVID-19 により、企業はデジタル変革の取り組みを数か月、場合によっては数年も加速させるようプ...
[[264779]] AI と ML は誇張されすぎていて、if 文を書いたりプログラミングに関係す...
[[382637]]データセンターが国の経済の原動力となるにつれ、人工知能を導入することでより高い...
12月18日、Businessinsiderによると、大規模なAIモデルは現在、人間の介入なしに完全...
この記事の結論から始めましょう。AI と機械学習は、ビデオ信号を 24 時間 365 日リアルタイム...
MBZUAI、上海交通大学、Microsoft Research Asia は協力して、包括的な中国...
[[384962]]ビッグデータダイジェスト制作出典: informationweek編纂者:張大毓...
今日、ほぼすべての分野やビジネスが何らかの変革を遂げており、多くの企業がデジタル技術の波の推進力を受...
2月27日、米国の著名な自動運転企業であるAuroraは、ライダーチップ企業OURSを1億ドルで買収...