ショッピングをもっと便利に：Mogujie ビジュアル検索テクノロジーアーキテクチャの実践

[51CTO.com からのオリジナル記事] 周知のとおり、画像検索はコンピュータービジョン分野において初期から広く研究されてきた分野です。画像コンテンツを記述する方法の違いにより、一般的にはテキストベースの画像検索 (TBIR) とコンテンツベースの画像検索 (CBIR) の 2 つのカテゴリに分けられます。

2018年11月30日から12月1日まで、51CTO主催のWOTグローバル人工知能技術サミットが北京JWマリオットホテルで開催されました。

今回のサミットのテーマは人工知能です。Meili United GroupのSong Hongliang氏が「ビジュアル検索テクノロジーシステムとビジネスアプリケーション」について紹介します。

この共有は次の 3 つの部分に分かれます。

ビジュアルシェアリングの背景と現状
Mogujie ビジュアル検索技術のアーキテクチャと開発
システムおよびビジネスアプリケーション

ビジュアルシェアリングの背景と現状

テキストベースの画像検索方法は 1970 年代に始まりました。テキスト注釈を使用して画像の内容を説明し、画像内のオブジェクトやシーンなど、各画像の内容説明のキーワードを生成します。

この方法は、手動でのラベル付け、または画像認識技術による半自動のラベル付けのいずれかで実行できます。検索中に、システムはユーザーが指定したクエリキーワードに対応する画像を見つけて、ユーザーに返すことができます。

この方法は実装が簡単なため、一部の中小規模の画像検索アプリケーションで今でも使用されています。

もちろん、この方法には次のような欠点もあります。

大規模な画像データの場合、ラベル付けのプロセスに人間の介入が必要となるため、時間と労力がかかるだけでなく、新しい画像が継続的に流入することで手動のラベル付けも妨げられます。
正確な検索が必要な場合、ユーザーが本当に取得したい画像を短いキーワードで説明するのは難しい場合があります。
手動によるラベル付けプロセスは、注釈者の認知レベル、言語の使用、主観的な判断によって必然的に影響を受け、テキストの説明に違いが生じます。

画像データの急速な増加に伴い、テキストベースの検索方法における上記の問題がますます顕著になってきています。したがって、業界では一般的に、画像情報をインデックスする最も効果的な方法は、画像コンテンツ自体に基づくべきであると考えています。

この方法は、コンピュータに画像コンテンツの表現と類似性を処理させ、そのコンピューティングの利点を最大限に活用し、検索の効率を大幅に向上させます。

しかし、コンテンツベースの検索方法にも大きな欠点があります。それは、特徴の記述と高レベルのセマンティクスの間に埋められないギャップがあるということです。

環境からの干渉が大きいため、SIFT など、干渉に対してより耐性があり、不変のローカル機能を持つ方法を選択する必要があります。同時に、このような方法では、より高い特徴次元を持つことも求められます。

近年、ディープラーニング（特に畳み込みニューラルネットワーク（CNN））に基づく自動画像特徴検索手法が広く使用されています。

検索精度を大幅に向上させることができます。さらに、PCA などの次元削減手法を使用して、大規模または大量の画像の検索タスクに適応する効率的で合理的な高速検索メカニズムを構築できます。

上の図は、コンテンツベースの画像検索の基本的なフレームワークを示しています。画像特徴ベクトルの記述を事前に作成し、画像特徴ライブラリに保存することができます。

ユーザーがクエリする画像を入力すると、同じ方法を使用してクエリする画像の特徴を抽出し、クエリベクトルを取得します。

次に、特定の類似度測定基準に基づいて、クエリベクトルと特徴ライブラリ内の各特徴間の類似度が計算されます。最後に、類似度の大きさに応じて並べ替え、対応する画像を順番に出力します。

当社の電子商取引シナリオでは、さまざまなデータのソースは一般に次の 2 つの部分に分かれています。

販売者側：一般の販売者は、商品のメイン画像、添付画像、SKU画像、各種詳細画像をアップロードします。アンカーは、製品のスクリーンショットやビデオなどのライブ放送コンテンツを制作します。
ユーザー側: 一般ユーザーが対応するUGCコンテンツをアップロードし、購入者が写真などを表示します。専門家がPGCなどのコンテンツを制作します。

これらの画像データは、容量が膨大であるだけでなく、「自然な」構造化された情報も含まれています。アップロード時に、販売者は写真に対応するカテゴリと属性を入力することで、明確なラベル付けを完了できます。

基本データソースを使用すると、背景画像データベースを構築して、スタイル属性の認識、OCR テキスト認識、画像機能の取得などの操作を実行できます。

これを基に、さまざまな運用活動や戦略を組み合わせることで、ユーザーが閲覧して購入できるようにフロントエンドに商品を表示できるようになります。

ご存知のとおり、被写体は撮影環境の影響を受けやすいものです。たとえば、照明の変化、スケールの変化、視点の変化、遮蔽、背景の乱雑さなどの要因は、検索結果に大きな影響を与えます。

さらに、電子商取引は次のような側面から課題に直面しています。

電子商取引プラットフォームでは、毎日頻繁に商品の追加や削除が行われており、インデックスの全体的な構築に大きな課題が生じています。
規模は諸刃の剣です。モデルのトレーニングには十分なデータがありますが、膨大な量のデータは全体的な検索に多大な負担をかけます。
データの品質は保証できません。特に、ユーザーがアップロードしたさまざまなバイヤーショーの写真や、販売者が間違ったカテゴリにラベルを付ける問題があります。
ユーザーのクエリも多岐にわたり、さまざまな製品画像、ビデオのスクリーンショット、実際の写真のアップロードが必要になる場合があります。

Mogujie ビジュアル検索技術のアーキテクチャと開発

上記のデータ特性と課題に基づいて、独自のビジュアル検索テクノロジーアーキテクチャを開発しました。上の図に示すように、プロセスは次のようになります。

ユーザーのクエリリクエストを受信した後、カテゴリを予測します。
物体検出を通じて、必要なものが得られます。
特徴抽出器は、画像の特徴表現を抽出するために使用されます。
ANN検索に基づいて、十分な検索結果が得られます。
最終的な検索結果は、再ランク付け方式によって取得されます。

上記のプロセスに基づいて、さまざまなリンクを1つずつ紹介します。カテゴリ予測では、次の 3 つの方向に分けます。

入力データは比較的乱雑であるため、画像の品質を評価し、品質の悪い画像や表示に適さない画像を処理して、ユーザーエクスペリエンスを向上させる必要があります。
同じグラフのフィルタリング方法に基づいて、データベース内の同じグラフが処理されます。
さまざまなカテゴリでの分類作業を実行します。

画像品質評価

画像品質評価は、実際には画像の美観を認識することです。現在市場で入手可能な画像品質分析のほとんどは、主に「良好」「中」「不良」などの粗いレベルで品質等級を示します。

そのため、彼らは問題を単純に分類問題に分類し、人間の美的感覚を詳細にシミュレートして画像の品質を判断することはしませんでした。

ここでは、論文「属性とコンテンツ適応による写真美学ランキングネットワーク」のアイデアを借用し、論文に記載されている最初の 2 つのネットワーク構造を採用しました。

まず、上図の右側に示す多次元属性方向からデータを手動でラベル付けし、全体的な美観スコアを取得しました。次に、単一ブランチ回帰ネットワークと複数ブランチ回帰ネットワークの両方を使用しました。

単一回帰ネットワークは、画像の合計スコアをラベルとする回帰モデル Reg をトレーニングします。特定の画像に 11 個のスコアリングポイントを追加することで、マルチブランチが構築され、スコアリング回帰ネットワーク Reg+Att に統合されます。

トレーニング中、ラベルの 11 個の属性スコアと最終スコアは、Reg によってトレーニングされた重みを Reg+Att に転送し、最終的に Reg+Att ネットワークを使用して予測を行います。

このネットワークを使用すると、データベース内の画像の美しさをスコア化し、美しさのスコアが低い画像を除外することができます。

同じ画像フィルタリング

検索結果に同一の画像が多数あると、必然的にユーザーエクスペリエンスが低下します。そのため、同じ画像をすばやくフィルタリングするために、軽量の pHash メソッドを使用します。

この方法の基本的な考え方は、各画像に対してハッシュ値を形成することです。計算プロセス全体は次のとおりです。

画像のサイズを 8×8、合計 64 ピクセルに変更します。
グレースケール画像に変換し、グレースケール平均を計算します。
各ピクセルのグレースケール値を平均値と比較します。平均値以上の場合は 1 として記録され、平均値未満の場合は 0 として記録されます。
これらの 0 と 1 の結果を連結してバイナリ式を取得します。
同じ画像かどうかを判定するためにハミング距離による距離計算が行われます。
販売量、価格、店舗開設時間、店舗の星評価などのビジネスロジックに基づいて、同じグラフを組み合わせたりフィルター処理したりします。

カテゴリ分類

カテゴリ分類の主な目的は、取得するデータの量を減らし、取得の精度を向上させることです。電子商取引のシナリオでは、「カテゴリの数」という概念があります。たとえば、衣料品、靴とバッグ、婦人服、トップス、T シャツは、カテゴリ番号の異なるブランチを構成します。

そのうち、衣料品、靴、バッグは第1レベルのカテゴリ、婦人服は第2レベルのカテゴリ、トップスは第3レベルのカテゴリ、Tシャツは第4レベルのカテゴリに該当します。上の図に示すように、上記の 10 個のカテゴリは、さまざまなカテゴリ数のデータ分布と、カテゴリに対するユーザーの認識に基づいて分類されています。基本的に、これらはシステムのすべてのリーフカテゴリをカバーします。

上記の 10 個の水平カテゴリに加えて、その後の結果の想起における欠点を補うために、4 つの垂直カテゴリ (合計 504 個) も組み合わせました。

同時に、さまざまなタスク間の相関関係を考慮して、相互促進を通じてモデルの一般化能力を向上させるマルチタスク学習方式を採用しています。

上の図に示すように、ここでの基盤となるネットワークは ResNet18 であり、その背後にある 2 つの FC ブランチは 2 つの異なる特定のタスクに対応しています。反復を通じて、モデルの上位 1 つは、10 カテゴリのレベルで 92%、4 カテゴリのレベルで 84% に到達できます。

被写体検出

画像の場合、2 つの主流のターゲット検出方法を使用できます。

Faster R-CNNのような2段階アプローチ
SSDのような1段階方式

2 段階方式は RNN をベースとしているため、精度が高くなりますが、同時に、シリーズ方式であるため、計算パフォーマンスはわずかに低下します。 1 段階方式は正反対です。

2 つの方法の長所と短所を考慮して、最終的に Refinement ネットワークに基づくモデルトレーニングを採用しました。このうち、アンカー改良モジュールは Faster R-CNN の RPN に似ており、オブジェクト検出モジュールは SSD に似ています。中間では、TCB モジュールを介して特徴変換が実行され、上位層の ARM 特徴が検出モジュールにアップロードされます。

一方、TCB には、FPN のピラミッド形式に似たフォワードパスプロセスがあります。したがって、このネットワークは、RPN と後続の検出モジュールを並列に処理することと同等であり、検索パフォーマンスを保証します。

さらに、FPN の特定のシステムに接続されているため、いくつかの小さなターゲットの検出に優れた効果を発揮します。

このネットワークをベースに、いくつかの検出ターゲットも開発しました。例えば、写真に写っているトップス、パンツ、スカート、靴、バッグ、顔などを検出します。

反復的なトレーニングを通じて、最終的に MAP 0.95、K40 で 25FPS、P100 で 50 FPS を超える検索パフォーマンスを達成できます。

上記の 4 つの画像は、さまざまなシナリオでのターゲット検出の結果を示しています。最初の画像は製品検索の結果、2 番目の画像はユーザーの実際の写真、3 番目のスクリーンショットはライブブロードキャストシーン、最後の画像はオフラインデータの実際の測定から取得されています。

画像特徴学習

実際の電子商取引のシナリオでの画像特徴抽出のニーズに応えて、マルチビットのラベリングシステムを構築しました。これらには、カテゴリ CID、SKU の色、画像パターン情報、形状情報、その他の拡張情報が含まれます。

ラベルを作成する際には、必然的に大量のデータクリーニングとソート作業を行う必要がありますが、販売者は写真をアップロードする際にすでに商品にタイトルなどの属性情報を追加しているため、これらのテキスト説明を通じて直接「自然な」ラベルを取得できます。

さらに、スタイル属性モデル、要素パターンモデル、およびいくつかのきめ細かいカラーモデルを使用して、このデータを再ラベル付けしたり検証したりすることもできます。

上記の 2 つの基盤があれば、いくつかの手動レビュー方法を組み合わせて、最終的に比較的完全なラベルを作成できます。上の画像の右側にある 2 行のテキストに示されているように、それらはそれぞれラベルの具体的な意味を表します。

ラベル付けシステムが確立されたら、データの整理を開始できます。一般的に言えば、カテゴリはできる限り詳細であるべきであり、各カテゴリのデータが多いほど良いです。

ただし、実際には、サンプルの不均衡の問題を回避するために、各タイプのデータの量を上限 20,000、下限 1,000 に設定する必要があります。したがって、ソート後、最終的に 2319 個のラベルと約 1000 万個のトレーニングサンプルが得られました。

データラベルとトレーニングデータを使用すると、CNN ネットワークに基づく分類モデルを通じて機能をトレーニングできるようになりました。

より良い分類結果を得るために、トリプレットネットワーク構造を導入しました。上の図に示すように、右側には 3 つのブランチがあります。中央はクエリ、上はポジティブ、下はネガティブです。

最終的に、2 つの損失を使用しました。1 つは分類損失、もう 1 つはトリプレットベースの損失です。このようにして、クラス内距離を減らし、クラス間距離を増やすことができ、それによって特徴学習の効果を高めることができます。トリプレット損失に基づく学習では、上記の 3 つのブランチの選択が重要な問題であることがわかります。

陽性サンプルの場合は同じラベルを持つサンプルを選択し、陰性サンプルの場合は異なるシフトに対応するラベルを持つ画像を選択しようとします。したがって、反復的なトレーニングを通じて、最終的な分類効果 (つまり、トップ 1) は 68% になります。

上記の基本的な特徴抽出ネットワークを使用して、どの特定の特徴を選択するかを検討する必要があります。上図に示すように、res に対応する 5a、5b、5c、および res4 の一部のレイヤー (fc レイヤーなど) から特徴を抽出しました。検証の結果、res 5a レイヤーに基づく結果が最適であると最終的に結論付けました。

res 5a レイヤーでは、GAP (Global Average Pooling) メソッドを組み合わせて機能を集約します。 GAP は主に完全接続の問題を解決するために使用されます。

上記のように、res 5a に基づいて 512×7×7 の特徴マップを処理すると、512 個の特徴を持つ 1×512 が得られます。次に、さまざまな二乗および正規化操作を実行して、最終的な検索機能を取得します。

近似最近傍探索

次に、積量子化による近傍検索を実行する必要があります。積量子化は、メモリと効率のバランスを実現する方法です。画像検索構造に十分なメモリを提供できるだけでなく、検索の品質と速度も保証できます。

中心となる考え方は、特徴をグループ化して量子化することです。つまり、特徴を M 個のグループに分割し、各グループに対して詳細な量子化を実行し、各グループの量子化中心の微積分によって最終的なコードブックを取得します。

検索プロセス中に、インデックスの構造を構築する必要があります。上の左側の図は、データベースに使用する検索構造です。入力 Y はデータベース内の画像に対応します。

粗い量子化中心の計算により、対応する反転ファイルエントリである粗い量子化 QC を取得できます。 Y と QC 間の残差ベクトルを計算することで、RY を取得できます。

次に、RY は M グループに分割され、各グループは洗練された定量化された中心に対応します。このようにして、画像を対応する粗量子化されたポスティングチェーンに追加できます。

上図の右側に示すように、画像をクエリする場合、まず粗い量子化を使用して X に対応する検索エントリを見つけ、次にその残差を計算し、既存の候補クエリセットに基づいて残差とセット間の特定の距離を計算し、最後にソートして検索結果を取得します。

再ランク付け

よりグローバルな特徴を取得するには、再ランキングを使用して画像のローカルな特徴をマイニングする必要があります。ここでは、RMAC 機能と Attention メソッドを組み合わせることでこれを実現します。

RMAC メソッドは、ウィンドウを変更することでスライディングウィンドウを実行します。スライディングウィンドウプロセスは画像自体に対して実行されるのではなく、特徴マップに対して実装されます。したがって、特徴抽出の速度が保証されます。

ただし、RMAC は多くのローカル領域の特徴を抽出できますが、さまざまな領域の重要性は考慮されません。さらに、場合によっては、画像に背景領域が多く含まれ、検索効果を妨げることがあります。したがって、特徴の重要性を導き出すには、学習に地域的な注意を組み合わせる必要があります。

具体的なアプローチは上の図に示されています。以前にトレーニングされたネットワーク構造を通じて、画像の Res 次元の特徴を取得できます。次に、さまざまなスケールに基づいてローカル機能を抽出します。

これら 4 つのスケールでフィーチャを選択することで、隣接するウィンドウが 40% 重なることを確認できます。その後、2 つのブランチが存在します。

R-MAC モジュール。 Max スプールと後処理が含まれます。後処理プロセスには、L2 正規化と PCA 白色化が含まれます。その後、合計プーリングと L2 正規化を通じてグローバル特徴ベクトルの表現が得られます。

地域注目モジュール。これらのローカル機能の重要性を考慮すると、地域注目モジュールを組み合わせてさまざまな重みを学習する必要があります。具体的なプロセスは、地域的特徴とグローバル特徴（平均プール）を融合してコンテキスト認識を実現することです。 Attention モジュールでは、チャネル空間で Concat を実行し、次に Attention ネットワーク (2 つの線形レイヤーと 2 つの非線形レイヤーを含む) に入って Attention の重みを取得します。

上記の RMAC 機能を組み合わせて重み付けし、ローカル機能に基づいた表現を取得します。次に、topN の結果に基づいて再ランキングを実行します。もちろん、クエリ拡張を組み合わせて検索結果をさらに改善していきます。

上図に示すように、左側は RNN ネットワークによって抽出されたグローバル特徴を示し、右側は RMAC + Attention ネットワークによって抽出されたローカル特徴を示しています。

評価セットと指標

効果を評価するために、以下の評価データを用意しました。

製品のメイン画像、バイヤーショー、ライブ放送のスクリーンショットなどの画像を照会します。
製品写真や詳細写真などの類似画像。
合計 2,000 グループあり、1 対 1 形式 (製品のメイン画像が製品の詳細画像に対応) と 1 対 N 形式 (1 つのメイン画像が N 枚の詳細画像に対応) があります。
検索テストDB: 200万。

結果に関しては、TopN リコール結果と TopN mAP 結果という 2 つのアルゴリズムテスト指標を設定しました。

上の図は視覚検索の効果を示しています。

システムおよびビジネスアプリケーション

上記はMogujieビジュアル検索のシステムアーキテクチャ図です。 4 つのレベルに分かれています。

基本的なネットワークモデルには、カテゴリ認識、ターゲット検出、特徴抽出のディープラーニングが含まれます。 PQ 量子化に基づくモデルも含まれます。
アルゴリズムモジュールは、オフラインとオンラインの 2 つの部分に分かれています。
- オフラインデータ処理には、ターゲットの検出、特徴の抽出、インデックスライブラリの生成、およびダンププロセスによるいくつかのエコーファイルとデータの生成が含まれます。
- オンライン検索プロセスは上記の表に対応しています。
中央のインターフェース層では、灰色の部分はダンプデータの生成を表し、右側の白いオンライン部分はさまざまなアルゴリズムモジュールに提供されるインターフェースです。
さまざまなビジネスがリストされるビジネスアプリケーションレイヤー。現在、http インターフェースに加えて、ZSerach やレコメンデーションエンジンにも接続して、プッシュ結果を充実させています。

具体的なビジネスアプリケーションは次のとおりです。

運用商品選定事業：ビジュアル検索技術を活用し、人気の衣料品などの画像をもとに、Mogujie上で該当商品を探すショッピングガイド業務。商品選択バックエンドにアクセスすることで、操作によって入力された画像に基づいて、さまざまな類似商品画像を検索します。

これらの写真には、価格、販売量、割引、棚の期間などの製品情報が添付されています。オペレーターは必要な製品を選択し、APP フロントエンドを通じてユーザーにプッシュすることで、手動による画像検索の作業負荷を回避し、運用効率を向上させます。

同商品レビュー：電子商取引の基本業務は、販売業者がアップロードした商品画像の同商品レビューを必須とし、レビュー結果に関するオンライン問い合わせを販売業者に提供します。

そのため、視覚検索技術を統合した後、認識システムを使用して同じ製品を識別し、結果データを返します。アルゴリズムの導入後、実際の業務データの測定値と組み合わせたところ、システム全体の精度は 99.06% に達し、検出漏れ率はわずか 3% であることがわかりました。

画像検索と商品購入：2017年末にアプリ版をリリースし、2018年初頭にWeChat婦人服ミニプログラムをリリースしました。この製品の全体的な状況は、1日の平均紫外線量が約50万に達する可能性があるということです。

マッチングTAB ：ユーザーに様々なマッチング商品を推奨するために、既存の画像データベースに基づいて全身画像商品を検出し、ターゲット検出アルゴリズムと組み合わせました。システムは異なるブロックを区別して、類似製品の検索結果を取得します。

上図に示すように、ユーザーがホームページ上の一致する画像をクリックすると、詳細な表示情報が得られ、その後、第 3 レベルのページでさまざまなブロックの類似性推奨結果を確認できます。

Buy The Look : コンテンツ共有のシナリオでは、インフルエンサーが自分の衣服の自撮り写真を投稿します。これらの写真に基づいてターゲット検出を実行し、各ブロックで類似性検索を実装して、最終的に対応する類似製品をユーザーにプッシュします。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: ブロックチェーンは自動運転車の開発を促進できるか？ BMW、GM、フォードはいずれも

>>: 女の子があなたを好きかどうか知りたいですか?ハーバード大学の10代のAIがチャット記録に基づいて恋愛の確率を計算

ショッピングをもっと便利に：Mogujie ビジュアル検索テクノロジーアーキテクチャの実践

ビジュアルシェアリングの背景と現状

Mogujie ビジュアル検索技術のアーキテクチャと開発

システムおよびビジネスアプリケーション

興味深く実用的なオープンソース人工知能プロジェクトトップ10

ジェフ・ディーンが2020年の機械学習のトレンドについて語る：マルチタスクとマルチモダリティが大きく進歩する

人工知能は裁判所によって特許発明者とみなされるでしょうか?

アクセス制御における生体認証の応用と開発

HiLM-D: 自動運転のためのマルチモーダル大規模言語モデル

機械学習の理解と考察

一流大学のAIが一流弁護士に勝つ：契約書のレビューを26秒で完了

疫病流行中に物流の円滑化に全力を尽くし、無人配送市場が活況を呈している

調査：消費者の68％がスマート家電がプライベートな会話を盗聴できると考えている

2021年のAI展望

推薦する

エンティティ認識と関係抽出におけるディープラーニングの応用に関する簡単な分析

人工知能時代の機械の未来

5G+UAVの利点

MIT は、思考を通じて機械にタスクを実行させるブラックテクノロジーを開発

テキストマイニングからの分類、クラスタリング、情報抽出などのアルゴリズムのレビュー

ガートナー 2019 人工知能成熟サイクルのトレンド

ニューラルネットワークモデルの構築に適した最適化アルゴリズムはどれですか? 35,000件の検査でわかる

MITの新しい水中ロボット！機械学習を使用して 18 時間でパトリックスターを作成する (ダニエララスとの共著)

人工知能の舞台裏：マイクロソフトとOpenAIのスーパーコンピューターはアイオワ州で大量の水を消費している

今後5年間のAI技術の発展と影響を展望する

AI機能をエッジに拡張する方法: ストレージが基盤となる

カナダ工学アカデミー会員のソン・リャン氏：将来の人工知能システムはネットワークの形で存在するだろう

このおもちゃからヒントを得たアクチュエータは、ソフトロボットにジャンプする能力を与える可能性がある。