コンテンツ推奨シナリオにおける自己教師学習の応用

背景

機械学習コミュニティでは、教師なし学習（または自己教師あり学習）は長い間、最も価値のある分野の 1 つと考えられてきました。 ISSCC 2019では、著名な人工知能研究者でありチューリング賞受賞者のヤン・ルカン氏が「ケーキチャート」2.0バージョンを発表し、自己教師学習の現状を改めて強調し、自己教師学習が将来の汎用人工知能への道である可能性があると信じています。

実は、自己教師あり学習は新しい概念ではありません。NLP の分野では、すでに多くの関連アプリケーションが存在します。自己教師学習の本質は、手動によるラベル付けを必要としないという目標を達成するために、データ自体を通じてトレーニング目標を構築することです。たとえば、word2vec は skip-gram トレーニングを使用して単語を通じてコンテキストを予測します。その後、Google が提案した Bert は、Masked LM と次の文の予測を使用して事前トレーニングを実現します。本質的には、元のデータはトレーニング目標を構築するために使用されます。

自己教師学習法は、実際のシナリオと非常によく一致しています。現実の世界では、膨大な量のデータに対応するいわゆるラベリングシステムは存在しません。たとえば、コンテンツの次元では、著者が作成した画像やテキストを標準的なラベリングシステムに当てはめることはできず、ラベリングチームが毎日何百万ものデータを処理することは不可能です。自己教師学習を通じてこの情報を取得することが必要なアプローチになっています。

Meipingmeiwu ライトアプリケーションは、Taobao のホームデコレーション垂直カテゴリにおける主要なトラフィックエントランスであり、コンテンツショッピングガイドの形でホームファニシング分野におけるユーザーの購入ニーズを満たします。昨年の Visual4Rec の作業 (詳細は https://mp.weixin.qq.com/s/LmON8pQ8TvPTfN2spblzDQ を参照) では、主に事前トレーニング済みの画像埋め込みを通じて、細かいランキング、リコール、EE の 3 つの側面を最適化し、良好なオンライン結果を達成しました。昨年の研究に基づいて、自己教師あり学習によって得られた埋め込み品質が推奨、分類、検索に与える影響をさらに調査したいと考えています。 2020年から、画像埋め込み抽出におけるいくつかの画像自己教師学習モデルとマルチモーダル埋め込み抽出におけるDAMOアカデミーM6事前トレーニング済みモデルの効果を試し、さまざまなオフラインおよびオンラインリンクで詳細な検証を実施しました。この記事は、Meipingmeiwu アルゴリズムチームでのインターンシップ期間中の Zhuoqie の仕事の概要です。

理論的根拠

▐ 画像の自己教師学習

2020年以降、画像自己教師ありアルゴリズムは学術界で大きな進歩を遂げています。画像ランダム変換+infoNCE損失の設計パラダイムに基づいて、SOTAを段階的に更新してきました。自己教師ありアルゴリズムによってトレーニングされた教師なし画像埋め込みに基づいて、下流で線形分類器が使用され、その分類精度は徐々にCNNを使用してトレーニングされた分類精度に近づき、さらにはそれを上回り始めています。実際のシナリオでは、テスト検証には主にEVTorchチームが提供するMoco v2 [1]モデルとSwAV [2]モデルを使用しました。ここでは、SwAV のモデル原理について簡単に紹介します。図 1 は、SwAV と一般的な自己教師付き対照学習の主な違いを示しています。図1 SwAV と一般的な自己教師あり対照学習の違い一般的な自己教師あり対照学習では、以下に示すように、主に画像のランダム変換（少量のノイズをランダムに追加する、わずかな色の変更、ランダムに切り取るなど）が使用されます。このようなわずかな変更は、画像自体の意味表現には影響を及ぼさないと考えています。図2 画像のランダム変換の例

同じ画像の異なる変換が正のサンプルとして使用され、異なる画像の異なる変換が負のサンプルとして使用されます。比較トレーニングは、以下に示すように埋め込みレベルで実行されます。

ここで、は符号化関数（学習方程式を表す）、は正のサンプル、上記の式によって最適化された負のサンプルのセットです。

上記の式から、100 万のデータセットで 2 つの埋め込みを比較すると、計算オーバーヘッドが非常に大きくなることがわかります。学術界はこの問題に対していくつかの解決策を提案しています。たとえば、Moco シリーズのメモリバンクのアイデアは、埋め込み自体を近似し、過去に計算された埋め込みをメモリバンクに保存して、その後の比較学習に利用するというものです。これに基づいて、SwAV アルゴリズムは、各画像ペアの埋め込みに対して比較学習を実行する必要がないかもしれないと提案しています。タスクを近似し、最初に埋め込みをクラスタ化し、次にクラスタリングを通じて 2 つのペアの関係を学習することができます。図1では、エンコーディング関数によって直接出力される埋め込みを表し、その埋め込みをクラスタープロトタイプにマッピングするマッピング行列を表しています。つまり、バッチでは、Swapped Predictionによって正のサンプル間の距離が短縮され、異なるグラフ間のクラスター間に均一な間隔制約を導入することで負のサンプル間のクラスター距離が保証されます。具体的な計算式は以下のとおりです。

スワップ予測はのマッピングベクトルです。著者は、同じ画像の異なる変更によって生成された埋め込みは、異なるマッピングベクトルの後に同じクラスターにマッピングされるはずだと考えています。

クラスタ均一性制約、つまり、同じバッチ内で、異なる画像に対応するクラスタが均一に選択される

SwAV アルゴリズムは、埋め込み間の対照学習をクラスター間の対照学習に簡素化することで、計算オーバーヘッドを大幅に削減します。同時に、オンラインクラスタリング中に均一な制約を導入して、モデルが単純なソリューションに陥らないようにし、高品質の画像の自己教師付き埋め込みを取得します。

▐ M6マルチモーダル事前トレーニング

M6 (マルチモダリティからマルチモダリティへのマルチタスクメガトランスフォーマー) は、アリババグループの DAMO アカデミーが開発したスパース MoE に基づくマルチモーダル事前トレーニングモデルです。兆レベルのパラメータを持つ事前トレーニング済みモデルに基づいて、Taobao 製品データを比較学習し、最終的に使用するモデルを取得しました。 Sparse MoE は、パラメータ数を増やしながら計算オーバーヘッドを低く抑えることができ、Whale フレームワークのサポートにより、より優れた計算効率を実現できます。スパースMoEは以下のように定義される

表現は入力です。ゲート関数のパラメータが計算された後、ソフトマックスを通過し、上位の重みが取得されます。専門家が合計で100人いると仮定し、その中からトップを除外する。次に、ゲート値はソフトマックス計算にかけられ、エキスパート出力値を乗算するために使用される最終的な重みを取得します。エキスパート i の出力結果です。実際の使用では、モデルの各操作では限られた数の専門家の出力のみが使用されるため、計算の一部を削減できます。

分散トレーニングのシナリオでは、さらに異なる専門家を異なるワーカーに配置することができます。特定のエンジニアリング実装では、スパース設定の合理性を確保するために負荷バランスを考慮する必要があります。具体的な実装とアルゴリズムの実装については[4]を参照してください。

シナリオ練習

▐ シーンとスタイルのKNNリコール一貫性率

1平方メートルごと、1軒ごとにライトアプリケーションを配置するというシナリオでは、ライトアプリケーションコンテンツのカバー画像を使用して、Moco v2とSwAVという2つのバージョンの自己教師あり画像モデルをトレーニングし、それぞれ画像から埋め込みを抽出しました。さらに、M6事前トレーニング済みモデルを使用して、ライトアプリケーションコンテンツのカバータイトルからマルチモーダル埋め込みを抽出しました。比較の基準は、現在オンラインで使用されている事前トレーニング済みの画像埋め込みです。比較方法は、異なる埋め込みの KNN リコール結果に基づくシードコンテンツ (seed) を使用して、リコールされたコンテンツのシーンとスタイルのラベルの一致率をシードコンテンツのシーンとスタイルのラベルと比較します。指数が高いほど、一貫性が優れています。計算方法はユークリッド距離です。この比較は、主にシーンとスタイルの観点からコンテンツの埋め込みの意味表現能力を反映することができ、ある程度まで埋め込みの意味表現能力を反映することができます。 +w は埋め込みを白色化した結果を表します。 KNNリコールは主に参考文献[5]に基づいて埋め込みを白色化した後に実行される。 Bert モデルの出力埋め込みに対してホワイトニングを実行すると、リコールの関連性が大幅に向上します。記録された結果を表1に示します。

特徴	コンテンツスタイルの一貫性の再現率	想起コンテンツシーン一貫性率
オンライン	0.63551	0.62783
オンライン + w	0.63704	0.63452
モコv2	0.61398	0.68160
モコv2+w	0.61538	0.68738
AV	0.64229	0.71147
SwAV + w	0.64566	0.71604
M6（32寸法）	0.70252	0.70288
M6 + w (32 寸法)	0.71607	0.70221

表1 スタイルとシーンの想起の一貫性における異なる埋め込みのパフォーマンス

結果分析

Moco v2 は、スタイルの一貫性率ではベースラインよりわずかに低いですが、シーンの一貫性率ではベースラインより優れています。全体的に、その利点は明らかではありません。 M6 と SwAV によって出力される埋め込みは、スタイルとシーンの想起の一貫性の点で、Moco v2 やオンラインで使用される埋め込みベースラインよりも大幅に優れています。
M6 のスタイルリコール一貫性率は、他の埋め込みよりも大幅に優れています。さらに調査した結果、これは主にタイトルによって提供される情報によるものであることがわかりました。タイトルにはスタイルに関する説明文がたくさんあります。
ホワイトニング操作は、各埋め込みの基底に追加の改善をもたらします。これは主に、私たちが使用する計算がユークリッド空間の仮定に基づいているためです。ホワイトニング操作は、埋め込みの元の幾何学的空間に基づいて適切な標準直交基底を選択し、ユークリッド空間の仮定に適合させることができます。これは、文献[5]に記載されている仮定とも一致しています。

視覚化

視覚化結果から、オンラインで使用された埋め込みと Moco v2 によって生成された埋め込みは、KNN リコール後もまだいくつかの悪いケースがあることがわかりますが、SwAV と M6 のリコール結果は直感的に優れているように見えます。さらに、私たちの視覚化では主に表紙画像を使用しており、純粋な画像埋め込みとしての SwAV は、表紙画像とコンテンツのタイトルを使用する M6 の結果よりも視覚的な一貫性の点で優れています。

▐ M6&SwAVコンテンツカバー機能がソートに追加されました

KNNリコール実験では、SwAVとM6によって生成された埋め込みが特定の意味表現次元で優れていることを予備的に検証しました。次に、M6とSwAVの埋め込みをオンラインファインランキングモデルに追加した後のAUCインデックスの変化をさらに検証しました（太字は最適なインデックス、下線は次善のインデックス）。以下をご覧ください。すべての機能の中で、カバー画像の埋め込み機能のみを追加または置き換えます。比較ベンチマークは、コンテンツカバー画像の埋め込み機能を使用しない機能セットです。3つの実験は、1.コンテンツカバー画像の事前トレーニング済み埋め込み機能のみを追加、2.コンテンツカバー画像のSwAV自己教師学習によって得られた画像埋め込み機能のみを追加、3.コンテンツタイトル+カバー画像のM6事前トレーニング済み埋め込み機能のみを追加です。 SwAV と M6 の埋め込みは両方とも白色化されています。

コンテンツクリック、詳細ページクリック、ビジネス詳細ページクリックの予測 AUC 値については、フルデータテストのトレーニングとテストに 2 つの期間を選択しました。また、効果をさらに検証するため、過去7日間に公開された新規コンテンツに対するテストも実施しました。すべての実験は3回実行され、平均と分散値が取得されました。具体的な結果を以下に示します。

特徴	翻訳元	ctcvr_auc	ビジネスページ behavior_auc
画像機能なし	0.65426 ± 0.00125	0.67302 ± 0.00506	0.68214 ± 0.00970
オンライン	0.65545 ± 0.00035	0.67250 ± 0.00408	0.67486 ± 0.00812
M6 + w	0.65570 ± 0.00127	0.67673 ± 0.00411	0.68759 ± 0.00655
AV + う	0.65568 ± 0.00144	0.67572 ± 0.00651	0.68547 ± 0.01055

表2 0611~0617 トレーニング 0618 テスト

特徴	翻訳元	ctcvr_auc	ビジネスページ behavior_auc
画像機能なし	0.66242±0.00096	0.68005±0.00273	0.68821±0.00550
オンライン	0.66649±0.00051	0.68404±0.00351	0.68670±0.00514
M6 + w	0.66509±0.00151	0.68450±0.00513	0.69332±0.01052
SwAV + w	0.66402±0.00095	0.68324±0.00076	0.69033±0.00173

表3 0701~0707テスト 0708テスト

モデル	翻訳元	ctcvr_auc	ビジネスページ behavior_auc
画像機能なし	0.71587±0.00454	0.73770±0.00419	0.70397±0.00985
オンライン	0.71907±0.00588	0.74005±0.00521	0.71821±0.01793
M6 + w	0.72516±0.00113	0.74885±0.00574	0.71666±0.00317

表4 過去7日間に新しくリリースされたコンテンツのAUCの比較

結果分析

新しく追加された画像埋め込み機能またはマルチモーダル埋め込み機能により、そのような機能を使用しないベースラインと比較して、3 つのタスクのオフライン AUC 指標が改善され、改善は比較的安定しています。
異なる期間のトレーニングデータとテストデータを使用して M6 埋め込みを追加すると、オンライン埋め込みを使用する場合とわずかに改善されるか、基本的に同じままになります。さらに、過去 7 日間にリリースされた新しいコンテンツのテストでは、M6 埋め込みの改善がより顕著であることがわかりました。これは、統計機能が不足している新しくリリースされたコンテンツの場合、M6 マルチモーダル機能がより重要な役割を果たし、オフライン AUC 指標の改善がより顕著になることを示しています。

M6 埋め込みモデルでオンライン AB テストを実行しました。7 日間の観察後、pctcvr は 2.6% 増加し、avg_ipv は 1.51% 増加しました。

▐ その他のシナリオ

画像分類

画像自己教師学習に関する多数の論文では、事前学習済みの自己教師モデルに基づく Finetune が下流タスク (分類/検出など) に及ぼす効果が end2end 学習法よりも優れていることが実験的に検証されています。ここでは、事前学習済みの SwAV モデルに基づいて、合計 3519 のカテゴリを持つ平らな商品シーンの画像に対してリーフカテゴリの分類モデル実験を実施します。SwAV 事前学習済みモデルをバックボーンとして使用すると、ResNet50 モデルを直接使用する分類器の効果よりも優れた効果が得られます。

タイプ	トップ1の精度	トップ5の精度
レスネット50	73.72%	92.85%
AV	74.67%	93.22%

表5 SwAV事前トレーニングにより下流分類タスクが改善される

メトリック学習

Tangpinghaohuo の画像検索シナリオでは、主にメトリック学習を使用して画像機能を最適化します。主な評価指標は、リコールされた製品の Identity Recall@N、つまり、リコールされた Top-N 製品の中でクエリ画像と同じ製品を含むクエリがクエリ総数に占める割合です。私たちのテストセットは、ターゲット検出と製品アンカー情報から自動的に合成されたデータセットであるため、ある程度のノイズが含まれています。同時に、各クエリグラフは実際の同一製品 1 つにのみ対応しているため (実際には、1 つのクエリが複数の製品に対応する場合があります)、取得される指標は低くなります。結論としては、事前にトレーニングされた自己教師モデルをバックボーンとして使用すると、より良い結果が得られるということです。

アイデンティティの想起	1 位	5 位	10 位	15歳未満禁止	20 位
事前トレーニングなし	11.56%	18.55%	21.47%	22.62%	24.26%
事前訓練済み	14.23%	21.85%	25.28%	26.68%	28.97%

表6 SwAV事前トレーニングは下流のメトリック学習タスクを改善する

結果分析: 事前にトレーニングされた自己教師モデルを使用して下流のタスクの Finetune を実行すると、大幅な改善がもたらされます。

要約する

大量のラベルなしデータを自己教師ありトレーニングに使用すると、実際のビジネスデータを最大限に活用できると同時に、大規模な事前トレーニング（ImageNet を使用した事前トレーニングなど）へのラベル依存性を切り離すことができ、実際のビジネスシナリオに近づくことができます。 SwAVやM6などの方法を使用した事前トレーニングを通じて得られた埋め込みは、優れた意味表現特性を持っています。推奨効果が向上するだけでなく、SwAV自己監督を通じて得られた埋め込みは、実際のビジネスシナリオでの画像分類および画像検索モデルに対しても安定した改善をもたらします。

<<: 産業用人工知能の未来について語る

>>: マスク氏の年収：0！米国のCEO給与ランキングが発表：黄氏はスーザン・カルキン氏より600万ドル近く低い