背景機械学習コミュニティでは、教師なし学習(または自己教師あり学習)は長い間、最も価値のある分野の 1 つと考えられてきました。 ISSCC 2019では、著名な人工知能研究者でありチューリング賞受賞者のヤン・ルカン氏が「ケーキチャート」2.0バージョンを発表し、自己教師学習の現状を改めて強調し、自己教師学習が将来の汎用人工知能への道である可能性があると信じています。 実は、自己教師あり学習は新しい概念ではありません。NLP の分野では、すでに多くの関連アプリケーションが存在します。自己教師学習の本質は、手動によるラベル付けを必要としないという目標を達成するために、データ自体を通じてトレーニング目標を構築することです。たとえば、word2vec は skip-gram トレーニングを使用して単語を通じてコンテキストを予測します。その後、Google が提案した Bert は、Masked LM と次の文の予測を使用して事前トレーニングを実現します。本質的には、元のデータはトレーニング目標を構築するために使用されます。 自己教師学習法は、実際のシナリオと非常によく一致しています。現実の世界では、膨大な量のデータに対応するいわゆるラベリング システムは存在しません。たとえば、コンテンツの次元では、著者が作成した画像やテキストを標準的なラベリング システムに当てはめることはできず、ラベリング チームが毎日何百万ものデータを処理することは不可能です。自己教師学習を通じてこの情報を取得することが必要なアプローチになっています。 Meipingmeiwu ライト アプリケーションは、Taobao のホーム デコレーション垂直カテゴリにおける主要なトラフィック エントランスであり、コンテンツ ショッピング ガイドの形でホーム ファニシング分野におけるユーザーの購入ニーズを満たします。昨年の Visual4Rec の作業 (詳細は https://mp.weixin.qq.com/s/LmON8pQ8TvPTfN2spblzDQ を参照) では、主に事前トレーニング済みの画像埋め込みを通じて、細かいランキング、リコール、EE の 3 つの側面を最適化し、良好なオンライン結果を達成しました。昨年の研究に基づいて、自己教師あり学習によって得られた埋め込み品質が推奨、分類、検索に与える影響をさらに調査したいと考えています。 2020年から、画像埋め込み抽出におけるいくつかの画像自己教師学習モデルとマルチモーダル埋め込み抽出におけるDAMOアカデミーM6事前トレーニング済みモデルの効果を試し、さまざまなオフラインおよびオンラインリンクで詳細な検証を実施しました。この記事は、Meipingmeiwu アルゴリズム チームでのインターンシップ期間中の Zhuoqie の仕事の概要です。 理論的根拠▐ 画像の自己教師学習2020年以降、画像自己教師ありアルゴリズムは学術界で大きな進歩を遂げています。画像ランダム変換+infoNCE損失の設計パラダイムに基づいて、SOTAを段階的に更新してきました。自己教師ありアルゴリズムによってトレーニングされた教師なし画像埋め込みに基づいて、下流で線形分類器が使用され、その分類精度は徐々にCNNを使用してトレーニングされた分類精度に近づき、さらにはそれを上回り始めています。実際のシナリオでは、テスト検証には主にEVTorchチームが提供するMoco v2 [1]モデルとSwAV [2]モデルを使用しました。ここでは、SwAV のモデル原理について簡単に紹介します。図 1 は、SwAV と一般的な自己教師付き対照学習の主な違いを示しています。図1 SwAV と一般的な自己教師あり対照学習の違い 一般的な自己教師あり対照学習では、以下に示すように、主に画像のランダム変換(少量のノイズをランダムに追加する、わずかな色の変更、ランダムに切り取るなど)が使用されます。このようなわずかな変更は、画像自体の意味表現には影響を及ぼさないと考えています。図2 画像のランダム変換の例 同じ画像の異なる変換が正のサンプルとして使用され、異なる画像の異なる変換が負のサンプルとして使用されます。比較トレーニングは、以下に示すように埋め込みレベルで実行されます。 ここで、は符号化関数(学習方程式を表す)、は正のサンプル、 上記の式によって最適化された負のサンプルのセットです。 上記の式から、100 万のデータセットで 2 つの埋め込みを比較すると、計算オーバーヘッドが非常に大きくなることがわかります。学術界はこの問題に対していくつかの解決策を提案しています。たとえば、Moco シリーズのメモリ バンクのアイデアは、埋め込み自体を近似し、過去に計算された埋め込みをメモリ バンクに保存して、その後の比較学習に利用するというものです。これに基づいて、SwAV アルゴリズムは、各画像ペアの埋め込みに対して比較学習を実行する必要がないかもしれないと提案しています。タスクを近似し、最初に埋め込みをクラスタ化し、次にクラスタリングを通じて 2 つのペアの関係を学習することができます。図1では、エンコーディング関数によって直接出力される埋め込みを表し、その埋め込みをクラスタープロトタイプにマッピングするマッピング行列を表しています。つまり、バッチでは、Swapped Predictionによって正のサンプル間の距離が短縮され、異なるグラフ間のクラスター間に均一な間隔制約を導入することで負のサンプル間のクラスター距離が保証されます。具体的な計算式は以下のとおりです。 スワップ予測は のマッピング ベクトルです。著者は、同じ画像の異なる変更によって生成された埋め込みは、異なるマッピング ベクトルの後に同じクラスターにマッピングされるはずだと考えています。 クラスタ均一性制約、つまり、同じバッチ内で、異なる画像に対応するクラスタが均一に選択される SwAV アルゴリズムは、埋め込み間の対照学習をクラスター間の対照学習に簡素化することで、計算オーバーヘッドを大幅に削減します。同時に、オンライン クラスタリング中に均一な制約を導入して、モデルが単純なソリューションに陥らないようにし、高品質の画像の自己教師付き埋め込みを取得します。 ▐ M6マルチモーダル事前トレーニングM6 (マルチモダリティからマルチモダリティへのマルチタスク メガトランスフォーマー) は、アリババ グループの DAMO アカデミーが開発したスパース MoE に基づくマルチモーダル事前トレーニング モデルです。兆レベルのパラメータを持つ事前トレーニング済みモデルに基づいて、Taobao 製品データを比較学習し、最終的に使用するモデルを取得しました。 Sparse MoE は、パラメータ数を増やしながら計算オーバーヘッドを低く抑えることができ、Whale フレームワークのサポートにより、より優れた計算効率を実現できます。スパースMoEは以下のように定義される 表現は入力です。ゲート関数のパラメータが計算された後、ソフトマックスを通過し、上位の重みが取得されます。専門家が合計で100人いると仮定し、その中からトップを除外する。 次に、ゲート値はソフトマックス計算にかけられ、エキスパート出力値を乗算するために使用される最終的な重みを取得します。エキスパート i の出力結果です。実際の使用では、モデルの各操作では限られた数の専門家の出力のみが使用されるため、計算の一部を削減できます。 分散トレーニングのシナリオでは、さらに異なる専門家を異なるワーカーに配置することができます。特定のエンジニアリング実装では、スパース設定の合理性を確保するために負荷バランスを考慮する必要があります。具体的な実装とアルゴリズムの実装については[4]を参照してください。 シナリオ練習▐ シーンとスタイルのKNNリコール一貫性率1平方メートルごと、1軒ごとにライトアプリケーションを配置するというシナリオでは、ライトアプリケーションコンテンツのカバー画像を使用して、Moco v2とSwAVという2つのバージョンの自己教師あり画像モデルをトレーニングし、それぞれ画像から埋め込みを抽出しました。さらに、M6事前トレーニング済みモデルを使用して、ライトアプリケーションコンテンツのカバータイトルからマルチモーダル埋め込みを抽出しました。比較の基準は、現在オンラインで使用されている事前トレーニング済みの画像埋め込みです。比較方法は、異なる埋め込みの KNN リコール結果に基づくシードコンテンツ (seed) を使用して、リコールされたコンテンツのシーンとスタイルのラベルの一致率をシードコンテンツのシーンとスタイルのラベルと比較します。指数が高いほど、一貫性が優れています。計算方法はユークリッド距離です。この比較は、主にシーンとスタイルの観点からコンテンツの埋め込みの意味表現能力を反映することができ、ある程度まで埋め込みの意味表現能力を反映することができます。 +w は埋め込みを白色化した結果を表します。 KNNリコールは主に参考文献[5]に基づいて埋め込みを白色化した後に実行される。 Bert モデルの出力埋め込みに対してホワイトニングを実行すると、リコールの関連性が大幅に向上します。記録された結果を表1に示します。
表1 スタイルとシーンの想起の一貫性における異なる埋め込みのパフォーマンス
視覚化結果から、オンラインで使用された埋め込みと Moco v2 によって生成された埋め込みは、KNN リコール後もまだいくつかの悪いケースがあることがわかりますが、SwAV と M6 のリコール結果は直感的に優れているように見えます。さらに、私たちの視覚化では主に表紙画像を使用しており、純粋な画像埋め込みとしての SwAV は、表紙画像とコンテンツのタイトルを使用する M6 の結果よりも視覚的な一貫性の点で優れています。 ▐ M6&SwAVコンテンツカバー機能がソートに追加されましたKNNリコール実験では、SwAVとM6によって生成された埋め込みが特定の意味表現次元で優れていることを予備的に検証しました。次に、M6とSwAVの埋め込みをオンラインファインランキングモデルに追加した後のAUCインデックスの変化をさらに検証しました(太字は最適なインデックス、下線は次善のインデックス)。以下をご覧ください。すべての機能の中で、カバー画像の埋め込み機能のみを追加または置き換えます。比較ベンチマークは、コンテンツカバー画像の埋め込み機能を使用しない機能セットです。3つの実験は、1.コンテンツカバー画像の事前トレーニング済み埋め込み機能のみを追加、2.コンテンツカバー画像のSwAV自己教師学習によって得られた画像埋め込み機能のみを追加、3.コンテンツタイトル+カバー画像のM6事前トレーニング済み埋め込み機能のみを追加です。 SwAV と M6 の埋め込みは両方とも白色化されています。 コンテンツ クリック、詳細ページ クリック、ビジネス詳細ページ クリックの予測 AUC 値については、フル データ テストのトレーニングとテストに 2 つの期間を選択しました。また、効果をさらに検証するため、過去7日間に公開された新規コンテンツに対するテストも実施しました。すべての実験は3回実行され、平均と分散値が取得されました。具体的な結果を以下に示します。
表2 0611~0617 トレーニング 0618 テスト
表3 0701~0707テスト 0708テスト
表4 過去7日間に新しくリリースされたコンテンツのAUCの比較
M6 埋め込みモデルでオンライン AB テストを実行しました。7 日間の観察後、pctcvr は 2.6% 増加し、avg_ipv は 1.51% 増加しました。 ▐ その他のシナリオ
画像自己教師学習に関する多数の論文では、事前学習済みの自己教師モデルに基づく Finetune が下流タスク (分類/検出など) に及ぼす効果が end2end 学習法よりも優れていることが実験的に検証されています。ここでは、事前学習済みの SwAV モデルに基づいて、合計 3519 のカテゴリを持つ平らな商品シーンの画像に対してリーフ カテゴリの分類モデル実験を実施します。SwAV 事前学習済みモデルをバックボーンとして使用すると、ResNet50 モデルを直接使用する分類器の効果よりも優れた効果が得られます。
表5 SwAV事前トレーニングにより下流分類タスクが改善される
Tangpinghaohuo の画像検索シナリオでは、主にメトリック学習を使用して画像機能を最適化します。主な評価指標は、リコールされた製品の Identity Recall@N、つまり、リコールされた Top-N 製品の中でクエリ画像と同じ製品を含むクエリがクエリ総数に占める割合です。私たちのテストセットは、ターゲット検出と製品アンカー情報から自動的に合成されたデータセットであるため、ある程度のノイズが含まれています。同時に、各クエリグラフは実際の同一製品 1 つにのみ対応しているため (実際には、1 つのクエリが複数の製品に対応する場合があります)、取得される指標は低くなります。結論としては、事前にトレーニングされた自己教師モデルをバックボーンとして使用すると、より良い結果が得られるということです。
表6 SwAV事前トレーニングは下流のメトリック学習タスクを改善する 結果分析: 事前にトレーニングされた自己教師モデルを使用して下流のタスクの Finetune を実行すると、大幅な改善がもたらされます。 要約する大量のラベルなしデータを自己教師ありトレーニングに使用すると、実際のビジネスデータを最大限に活用できると同時に、大規模な事前トレーニング(ImageNet を使用した事前トレーニングなど)へのラベル依存性を切り離すことができ、実際のビジネスシナリオに近づくことができます。 SwAVやM6などの方法を使用した事前トレーニングを通じて得られた埋め込みは、優れた意味表現特性を持っています。推奨効果が向上するだけでなく、SwAV自己監督を通じて得られた埋め込みは、実際のビジネスシナリオでの画像分類および画像検索モデルに対しても安定した改善をもたらします。 |
>>: マスク氏の年収:0!米国のCEO給与ランキングが発表:黄氏はスーザン・カルキン氏より600万ドル近く低い
建国記念日の休日中は家にいて、Google カンファレンスを視聴しました。これらの製品のいくつかを見...
[制作|網易智能計画/ 翻訳|炳漢]昨年3月、囲碁が打てる「AlphaGo」が人工知能を一躍有名にし...
科学技術は主要な生産力です。人類社会が発展し続けることができるのは、何世代にもわたる科学者が新しい技...
「資本の冬は業界のマシュー効果と適者生存を加速させており、AI分野も例外ではありません。」Infer...
パンデミック以前は、スマートデバイスは接続できなかった可能性があります。しかし、従業員が自宅からログ...
近年、生成 AI とクラウドの融合に関心が集まっているのには理由があります。人工知能 (AI) とク...
AI時代においては、セキュリティを早急に再定義する必要があります。人工知能やモノのインターネットなど...
現在、人工知能技術は急速に発展しており、非常に注目を集めています。しかし、数多くの方法があるにもかか...
人工知能は万能のように思えますが、実際には人工知能に代替できない職業も数多くあります。 HSBCは銀...
[[429626]] 2015 年に、画期的なニューラル ネットワーク モデル ResNet がリ...