Suning製品セマンティックリコールにおけるDSSMテキストマッチングモデルの適用

Suning製品セマンティックリコールにおけるDSSMテキストマッチングモデルの適用

【51CTO.comオリジナル記事】 1. 背景

テキスト マッチングは、自然言語処理における中核的な問題です。MT、MRC、QA などのエンドツーエンドのタスクとは異なり、テキスト マッチングは一般に、テキスト類似度の計算という形でアプリケーション システムにおける中核的なサポート役を果たします。情報検索、検索エンジン、質問応答システム、情報フロー推奨、質問の言い換え、知識検索、機械翻訳など、さまざまな種類の自然言語処理タスクに適用できます。

テキスト マッチングがこのように幅広い用途を持つ理由は、多くの NLP タスクが本質的にテキスト マッチングの問題に抽象化できるためです。たとえば、言い換えの問題は、2 つの同義語の文のマッチングに簡略化できます。情報検索は、検索用語とドキュメント リソースのマッチング プロセスです。質問応答システムの中核となる問題は、ユーザーが入力した質問と最適な候補回答を一致させることです。対話システムは、前の対話と次の応答を一致させることに簡略化できます。この論文では、主にSuning製品セマンティックリコールにおけるDSSMテキストマッチングモデルの応用について紹介します。

Suning.com のメイン検索システムが、未知の単語や意味が不明瞭な単語、さらにはタイプミスや単語の欠落を含むユーザーの検索用語に対して、質の低い結果を返したときに、セマンティック リコールのためのテキスト マッチング モデルの使用が提案されました。下の図に示すように、ユーザーは「hanging iron」の「hang」という単語を省略し、その後、特定の干渉効果を持つ特定のモデル単語を入力したため、結果が返されませんでした。 ScolibブランドのヘッドフォンはSuningでは販売されていないため、英語のScolibは未知の単語です。

図 1: 不明な単語、タイプミス、または欠落した単語の検索結果

上記の 2 つの再現効果が低いケースから、テキストの類似性に基づく再現戦略はほとんどの場合に高い精度を保証できるものの、上記の特殊なケースは解決できないことがわかります。したがって、ユーザーのクエリに類似したセマンティクスを持つ製品を取得するには、セマンティック モデルを採用することが非常に重要です。

ディープテキストマッチングは、1. 単一セマンティックモデル、2. マルチセマンティックモデル、3. マッチングマトリックスモデル、4. ディープセンテンスモデルの 4 つのタイプにまとめることができます。このうち、単一意味モデルは、完全接続、CNN、RNN などの特徴抽出器を使用して 2 つの文の深層意味ベクトルを取得し、2 つの文の一致度を計算します。マルチ意味モデルは、文内のローカル構造を考慮して、多粒度の観点から文を解釈します。マッチング マトリックス モデルは、マッチング信号を直接キャプチャし、単語間のマッチング信号をグレースケール画像として使用し、ディープ ネットワークを使用して特徴を抽出して、文内の接続をより細かく処理します。ディープ センテンス モデルは、より洗練された構造を使用して、文内および文間の異なる単語間の接続を調査し、より良い結果を取得します5。

近年、テキストマッチングに関する論文が多数発表され、文構造の処理が高度化し、モデルの複雑性が急速に増大している6。論文中の実験的な SOTA の結果は絶えず更新されていますが、完全なトレーニング手順と単一の予測に必要な時間は非常に長くなります。オンライン生産環境ではユーザーエクスペリエンスが優先され、高速で信頼性が高く、正確なテキストマッチング戦略が必要です7。同時に、Suning には毎日更新される膨大な量のクエリ ドキュメント テキスト コーパスがあります。クエリはユーザーの検索用語で、ドキュメントはシステムによって返される製品のタイトルです。限られたハードウェア リソースで許容できるトレーニングおよびデバッグ時間枠内でメイン サイトの数十億の製品カテゴリのコーパスをトレーニングするには、調整可能なパラメータの数が少ないモデルが必要です。リコールする数千万の製品セットの意味ベクトルを事前にオフラインで計算し、コーパスのサイズが大きくなるにつれてモデルの効果を向上させることができます。要約すると、製品セマンティックリコールシステムの中核として LSTM-DSSM モデルを選択しました。

2. LSTM-DSSMモデル

2.1 モデル入力

製品セマンティックリコール業務では、マッチング対象となるDOCは製品タイトルであり、タイトルには必然的にGTX2060などのモデルワードが含まれます。入力を単語ごとに処理すると、モデルは 2、0、6、0 の 4 つの数字が固定の組み合わせであることを学習せざるを得なくなります。これは短いテキストの場合は問題ありませんが、一部の電子製品のモデル番号と文字は 10 桁以上であるのに対し、実際のコアとなる中国語の単語は数桁しかない場合があり、非常に深刻な干渉効果が生じます。さらに、数十語を含む長いタイトルの場合、特徴抽出に同じ長さの LSTM が必要になり、パラメータが多くなりすぎてモデル学習のコストが増加します。要約すると、このモデルは入力として文字トークンを放棄し、代わりに単語トークンを使用します。

私たちは転移学習の考え方を参考にしました。単語トークンの埋め込みベクトルを単純にランダムに初期化するのではなく、数億のSuning製品タイトルをコーパスとして使用し、最初にHanLP単語セグメンテーションを使用して単語セグメンテーションを実行しました。単語分割によって得られた単語トークンを順番にエンコードし、後続のモデルに必要な辞書を生成します。 Spark プラットフォームでは、提供される word2vec モデル インターフェイスを使用して、単語トークン コーパスをトレーニングします。このようにして、各単語トークンの意味ベクトルを取得し、モデルの入力として使用することができます。

辞書と各単語の意味ベクトルの生成は1回限りのタスクであり、通常は変更する必要がないことを考慮して、非常に大規模なコーパスを使用し、300台のマシンでスパーク環境を設定しました。トレーニング時間は約8時間で、最終的な効果は満足のいくものでした。

2.2 モデルアーキテクチャ

製品セマンティックリコールシステムで使用される DSSM は、次の図に示す基本モデルに基づいており、ビジネス結果に 2 つの改善が加えられています。

図2: DSSM基本モデルの概略図

まず、製品リコールを照合する具体的なビジネスシナリオでは、製品のブランドとカテゴリが非常に重要な特徴です。正しいカテゴリーとブランドを組み合わせることができれば、最終的な効果は間違いなく悪くないでしょう。したがって、このような機能を直接利用するために、次の図に示すように、非常に直接的なアプローチが採用されています。

図3: 周波数偏差とカテゴリ特性の概略図

上図からわかるように、ブランドとカテゴリーは、埋め込み表現学習層と 2 つの MLP 層を経て、LSTM によって抽出された意味ベクトルと同じ次元のベクトルに直接マッピングされ、その後、2 つが加算されて最終的な意味ベクトル表現が得られます。

第二に、注意メカニズムを導入することで、洗濯機などの洗濯機の付属品を大量に返品する問題を解決し、コアワード「洗濯機」の重みを高め、想起効果を大幅に向上させることができます。具体的な使用方法は、次の図8に示されています。

図4: 注意メカニズムの使用の模式図

上の 2 つの図からわかるように、古典的な乗法アテンション メカニズムを参照する方法は 2 つあります。1 つ目の方法は、クエリの最後の LSTM ユニットによって出力された隠しベクトルをコンテキストとして使用し、ドキュメントの各タイム ステップの隠しベクトルとのドット積計算を実行し、計算結果を重みとして使用します。各タイムステップのベクトルに重みを掛けて合計し、最終的なセマンティック ベクトルを取得します。 2 番目の方法は、クエリの各タイム ステップの重みを取得し、クエリの最終的なセマンティック ベクトルを取得します。その後、これを並列に接続するか、ドキュメントの最終ユニット出力に最終製品セマンティック ベクトルとして追加します。

2.3 モデル出力

モデルの出力は、セマンティックリコールシステムの入力として機能し、主に 2 つの側面で構成されます。 1 つ目は、検索クエリのセマンティック ベクトルをリアルタイムで生成するモジュールです。具体的なアプローチでは、一度に 1 つのクエリのみが入力される実際のビジネス シナリオを考慮し、モデル入力インターフェイスと特定の処理方法を変換し、トレーニング済みのモデル パラメータを読み取り、tf-serving サービス フレームワークに必要な pb 形式のモデルとして再度保存する必要があります。次に、リコールされた製品のセマンティック ベクトル セットがオフラインで生成されます。アテンション メカニズムの使用により、クエリも製品セマンティック ベクトルの生成に参加する必要があります。リコール セットのサイズは 100 万に近いため、トレーニング モデルを再利用して一度に batch_size のセマンティック ベクトルを生成するのに便利です。これらはすべて、平方和が 1 のベクトルに正規化されてメモリに保存されます。次の batch_size が生成されると、それらは直接結合されます。すべての製品の意味ベクトルは、numpy ベクトルの形式でメモリに保存されます。ハードディスクに保存される最終ファイルは、サイズが約 500M の npy ファイルです。スペース コストは許容範囲内です。

3. セマンティックリコールシステムの紹介

3.1 データの準備

Suning の包括的なデータ ウェアハウス環境を使用して、HIVE スクリプトが毎日決まった時間に実行され、ユーザーの検索用語、対応する製品タイトル、コード、ブランド カテゴリ、品質スコア、その他のフィールドに関する情報が取得されます。コーパスは、検索語の検索数と商品の質によって分類され、質の高いものがコーパスとして選択され、補足として他の競合他社のプラットフォームから商品情報が取得されます。同時に、初期コーパスは、単語の分割、無意味な単語の削除、中国語と英語の個別処理などの前処理手順を含む、Spark プラットフォーム上で処理されます。最後に、処理されたコーパスは 1 つの正の DOC と 4 つの負の DOC に変換され、モデルのトレーニングに直接使用できます。さらに、同じ製品をリコールすることを避けるために、リコールに応じてコーパスの重複を排除する必要があります。最後に、リコール対象製品のタイトルセットと、正確に一致する製品 ID および製品品質セットがリコールシステムに提供されます。

3.2 オンラインマッチング

上記からわかるように、モデルはリコール対象製品の準備されたタイトルセットを npy ファイルに処理し、ディスクに保存します。さらに、tf-serving サービス フレームワークに必要な pb 形式のモデルが出力され、ユーザーの検索用語をリアルタイムでセマンティック ベクトルに変換できます。次に行うことは、クエリ ベクトルとすべての製品セマンティック ベクトル間のペアワイズ コサイン距離を計算し、TopN を返し、対応する製品 ID を見つけて、それをフロントエンドに提供して表示することです。

ここで TopN を見つけるプロセスには、「高速、正確、そして徹底的」であることが求められることに注意してください。Facebook のオープンソース Faiss フレームワークを使用します。正確性を確保するために、組み込みの高度なインデックス作成機能は使用しません。各ペア間の距離の最も単純なブルート フォース計算のみを使用します。これにより、正しい結果が確実に見つかります。テストの結果、データ サイズが数百万で次元が 256 の場合、ブルート フォース検索にかかる時間は 1 ミリ秒未満であり、完全に許容範囲内であることがわかりました。さらに、ビジネス上の目的で、高品質スコアの項目の重み付けが高められています。これは、コサイン距離に品質スコアを掛け合わせるだけで実現され、高品質スコアの項目と検索用語の間のコサイン距離が人為的に増加します。

3.3 システム環境

セマンティックリコールシステム全体のシステム環境は比較的明確で、Sparkプラットフォームでの大規模データ処理、Jupyterディープラーニングプラットフォームでのモデルトレーニングとセマンティックベクトル生成、LinuxホストでのFaissマッチングによるTopNの検索プロセス、tf-servingオンラインサーバーのレイアウト、結果のデバッグを容易にするフロントエンドのマッチング結果表示などが含まれています(次の図を参照)。

図5: リコールシステムのフロントエンドディスプレイ

返される製品の数、使用されるモデルのバージョン、使用されるインデックスのタイプなど、さまざまなパラメータを簡単に渡すことができるため、デバッグが非常に便利になります。

4. まとめ

本稿では、Suning 製品セマンティック リコールにおける DSSM テキスト マッチング モデルの応用について紹介します。これには主に、アルゴリズムの原理とエンジニアリングの実践という 2 つの側面が含まれます。 Suning Search Team は、検索マッチング、パーソナライズされた推奨、ナレッジ グラフ、インテリジェントな対話など、自然言語処理分野で多くの試みと実践を行っています。スペースの制限により、この記事ではそれらを紹介しません。読者の皆様は最新の記事をフォローしてください。

参考文献

  1. Huang PS、He X、Gao J、他「クリックスルーデータを使用したウェブ検索のための深層構造セマンティックモデルの学習[C]// ACM International Conference on Conference on Information & Knowledge Management. ACM、2013:2333-2338.
  2. Shen, Yelong、他「情報検索のための畳み込みプーリング構造を備えた潜在的意味モデル」第 23 回 ACM 国際情報知識管理会議議事録。ACM、2014 年。
  3. Palangi, Hamid、et al.「情報検索のための長期短期記憶によるセマンティックモデリング」arXiv プレプリント arXiv:1412.6629 (2014)。
  4. http://ju.outofmemory.cn/entry/316660
  5. http://blog.csdn.net/u013074302/article/details/76422551
  6. ブログガーデン DSSM アルゴリズム - テキストの類似性を計算する
  7. Gers, Felix A.、Schmidhuber, Jrgen、および Cummins, Fred。忘却の学習: lstm による継続的予測。Neural Computation、12:2451–2471、1999 年。
  8. Gers, Felix A.、Schraudolph, Nicol N.、および Schmidhuber, J¨urgen。LSTM リカレント ネットワークによる正確なタイミングの学習。J. Mach. Learn. Res.、3:115–143、2003 年 3 月。

著者について

蘇寧テクノロジーグループの消費者プラットフォーム研究開発センターのアルゴリズム専門家である周傑氏は、主に自然言語処理、パーソナライズされた推奨、検索マッチングなどの分野の研究開発に従事しており、従来の機械学習とディープラーニングの豊富な実践経験を持っています。

蘇寧テクノロジーグループのコンシューマープラットフォームR&DセンターのテクニカルディレクターであるLi Chunsheng氏は、製品、インテリジェンス、検索テクノロジーラインのアーキテクチャ設計とコアテクノロジー計画を担当しています。彼は検索分野で長年の実務経験を持ち、Suning.com検索プラットフォームを0から1に構築しました。彼は7年以上検索分野で働いており、検索アーキテクチャ設計とパフォーマンス最適化に精通しています。また、機械学習やビッグデータなどの分野でのシナリオベースの検索アプリケーションでも豊富な経験を持っています。

蘇寧テクノロジーグループのコンシューマープラットフォーム研究開発センターの検索アルゴリズムチームの責任者である孫鵬飛氏は、NLP、検索ランキング、インテリジェントな質疑応答の研究に重点を置いています。チームを率いて、検索ランキングシステム、パーソナライゼーションシステム、インテリジェント検索システム、不正行為防止システムなどをゼロから構築しました。彼は、製品におけるアルゴリズムのチューニングとエンジニアリングアプリケーションの実践において豊富な経験を持っています。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  ファーウェイクラウド、プロセス全体の簡素化と自動化によりAI開発モデルをアップグレードするModelArts 2.0をリリース

>>:  DeepMind が 3 つの新しいフレームワークを同時にオープンソース化しました。深層強化学習の応用は春の到来を告げるのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

...

...

...

2019年、小売業界はこれら10のテクノロジーによって革命を起こすでしょう。

[[252097]] 2013年から2018年にかけて、AI + 小売業の新興企業は374件の取引...

AI は無限であり、あなたの声によって動かされます。マイクロソフトは慈善団体や業界のパートナーと協力し、テクノロジーで愛を育むお手伝いをします。

12月2日、マイクロソフトと周迅のAI音声紅丹丹慈善プロジェクトの発起人である魯音源文化伝承社は、...

...

...

清華大学が世界初のオンチップ学習メモリスタメモリコンピューティング統合チップを開発、その成果がサイエンス誌に掲載された。

10月9日、清華大学の公式Weiboアカウントは、オンチップ学習をサポートする世界初のメモリスタス...

...

DFSアルゴリズムは5つの島の問題を克服する

[[429450]]この記事はWeChatの公開アカウント「labuladong」から転載したもので...

AI人材が500万人不足!文部省、高等職業教育に人工知能専攻を追加

教育部は最近、浙江大学を含む35の大学の学部課程に人工知能専攻科目を追加したことに続き、大学の職業教...

...

Baidu は革命を起こしました!

10月17日午前、百度世界2023大会に、百度創業者のロビン・リー氏が白いシ​​ャツを着て落ち着い...

MonoLSS: 視覚的な 3D 検出トレーニングのためのサンプル選択

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...