美団点評におけるディープラーニングの応用

序文

近年、ディープラーニングは音声、画像、自然言語処理などの分野で優れた成果を上げており、最も注目されるテクノロジーのホットスポットの一つとなっています。美団点評は過去2年間、ディープラーニングの分野でも研究を行ってきました。自然言語処理の分野では、ディープラーニング技術をテキスト分析、セマンティックマッチング、検索エンジンランキングモデルなどに適用し、コンピュータービジョンの分野では、テキスト認識、ターゲット検出、画像分類、画像品質ランキングなどに適用してきました。以下では、セマンティックマッチング、画像品質ランキング、テキスト認識の3つのアプリケーションシナリオを例に、Meituan Dianpingのディープラーニングテクノロジーとアプリケーションにおける経験と方法論を詳しく紹介します。

ディープラーニングに基づくセマンティックマッチング

セマンティックマッチング技術は、情報検索や検索エンジンにおいて重要な役割を果たしており、結果の再現、正確な並べ替えなどの面で重要な役割を果たします。

従来の意味では、セマンティックマッチングテクノロジーは、テキストレベルでのセマンティック一貫性の程度に重点を置いており、これを言語レベルでのセマンティックマッチングと呼びます。Meituan Dianping のような典型的な O2O アプリケーションシナリオでは、結果はユーザーが表現した言語レベルのセマンティクスと強く相関しているだけでなく、ユーザーの意図やユーザーのステータスとも相関しています。

ユーザーの意図とは、ユーザーが何のためにここに来るのかということです。たとえば、ユーザーが百度で「Guannei Guanwai」を検索する場合、そのユーザーの意図はGuanneiとGuanwaiが表す地理的領域を知りたいということかもしれません。「Guannei」と「Guanwai」は2つの単語として検索されますが、Meituanで「Guannei Guanwai」を検索する場合、ユーザーは「Guannei Guanwai」というレストランを見つけたいので、「Guannei Guanwai」は1つの単語として扱われます。

ユーザーのステータスについて言えば、北京のユーザーと武漢のユーザーが百度や淘宝網で何らかの用語を検索した場合、結果はあまり変わらないかもしれませんが、地理的な場所と強く関連する美団のようなシナリオでは、結果はまったく異なります。たとえば、武漢で「黄鶴楼」を検索する場合、ユーザーは観光スポットのチケットを探している可能性がありますが、北京で「黄鶴楼」を検索する場合、ユーザーはレストランを探している可能性があります。

言語レイヤー情報とユーザーの意図およびステータスを組み合わせてセマンティックマッチングを実行するにはどうすればよいでしょうか?

私たちのアイデアは、短いテキストに加えていくつかの O2O ビジネスシナリオ機能を導入し、それらを設計されたディープラーニングセマンティックマッチングフレームワークに統合し、クリック/注文データを使用してセマンティックマッチングモデルの最適化方向を導き、最後にトレーニングされたクリック関連性モデルを検索関連ビジネスに適用することです。下の図は、美団点評シナリオ向けに設計されたクリック類似性フレームワークである ClickNet です。これは、効果とパフォーマンスの両方を考慮した比較的軽量なモデルであり、オンラインアプリケーションにうまく導入できます。

図1 クリックネットフレームワーク

プレゼンテーション層

クエリと商店名はそれぞれ意味的特徴とビジネス的特徴によって表現され、その中で意味的特徴が核心です。短いテキストの全体的なベクトル表現は、DNN/CNN/RNN/LSTM/GRU法によって得られます。さらに、ユーザーと商店の間の距離、商店の評価など、ユーザーまたは商店の関連情報などのビジネス関連の特徴が導入され、最終的に組み合わせてアップロードされます。

学習レイヤー

複数層の完全接続と非線形変更の後、マッチングスコアが予測され、スコアとラベルに応じてネットワークが調整され、クエリと販売者名の間のクリックマッチング関係が学習されます。

このアルゴリズムフレームワークに基づいて、良好な結果をもたらすセマンティックモデルをトレーニングするには、シナリオに応じてモデルを最適化する必要もあります。まず、サンプルの不均衡、サンプルの重要度、位置の偏りなどの問題を考慮して、トレーニングコーパスに対して多くの最適化を行います。次に、モデルパラメータを調整するときは、さまざまな最適化アルゴリズム、ネットワークサイズレベル、ハイパーパラメータの調整などの問題を考慮します。モデルのトレーニングと最適化を経て、当社のセマンティックマッチングモデルは Meituan Dianping プラットフォーム上の検索、広告、ホテル、観光などのリコールおよびソートシステムに導入され、訪問から購入までの率、収益、クリックスルー率などの指標が効果的に向上しました。

まとめ

セマンティックマッチングにおけるディープラーニングの応用には、ビジネスシナリオに適したアルゴリズムフレームワークの設計が必要です。また、ディープラーニングアルゴリズムは特徴エンジニアリング作業を削減しますが、モデルチューニングの難易度が増します。したがって、フレームワーク設計、ビジネスコーパス処理、モデルパラメータチューニングの3つの側面を総合的に考慮することで、効果とパフォーマンスの両方に優れたモデルを実現できます。

ディープラーニングによる画質ランキング

国内外の大手インターネット企業（テンセント、アリババ、イェルプなど）のオンライン広告事業は、どのような画像がより多くのクリックを引き付けることができるかに注目しています。美団点評では、販売店の最初の写真は販売店または運営者が手動で指定します。ユーザーをより引き付けるために最初の写真をどのように選択すればよいでしょうか?画像品質ランキングアルゴリズムの目的は、ユーザーがクリックしたくなるような、より良い最初の画像を自動的に選択することです。

従来の画像品質ランキング方法は、主に美的観点から品質を評価し、色の統計、被写体の分布、構成などを通じて画像の美しさを分析します。しかし、実際のビジネスシーンでは、画質に対するユーザーの判断は主観的な要素が強く、統一された評価基準を形成することが困難です。例えば：

ユーザーによっては、明瞭度や解像度に敏感な人もいます。
ユーザーによっては、色や構成に敏感な人もいます。
一部のユーザーは、単調な環境画像よりも視覚的にインパクトのあるコンテンツを好みます。

そのため、私たちはディープラーニングの手法を使用して、画像のどの属性がユーザーの判断に影響を与えるか、またこれらの属性を効果的に統合して画像を評価する方法を探ります。

AlexNet を使用して、画像の高レベルの意味的記述を抽出し、美しさ、記憶に残る可能性、魅力、カテゴリなどの高レベルの特徴を学習し、手動で設計された低レベルの特徴 (色、鮮明さ、コントラスト、コーナーなど) で補完します。これらの特徴を取得した後、浅いニューラルネットワークをトレーニングして、画像全体にスコアを付けます。このフレームワークの特徴 (図 2 を参照) は、ディープラーニングの特徴と従来の特徴を組み合わせ、グローバル特徴とローカル特徴の両方を含む低レベルの一般的な記述を保持しながら、高レベルのセマンティクスを導入していることです。

図2 画質ランキング技術フレームワーク

各次元の画像属性の学習には、それをサポートする大量のラベル付きデータが必要ですが、これをすべて手動でラベル付けするには非常にコストがかかります。そのため、Meituan Dianpingの画像ソースとPOIラベル付けシステムを借用しました。魅力属性の学習に関しては、Meituan Dealアルバム内のクリック率の高い写真（そのほとんどは一眼レフカメラで撮影されたもの）を正例として選択し、UGCアルバム内のクリック率の低い写真（そのほとんどは低価格の携帯電話で撮影されたもの）を負例として選択しました。カテゴリ属性の調査に関しては、Meituan の第 1 レベルカテゴリと一般的な第 2 レベルカテゴリを画像ラベルとして使用します。上記の品質ランキングモデルに基づいて、広告 POI に最も適した高品質の最初の画像を選択して表示することで、ユーザーのクリックを誘致し、ビジネス指標を向上させます。図 3 は、品質のソートに基づく最初の画像選択結果を示しています。

図3: 画像品質に基づく最初の画像選択

ディープラーニングベースのOCR

ユーザーエクスペリエンスを向上させるために、O2O 製品における OCR 技術の需要は、注文、支払い、配送、ユーザー評価にまで浸透しています。 OCR は Meituan Dianping のビジネスにおいて主に 2 つの役割を果たしています。一方で、モバイル決済のために銀行カードを撮影して自動的にバインドしたり、メニューの料理に関する情報をBDが入力するのを支援したりするなど、データ入力を支援します。一方では、審査と検証があります。たとえば、加盟店資格審査プロセスでは、加盟店がアップロードした身分証明書、営業許可証、ケータリング許可証などの書類の写真から情報が抽出され、検証されて、加盟店の正当性が確保されます。たとえば、加盟店の注文やユーザー評価中に生成された禁止語を含む写真は、機械によってフィルタリングされます。従来の OCR シナリオ (印刷されたテキスト、スキャンされたドキュメント) と比較して、Meituan の OCR シナリオは主に携帯電話で撮影した写真からテキスト情報を抽出して認識します。オフラインユーザーの多様性を考慮すると、主な課題は次のとおりです。

複雑な画像: ノイズ、ぼやけ、光の変化、変形。
テキストは複雑です: フォント、サイズ、色、磨耗、可変の線幅、任意の方向など。
複雑な背景: レイアウトが欠落しており、背景が干渉しています。

上記の課題に対して、従来の OCR ソリューションには次のような欠点があります。

レイアウト分析 (2 値化、接続ドメイン分析) によるテキスト行の生成には、レイアウト構造に強い規則性と前景と背景の強い分離性 (ドキュメント画像、ナンバープレートなど) が必要であり、前景と背景が複雑なランダムテキスト (シーンテキスト、メニュー、広告テキストなど) は処理できません。
文字認識モデルは、エッジ方向の特徴 (HOG など) を手動で設計してトレーニングされます。このような単一の特徴の一般化能力は、フォントが変更されたり、ぼやけたり、背景に干渉があったりすると急速に低下します。
文字のセグメンテーションに過度に依存すると、文字が歪んだり、詰まったり、ノイズがあったりする場合に、セグメンテーションエラーの伝播が特に顕著になります。

従来の OCR ソリューションの欠点を考慮して、ディープラーニングに基づく OCR を試しました。

1. Faster R-CNNとFCNに基づくテキストローカリゼーション

まず、事前情報の有無に基づいて、レイアウトを制御されたシーン (ID カード、営業許可証、銀行カードなど) と制御されていないシーン (メニューやドアのヘッダーなど) に分割します。

制御されたシナリオでは、テキストのローカリゼーションを特定のキーワードターゲットの検出問題に変換します。下の図に示すように、Faster R-CNN は主に検出に使用されます。回帰フレームの位置決め精度を確保し、計算速度を向上させるために、元のフレームワークとトレーニング方法を微調整しました。

キーワードターゲットのクラス内変動が限られていることを考慮して、ZF モデルのネットワーク構造を削減し、5 層の畳み込みを 3 層に減らしました。
トレーニングプロセス中に、陽性サンプルのオーバーラップ率しきい値が増加し、RPN レイヤーアンカーのアスペクト比がビジネスニーズに応じて調整されます。

図4. Faster R-CNNに基づく制御されたシーンテキストローカリゼーション

制御されていないシナリオでは、テキストの方向とストロークの幅が任意に変更される可能性があるため、オブジェクト検出における回帰ボックスの配置粒度が不十分です。次の図に示すように、セマンティックセグメンテーションで一般的に使用される完全畳み込みネットワーク (FCN) を使用して、ピクセルレベルのテキスト/背景注釈を実行します。位置決め精度と意味の明確さの両方を確保するために、最後のレイヤーでデコンボリューションを実行するだけでなく、深層レイヤーと浅層レイヤーのデコンボリューション結果を融合します。

図5 FCNに基づく非制御シーンでのテキストローカリゼーション

2. シーケンス学習フレームワークに基づくテキスト認識

文字分割と認識後処理のエラー伝播効果を効果的に制御し、エンドツーエンドのテキスト認識の学習可能性を実現するために、次の図に示すシーケンス学習フレームワークを採用しています。全体的なフレームワークは、畳み込み層、再帰層、変換層の 3 つの層に分かれています。畳み込み層は特徴を抽出し、再帰層は特徴シーケンス内の文字特徴の順序と文字の順序の両方を学習し、翻訳層は時系列分類結果をデコードします。

図6 シーケンス学習に基づくエンドツーエンドの認識フレームワーク

シーケンス学習フレームワークでは、トレーニングサンプルの数と分布に対する要件が厳しいため、実際のサンプル + 合成サンプルの方法を採用しました。実際のサンプルは主に Meituan Dianping のビジネスソース (メニュー、ID カード、営業許可証など) からのものであり、合成サンプルではフォント、変形、ぼかし、ノイズ、背景などの要素が考慮されています。上記のシーケンス学習フレームワークとトレーニングデータに基づくと、次の図に示すように、さまざまなシナリオでテキスト認識のパフォーマンスが大幅に向上します。

図7 ディープラーニングOCRと従来のOCRのパフォーマンス比較

要約する

この記事では主に自然言語処理と画像処理の2つの分野におけるディープラーニングの応用について紹介しましたが、美団点評におけるディープラーニングの価値はこれに限定されるものではありません。今後も、スマートインタラクション、配送スケジュール、スマートオペレーションなど、さまざまなシナリオをさらに深掘りし、美団点評製品のインテリジェント化に貢献していきます。

著者について

美団プラットフォームのインテリジェントテクノロジーセンターと美団点評のホテル・旅行事業グループの責任者である文朱氏は、2010年に清華大学で修士号を取得した後、百度に入社しました。機械翻訳の研究開発と複数の技術チームの管理に従事してきました。彼は2015年4月に美団に入社し、同社の事業における自然言語処理、画像処理、機械学習、ユーザープロファイリングなどの技術の実装を促進することを目的としたインテリジェントテクノロジーセンターの管理を担当しています。

美団点評の美団プラットフォームおよびホテル・旅行事業グループのNLP技術責任者である李彪氏は、以前はSogouとBaiduに勤務していた。 2015年に美団点評に入社し、NLP技術の蓄積と業務の実施に尽力してきました。担当業務には、ディープラーニングプラットフォームとモデル、検索、広告、推奨などの業務におけるテキスト分析の応用、インテリジェントな顧客サービスとインタラクションなどが含まれます。

美団点評プラットフォームおよびホテル・旅行事業グループの画像技術責任者であるシャオ・ミン氏は、以前はサムスン研究所に勤務していた。 2015年に美団点評に入社し、主に画像認識技術の蓄積と業務の実施に携わってきました。技術ディレクターとして、画像機械レビュー、第一画像選択、OCRなどのプロジェクトの立ち上げを主導し、美団製品のインテリジェント体験を促進し、人件費を節約しました。

<<: 知能の哲学: 人工知能の倫理的問題 (有益な AI)

>>: 人工知能技術の成功と失敗を支える5つの中核要素