序文 近年、ディープラーニングは音声、画像、自然言語処理などの分野で優れた成果を上げており、最も注目されるテクノロジーのホットスポットの一つとなっています。美団点評は過去2年間、ディープラーニングの分野でも研究を行ってきました。自然言語処理の分野では、ディープラーニング技術をテキスト分析、セマンティックマッチング、検索エンジンランキングモデルなどに適用し、コンピュータービジョンの分野では、テキスト認識、ターゲット検出、画像分類、画像品質ランキングなどに適用してきました。以下では、セマンティックマッチング、画像品質ランキング、テキスト認識の3つのアプリケーションシナリオを例に、Meituan Dianpingのディープラーニングテクノロジーとアプリケーションにおける経験と方法論を詳しく紹介します。 ディープラーニングに基づくセマンティックマッチングセマンティックマッチング技術は、情報検索や検索エンジンにおいて重要な役割を果たしており、結果の再現、正確な並べ替えなどの面で重要な役割を果たします。 従来の意味では、セマンティック マッチング テクノロジーは、テキスト レベルでのセマンティック一貫性の程度に重点を置いており、これを言語レベルでのセマンティック マッチングと呼びます。Meituan Dianping のような典型的な O2O アプリケーション シナリオでは、結果はユーザーが表現した言語レベルのセマンティクスと強く相関しているだけでなく、ユーザーの意図やユーザーのステータスとも相関しています。 ユーザーの意図とは、ユーザーが何のためにここに来るのかということです。たとえば、ユーザーが百度で「Guannei Guanwai」を検索する場合、そのユーザーの意図はGuanneiとGuanwaiが表す地理的領域を知りたいということかもしれません。「Guannei」と「Guanwai」は2つの単語として検索されますが、Meituanで「Guannei Guanwai」を検索する場合、ユーザーは「Guannei Guanwai」というレストランを見つけたいので、「Guannei Guanwai」は1つの単語として扱われます。 ユーザーのステータスについて言えば、北京のユーザーと武漢のユーザーが百度や淘宝網で何らかの用語を検索した場合、結果はあまり変わらないかもしれませんが、地理的な場所と強く関連する美団のようなシナリオでは、結果はまったく異なります。たとえば、武漢で「黄鶴楼」を検索する場合、ユーザーは観光スポットのチケットを探している可能性がありますが、北京で「黄鶴楼」を検索する場合、ユーザーはレストランを探している可能性があります。 言語レイヤー情報とユーザーの意図およびステータスを組み合わせてセマンティックマッチングを実行するにはどうすればよいでしょうか? 私たちのアイデアは、短いテキストに加えていくつかの O2O ビジネス シナリオ機能を導入し、それらを設計されたディープラーニング セマンティック マッチング フレームワークに統合し、クリック/注文データを使用してセマンティック マッチング モデルの最適化方向を導き、最後にトレーニングされたクリック関連性モデルを検索関連ビジネスに適用することです。下の図は、美団点評シナリオ向けに設計されたクリック類似性フレームワークである ClickNet です。これは、効果とパフォーマンスの両方を考慮した比較的軽量なモデルであり、オンライン アプリケーションにうまく導入できます。 図1 クリックネットフレームワーク プレゼンテーション層 クエリと商店名はそれぞれ意味的特徴とビジネス的特徴によって表現され、その中で意味的特徴が核心です。短いテキストの全体的なベクトル表現は、DNN/CNN/RNN/LSTM/GRU法によって得られます。さらに、ユーザーと商店の間の距離、商店の評価など、ユーザーまたは商店の関連情報などのビジネス関連の特徴が導入され、最終的に組み合わせてアップロードされます。 学習レイヤー 複数層の完全接続と非線形変更の後、マッチングスコアが予測され、スコアとラベルに応じてネットワークが調整され、クエリと販売者名の間のクリックマッチング関係が学習されます。 このアルゴリズム フレームワークに基づいて、良好な結果をもたらすセマンティック モデルをトレーニングするには、シナリオに応じてモデルを最適化する必要もあります。まず、サンプルの不均衡、サンプルの重要度、位置の偏りなどの問題を考慮して、トレーニング コーパスに対して多くの最適化を行います。次に、モデル パラメータを調整するときは、さまざまな最適化アルゴリズム、ネットワーク サイズ レベル、ハイパーパラメータの調整などの問題を考慮します。モデルのトレーニングと最適化を経て、当社のセマンティック マッチング モデルは Meituan Dianping プラットフォーム上の検索、広告、ホテル、観光などのリコールおよびソート システムに導入され、訪問から購入までの率、収益、クリックスルー率などの指標が効果的に向上しました。 まとめセマンティックマッチングにおけるディープラーニングの応用には、ビジネスシナリオに適したアルゴリズムフレームワークの設計が必要です。また、ディープラーニングアルゴリズムは特徴エンジニアリング作業を削減しますが、モデルチューニングの難易度が増します。したがって、フレームワーク設計、ビジネスコーパス処理、モデルパラメータチューニングの3つの側面を総合的に考慮することで、効果とパフォーマンスの両方に優れたモデルを実現できます。 ディープラーニングによる画質ランキング国内外の大手インターネット企業(テンセント、アリババ、イェルプなど)のオンライン広告事業は、どのような画像がより多くのクリックを引き付けることができるかに注目しています。美団点評では、販売店の最初の写真は販売店または運営者が手動で指定します。ユーザーをより引き付けるために最初の写真をどのように選択すればよいでしょうか?画像品質ランキングアルゴリズムの目的は、ユーザーがクリックしたくなるような、より良い最初の画像を自動的に選択することです。 従来の画像品質ランキング方法は、主に美的観点から品質を評価し、色の統計、被写体の分布、構成などを通じて画像の美しさを分析します。しかし、実際のビジネスシーンでは、画質に対するユーザーの判断は主観的な要素が強く、統一された評価基準を形成することが困難です。例えば:
そのため、私たちはディープラーニングの手法を使用して、画像のどの属性がユーザーの判断に影響を与えるか、またこれらの属性を効果的に統合して画像を評価する方法を探ります。 AlexNet を使用して、画像の高レベルの意味的記述を抽出し、美しさ、記憶に残る可能性、魅力、カテゴリなどの高レベルの特徴を学習し、手動で設計された低レベルの特徴 (色、鮮明さ、コントラスト、コーナーなど) で補完します。これらの特徴を取得した後、浅いニューラル ネットワークをトレーニングして、画像全体にスコアを付けます。このフレームワークの特徴 (図 2 を参照) は、ディープラーニングの特徴と従来の特徴を組み合わせ、グローバル特徴とローカル特徴の両方を含む低レベルの一般的な記述を保持しながら、高レベルのセマンティクスを導入していることです。 図2 画質ランキング技術フレームワーク 各次元の画像属性の学習には、それをサポートする大量のラベル付きデータが必要ですが、これをすべて手動でラベル付けするには非常にコストがかかります。そのため、Meituan Dianpingの画像ソースとPOIラベル付けシステムを借用しました。魅力属性の学習に関しては、Meituan Dealアルバム内のクリック率の高い写真(そのほとんどは一眼レフカメラで撮影されたもの)を正例として選択し、UGCアルバム内のクリック率の低い写真(そのほとんどは低価格の携帯電話で撮影されたもの)を負例として選択しました。カテゴリ属性の調査に関しては、Meituan の第 1 レベル カテゴリと一般的な第 2 レベル カテゴリを画像ラベルとして使用します。上記の品質ランキングモデルに基づいて、広告 POI に最も適した高品質の最初の画像を選択して表示することで、ユーザーのクリックを誘致し、ビジネス指標を向上させます。図 3 は、品質のソートに基づく最初の画像選択結果を示しています。 図3: 画像品質に基づく最初の画像選択 ディープラーニングベースのOCRユーザーエクスペリエンスを向上させるために、O2O 製品における OCR 技術の需要は、注文、支払い、配送、ユーザー評価にまで浸透しています。 OCR は Meituan Dianping のビジネスにおいて主に 2 つの役割を果たしています。一方で、モバイル決済のために銀行カードを撮影して自動的にバインドしたり、メニューの料理に関する情報をBDが入力するのを支援したりするなど、データ入力を支援します。一方では、審査と検証があります。たとえば、加盟店資格審査プロセスでは、加盟店がアップロードした身分証明書、営業許可証、ケータリング許可証などの書類の写真から情報が抽出され、検証されて、加盟店の正当性が確保されます。たとえば、加盟店の注文やユーザー評価中に生成された禁止語を含む写真は、機械によってフィルタリングされます。従来の OCR シナリオ (印刷されたテキスト、スキャンされたドキュメント) と比較して、Meituan の OCR シナリオは主に携帯電話で撮影した写真からテキスト情報を抽出して認識します。オフライン ユーザーの多様性を考慮すると、主な課題は次のとおりです。
上記の課題に対して、従来の OCR ソリューションには次のような欠点があります。
従来の OCR ソリューションの欠点を考慮して、ディープラーニングに基づく OCR を試しました。 1. Faster R-CNNとFCNに基づくテキストローカリゼーション まず、事前情報の有無に基づいて、レイアウトを制御されたシーン (ID カード、営業許可証、銀行カードなど) と制御されていないシーン (メニューやドアのヘッダーなど) に分割します。 制御されたシナリオでは、テキストのローカリゼーションを特定のキーワード ターゲットの検出問題に変換します。下の図に示すように、Faster R-CNN は主に検出に使用されます。回帰フレームの位置決め精度を確保し、計算速度を向上させるために、元のフレームワークとトレーニング方法を微調整しました。
図4. Faster R-CNNに基づく制御されたシーンテキストローカリゼーション 制御されていないシナリオでは、テキストの方向とストロークの幅が任意に変更される可能性があるため、オブジェクト検出における回帰ボックスの配置粒度が不十分です。次の図に示すように、セマンティックセグメンテーションで一般的に使用される完全畳み込みネットワーク (FCN) を使用して、ピクセルレベルのテキスト/背景注釈を実行します。位置決め精度と意味の明確さの両方を確保するために、最後のレイヤーでデコンボリューションを実行するだけでなく、深層レイヤーと浅層レイヤーのデコンボリューション結果を融合します。 図5 FCNに基づく非制御シーンでのテキストローカリゼーション 2. シーケンス学習フレームワークに基づくテキスト認識 文字分割と認識後処理のエラー伝播効果を効果的に制御し、エンドツーエンドのテキスト認識の学習可能性を実現するために、次の図に示すシーケンス学習フレームワークを採用しています。全体的なフレームワークは、畳み込み層、再帰層、変換層の 3 つの層に分かれています。畳み込み層は特徴を抽出し、再帰層は特徴シーケンス内の文字特徴の順序と文字の順序の両方を学習し、翻訳層は時系列分類結果をデコードします。 図6 シーケンス学習に基づくエンドツーエンドの認識フレームワーク シーケンス学習フレームワークでは、トレーニング サンプルの数と分布に対する要件が厳しいため、実際のサンプル + 合成サンプルの方法を採用しました。実際のサンプルは主に Meituan Dianping のビジネスソース (メニュー、ID カード、営業許可証など) からのものであり、合成サンプルではフォント、変形、ぼかし、ノイズ、背景などの要素が考慮されています。上記のシーケンス学習フレームワークとトレーニング データに基づくと、次の図に示すように、さまざまなシナリオでテキスト認識のパフォーマンスが大幅に向上します。 図7 ディープラーニングOCRと従来のOCRのパフォーマンス比較 要約するこの記事では主に自然言語処理と画像処理の2つの分野におけるディープラーニングの応用について紹介しましたが、美団点評におけるディープラーニングの価値はこれに限定されるものではありません。今後も、スマートインタラクション、配送スケジュール、スマートオペレーションなど、さまざまなシナリオをさらに深掘りし、美団点評製品のインテリジェント化に貢献していきます。 著者について 美団プラットフォームのインテリジェントテクノロジーセンターと美団点評のホテル・旅行事業グループの責任者である文朱氏は、2010年に清華大学で修士号を取得した後、百度に入社しました。機械翻訳の研究開発と複数の技術チームの管理に従事してきました。彼は2015年4月に美団に入社し、同社の事業における自然言語処理、画像処理、機械学習、ユーザープロファイリングなどの技術の実装を促進することを目的としたインテリジェントテクノロジーセンターの管理を担当しています。 美団点評の美団プラットフォームおよびホテル・旅行事業グループのNLP技術責任者である李彪氏は、以前はSogouとBaiduに勤務していた。 2015年に美団点評に入社し、NLP技術の蓄積と業務の実施に尽力してきました。担当業務には、ディープラーニングプラットフォームとモデル、検索、広告、推奨などの業務におけるテキスト分析の応用、インテリジェントな顧客サービスとインタラクションなどが含まれます。 美団点評プラットフォームおよびホテル・旅行事業グループの画像技術責任者であるシャオ・ミン氏は、以前はサムスン研究所に勤務していた。 2015年に美団点評に入社し、主に画像認識技術の蓄積と業務の実施に携わってきました。技術ディレクターとして、画像機械レビュー、第一画像選択、OCRなどのプロジェクトの立ち上げを主導し、美団製品のインテリジェント体験を促進し、人件費を節約しました。 |
<<: 知能の哲学: 人工知能の倫理的問題 (有益な AI)
社会の進歩と国民の意識の高まりに伴い、社会全体が女性の権利にますます注目するようになっています。 3...
デジタルトランスフォーメーションは10年以上にわたってビジネス変革の中核を担ってきましたが、AIの台...
みんなで思い出すと「サプライチェーン」が浮かび上がる最近、テスラは中国で国産テスラ車の一部をリコール...
ロボットは車を持ち上げたり、手術を手伝ったりするようにプログラムできますが、卵など、これまで扱ったこ...
人工知能の発展により、機械ははるかに賢くなりました。コンピュータプログラムさえ設定しておけば、多くの...
[[216638]]韓国メディアは、中国の囲碁棋士である柯潔氏が2018年春にテンセントが開発した人...
近年、ビッグデータとディープラーニングに基づく人工知能は、驚くべきコンピューティング能力と学習能力を...
ディープ ニューラル ネットワークは、ディープラーニング モデルが画像分類や音声認識などの従来の機械...
米国現地時間3月14日、マイクロソフトの研究者らは、人間と同等の精度でテキストを翻訳できる人工知能を...
[[378797]]画像ソース: unsplashマッキンゼー・グローバル・インスティテュートの調...
IDCによると、世界の企業は2023年に160億ドル(ITホーム注:現在は約1169.6億人民元)を...
[[206505]]人工知能は現在、熱く議論されている業界であり、ディープラーニングは最もホットな、...