Gome のディープラーニング初体験により、ソーシャル e コマースのインテリジェント時代が幕を開けます。

[[197317]]

[51CTO.com からのオリジナル記事]今週の金曜日 (2017 年 7 月 21 日)、51CTO が主催する WOTI2017 グローバルイノベーションテクノロジーサミットが北京ルネッサンスホテルで開催されます。サミットでは、終日の *** フォーラムのほか、ディープラーニング、ヒューマンコンピューターインタラクション、スマート + アプリケーションに関するサブフォーラムが開催されます。

国美ビッグデータセンター副所長の楊吉氏は、ディープラーニングサブフォーラムに出席し、「ディープラーニングがソーシャル電子商取引のインテリジェント時代を切り開く」と題する講演を行う予定。会議前のディスカッションで、 Yang Ji 氏がこの講演の技術的なハイライトの一部を紹介しました。ちょっと覗いてみましょう。

人工知能、機械学習、ディープラーニングの関係

フォン・ノイマン・アーキテクチャが導入されて以来、人類はコンピューターをインテリジェントに使用したいという願望を抱いてきました。つまり、コンピュータやロボットを活用することで、人間が複雑なことや不可能なことを行えるようになり、社会全体の生産効率が根本的に向上するのです。

機械学習やディープラーニングと比較すると、人工知能の概念はより広範囲にわたります。機械学習手法が登場する前は、ほとんどの人工知能アプリケーションは論理的推論、つまり多数のルールを設定し、さまざまなシナリオで機械やプログラムに選択を行わせるという手法に基づいていました。

人工知能の分野である機械学習は、統計的または幾何学的な表現を使用して問題を解決し、コンピューターが人間の学習行動をシミュレートまたは実装して新しい知識やスキルを獲得する方法に特化しています。機械学習が人工知能の分野で新たな波を起こしたのは、インターネット産業の台頭が始まった 1990 年代になってからでした。

ディープラーニングはニューラルネットワークモデルのカテゴリに属し、それ自体は新しい概念ではありません。1940 年代から 1950 年代には、最も単純なニューラルネットワークであるパーセプトロンモデルが存在していました。

2006 年に Geoffrey Hinton が多層 RBM ネットワーク (DBN) をトレーニングするための Layerwise Pre-Training 方式を提案し、ニューラルネットワークのビッグデータへの影響は大きく進歩しました。

ディープラーニング自体は、トレーニングデータをレイヤーで表現し、低レベルの特徴を徐々に高レベルの特徴に抽象化し、非常に複雑な高次元の非線形関数を適合させるプロセスであり、ほとんどの機械学習モデルの範囲をはるかに超えています。

国美における機械学習の応用

現在、Gome における機械学習の応用は、基本的なデータ収集、データ処理、特徴エンジニアリング、モデルの展開など、従来の段階で成熟に達しています。現在の主な作業は、アルゴリズムとビジネスロジックの迅速な反復です。

今後は、ディープラーニング、コンピュータービジョン、自然言語処理、音声認識などの研究開発を強化していきます。検索、推奨、広告などのオンラインビジネスに加え、オフライン店舗での新たなショッピングシナリオのサポートにも注力し、ソーシャルeコマース向けのGomeの新しい小売プラットフォームの実装を実現します。

私がGomeに入社した当時、同社の機械学習能力は比較的弱かったのですが、その後、私は自らチームを構築し、アルゴリズムやアーキテクチャの展開などをすべて手がけました。前回の結果と比較すると、GMV は大幅に増加しました。たとえば、商品推奨プロセスでは、機械学習ソートの使用により、従来のソート方法と比較してあらゆる面で大きな変化がもたらされました。

初期段階では、Web ホームページやモバイル APP ホームページなどの推奨場所については、システムがコールドスタートデータに基づいていくつかの分類と統計を行い、ページに表示します。この時点で、すべてのユーザーが訪問したときに同じ効果が表示されます。

これにより、ユーザーは推奨製品への興味を失い、定着率が下がるだけでなく、他の製品の貴重な露出機会も無駄になってしまいます。では、推奨事項をどのようにパーソナライズするのでしょうか?これには、機械学習を使用して推奨事項をパーソナライズされた並べ替えを実行することが含まれます。

次の図は、機械学習のソートワークフローを示しています。

まず、膨大な量のデータをトレーニングし、ユーザー、クエリ、販売者データに基づいて特徴を見つけ、モデルトレーニングを行い、オンライン展開後に正式にオンラインになります。

次の図は、推奨ソートのトレーニングプロセスを示しています。

推奨ランキングのトレーニングプロセスは、シーンの回復、トレーニングサンプルの構築、モデルのトレーニング、オンライン実験の 4 つの部分で構成されます。

推奨されるオフラインモデル構築プロセス:

クリック、カートへの追加、フォロー、注文などのユーザーの行動を収集します。
結合 (ホワイトリスト)、統計的切り捨て、位置バイアス、複数の追加/削除などのフィルター動作。
行動スコアリングルールを策定し、スコアリングマトリックスを生成します。
行列分解モデルをトレーニングします。
キャッシュをインポートします。テキストを入力してください。

次の図は、オフラインモデルを推奨するためのスコアリングルールを示しています。

ここで注意すべき点は、スコアリングを行う前に、「クリックマニア」、「クリックが遅いユーザー」、「購入後に注文を確認するユーザー」などの状況を除外してデータをクリーンアップする必要があることです。その中でも、非常にアクティブなユーザーの行動をダウンサンプリングする必要があります。

国美におけるディープラーニングの応用

従来のコンピュータービジョンのワークフローでは、コンピュータービジョンの専門家が SIFT、KAZE、HoG、SURF などの機能を設計します。次のステップは、マルチターゲット認識用の分類器をトレーニングすることです。

次の図は、従来のコンピュータービジョンのワークフローを示しています。

従来のコンピュータービジョンの分野では、ドメイン知識が必要なだけでなく、膨大な時間もかかります。ディープラーニングの発展により、この分野に新たな変化がもたらされました。

ディープラーニングワークフローは、トレーニングデータに基づいて特徴を自動的に構築し、特徴抽出と分類/検出タスクを同時に実行します。ディープラーニングの専門家が行う必要があるのは、ニューラルネットワークアーキテクチャを定義してトレーニングすることだけです。

次の図は、ディープラーニングのワークフローを示しています。

ディープラーニングは優れた特徴を自動的にトレーニングし、さまざまな分野で多くの手法を活用できます。 Gome のアプローチは、コンピュータービジョン機能とディープラーニング機能を組み合わせたディープラーニング + CV ワークフローです。

同時に、コンピュータービジョンの特徴と DNN の特徴が抽出され、マルチターゲット認識が実行されます。以下のように表示されます。

ディープラーニングと視覚的特徴

機械学習を使用して画像の視覚的特徴を抽出するプロセスは、画像注釈、特徴抽出、次元削減、マッチング検索の 4 つのステップに分けられます。

画像の注釈。 Gome の Web サイト全体の製品画像にラベルが付けられます。このプロセスで最も重要なタスクは、データのクリーニング、つまりカテゴリに対応できない画像を削除したり、カテゴリを再調整したりすることです。

まず、過去 1 年間の Gome の Web サイト全体における各カテゴリの製品総数の分布をカウントし、その分布に基づいて画像をサンプリングしました。

特徴を抽出します。画像の特徴は、ディープラーニングによって得られた特徴と画像の局所的な特徴に分けられます。 CNN は caffe を使用してトレーニングできます。

最後から2番目のレイヤーの出力は特徴学習（ディープラーニング＋転移学習）の結果として抽出され、局所特徴演算子（SIFT、kazeなど）を使用して画像の局所特徴を抽出できます。

次元削減。ディープラーニングで得られた特徴量の次元を削減するために積量子化法が使用され、画像の局所特徴量の次元を削減するためにフィッシャーベクトルが使用されます。

一致する検索。各製品に類似する製品のセットを検索するには、最近傍検索方式を使用します。

ディープラーニングが新しいGomePlusシナリオ「写真購入」を構築

ディープラーニングをベースに構築された「写真と購入」シナリオがGomeに登場。ユーザーがアップロードした写真からカテゴリーを予測し、関連商品を推奨することができる。具体的な手順は次のとおりです。

ユーザーが写真を撮影したり、PC や携帯電話から商品画像を選択してアップロードに成功すると、システムが特徴ベクトルを計算して照合します。次に、ユーザーが希望する製品を推測し、製品画像ライブラリの関連する結果に基づいて表示します。

ディープラーニングが新しいGomePlusシナリオを構築：ショッピングの推奨をマッチング

ディープラーニングベースの検索技術により、普遍的な製品機能学習フレームワークを実現できます。

これを基に、さまざまな種類の商品、特に衣料品に適した推奨品を作成できます。同時に、分散検索エンジン、特徴圧縮、CNN モデルのモバイル展開に関するさらなる研究が必要です。

ディープラーニングがGomePlusに新たなシナリオを構築: 類似の推奨

写真ショッピングを行う際に、パーソナライズされた推奨シナリオで画像に基づく同様の推奨も試しました。これは、現在主流となっている推奨リコール方法が、大規模なユーザー共同行動データに基づいてモデル化されており、リコール結果が比較的集中してしまうためです。

ユーザーの視点から見ると、類似の推奨に対する需要は依然として、メインの製品と「外観が同一または類似」の製品を見つけることです。したがって、類似点を見つけるために画像を使用すると、ユーザーのニーズをよりよく満たすと同時に、推奨結果の多様性と新規性も向上します。

***で書かれた

機械学習とディープラーニングを使用して推奨シナリオを構築する場合、最大の難しさはデータのソース、つまりデータ収集の問題です。現在、ほとんどの企業がアルゴリズムを開発する際、基本的には機能の作成方法とモデルのトレーニング方法に重点を置いています。

正しいアプローチは、データ収集とフロントエンドの追跡から始めることです。データサイエンス部門は、データが入ってくるのを受動的に待って、提供されたデータに基づいて行動するのではなく、関与する必要があります。これは非常に重要なポイントです。

今後、Gomeの最先端技術の展開は、オフライン店舗での顔認識や商品認識、ディープラーニングクラウドプラットフォーム、スマートアシストショッピングなどのコンピュータービジョンと言語認識という2つの主要な方向に重点を置くことになります。同時に、Gome は画像説明の生成、2D 画像の 3D への変換、ディープラーニングによるパーソナライズされた分類の実験も行います。

著者: 王雪燕

テクニカルエディター: Wang Xueyan。アーキテクチャ、アルゴリズム、運用と保守、その他の技術分野を担当しています。記事の投稿や取材をご希望の場合は、[email protected] までご連絡ください。

[[197323]]

ヤン・ジ

国美インターネットビッグデータセンター副所長

パーソナライズされた検索・推奨プラットフォームの企画・構築を担当。中国伝媒大学を卒業し、機械学習とコンピュータービジョンの博士号を取得。彼はVanclとJD.comで相次いで勤務した。彼は長年にわたり、インターネット分野における機械学習の応用に取り組んできました。検索、レコメンデーション、ユーザープロファイリング、画像解析などの分野で豊富な実務経験とプロジェクトマネジメント経験を持っています。現在はソーシャルeコマースの分野でディープラーニング技術に注力しています。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: ブースティング原理に基づく深層残差ニューラルネットワークのトレーニング

>>: 機械学習アルゴリズムの実践: 決定木