タオバオの顔面を平手打ちして電子商取引を破壊しよう!このファッション会社はアルゴリズムを使って新しい小売業をリードしている

タオバオの顔面を平手打ちして電子商取引を破壊しよう!このファッション会社はアルゴリズムを使って新しい小売業をリードしている

[51CTO.com からのオリジナル記事] 私が共有したトピックは、データ駆動型の意思決定サポートと製品インテリジェンスです。主に、データ サイエンスの調査経験と、データ駆動型スタートアップ企業 Stitch Fix のビジネス モデル、ビジネス プロセス、参照機能、推奨アルゴリズムに関する内容です。

データサイエンスの探求における洞察と経験

データ サイエンスの起源は、Google が買収したビッグ データ コンペティション プラットフォームである Kaggle に遡ります。Kaggle は、2010 年に設立された大規模なデータ サイエンティストのコミュニティで、データ サイエンスと機械学習のコンペティションの開催に重点を置いています。

C 側では、すぐに多数のデータ サイエンティストや機械学習開発者が参加するようになりました。 B 面では、Kaggle のモデルは多数の優れた企業と連携して、さまざまな現実世界のビジネス問題に対するアルゴリズムとソリューションを模索しています。

コミュニティベースの採用サービスと、Kaggle Kernels と呼ばれるコード共有ツールも、コミュニティ運営における重要な競争上の優位性となっています。

Kaggle はデータを扱うプラットフォームであり、ML 開発者がスキルを披露して名を馳せる場所であるとよく言われます。データサイエンスを学び始めたばかりで、仕事を見つけたい場合は、まず Kaggle のいくつかのコンテストに参加してみるとよいでしょう。

以下に示すように、Kaggle からの演習は 2 つあります。

  • 回帰分析により住宅価格を予測します。
  • 分類の問題。

回帰分析により住宅価格を予測します。これは、人口わずか 10 万人ほどのアメリカ中西部の大学町の予測です。データには、品質スコア、形状(規則的/それほど規則的ではない/非常に不規則)、居住エリア、路面(砂利/アスファルト)など、79 の説明変数が含まれています。これらの説明変数を分析することで、住宅価格を予測できます。

図に示すように、Y軸は販売価格、X軸は1〜10の品質スコアです。品質スコアが上昇すると、販売価格も増加率で上昇していることがわかります。

分類の問題。これは、Youtube-8M をトレーニング データとして使用した Google 動画のラベル付けです。動画は数百万本あり、各動画には 3 ~ 5 個のラベルが対応しており、ラベルの総数は約 4,000 個です。

指定されたトレーニング セットからいくつかのモデルを抽象化し、テスト セットに移動します。この問題の出力は、各ビデオについてラベルのリストを予測し、ラベルを信頼度に応じて並べ替えることができるというものです。

Kaggle データ コンペティションでは、データは事前​​に処理され、基本的に行と列の表形式のデータに変換されます。したがって、生データの前処理を大幅に節約できます。

次の図は、基本的なデータ サイエンスのプロセスを示しています。

まず、生データ(CRM、履歴トランザクションなど)を収集し、Webサイトの分析やユーザーのAPP動作の追跡を行い、これらの追跡ポイントに基づいてユーザーの動作を追跡する必要があります。

その後、生データは、冗長性、重複情報、欠落した変数、エラーが多数含まれるため、データクリーニングとも呼ばれる前処理が行われます。クリーンアップされたデータセットに基づいて、探索的分析と機械学習を実行できます。

データサイエンスとデータ製品の用途

おむつとビールは、データ サイエンスの探索と分析の典型的な例です。多くのアナリストは製品情報を分類し、製品の関連性を監視します。

一般的に言えば、ほとんどの製品間の相関関係は非常に低く、約 0.1 ですが、ビールとおむつの相関関係は約 0.3 です。アナリストたちはこの奇妙な現象を分析し、多くの父親が夜にスーパーマーケットに行き、赤ちゃんのおむつを買ったり、自分用のビールを買ったりしていることを発見した。

これにより、スーパーマーケットは商品を並べる際に関連性の高い商品を一緒に並べることができ、顧客が選びやすくなります。したがって、データ サイエンスでは、データ分析とモデリングを通じて、意思決定を支援する説得力のある情報を得ることができます。

もう 1 つは、分析的かつインテリジェントなデータ製品を生成することです

  • 分析データ製品。たとえば、北京の現在のリアルタイムの交通状況を把握したい場合は、オンライン データ ソースを見つけて、これらのデータ ソースでデータの視覚化とインタラクティブな分析を行うことができます。このようなデータ プロダクトは、データを提示し、データ コンテンツを定期的に更新することができます。これは分析データ プロダクトです。
  • インテリジェントなデータ製品。たとえば、機械学習に基づく検索エンジンや広告推奨システムは、インテリジェント データ製品として定義できます。

データサイエンティストの分類

データ サイエンティストは、分析と機械学習の 2 つのカテゴリに分けられますが、両方の役割を担い、切り替えて働く人も多くいます。

分析は、勤務時間中と勤務時間後のショッピング プラットフォームにおけるユーザーの消費習慣の違いなど、問題指向であることが多いです。最初に全体的な包括的な情報を分析し、その結果に基づいてより詳細な分析を行うことができます。ユーザーは、都市、地理的な場所、使用するクライアントに応じて分類および細分化できます。

ここでのプロセス全体はインタラクティブであり、常に新しい質問を提起し、分析を通じて問題を解決し、そしてまた新しい質問を提起します。最終的な目標は、意思決定を支援することです。

機械学習は、広告プラットフォームでのユーザーのコンバージョン率の向上など、主に指標主導型です。コンバージョン率とは、ユーザーが広告をクリックしてからコンバージョンが生成されるまでの時間、またはユーザーがウェブサイトにアクセスしてアプリをダウンロードするまでの時間です。

最終的な目標は、新しいモデルを適用したり、既存のシステムの現在のパラメータを改善したりして指標を改善し、インテリジェントな製品を生み出すことです。もちろん、プロセスでは規模と自動化も考慮する必要があります。

スティッチフィックスのビジネスと運営モデル

スティッチ・フィックスのビジネスモデル

Stitch Fix のビジネス モデルは、Netflix の初期のビジネス モデルと非常によく似ています。2004 年から 2005 年頃の Netflix のビジネス モデルは、主にユーザーがオンラインで視聴したい映画のキューを作成できるというものでした。そのようなキューを作成した後、Netflix は映画をユーザーの自宅に送ります。

Stitch Fixはダイレクトメールモデルを採用していますが、それはeコマース+ダイレクトメール+推奨です。現在、Stitch Fix はオンラインのパーソナライズされた衣料品推奨会社です。ユーザーが登録すると、システムはユーザーの自宅に送る服をいくつか推奨し、ユーザーは自分の興味や好みに基づいてこれらの服を購入するかどうかを決定できます。

Stitch Fix は主に、ユーザーの次のようなショッピングの悩みを解決します。

  • 私たちのほとんどは、買い物に行く時間がないほど忙しい生活を送っています。
  • ユーザーによっては、新しい服装の好みや着こなしの経験を発見したい場合があります。
  • ファッショントレンドを追う人の多くは、さまざまなシナリオなどを試してみたいと思っています。

スティッチ・フィックスのビジネスモデル

以下に示すように、Stitch Fix のビジネス プロセスはユーザーの視点から見ると次のようになります。

ユーザーの視点から見ると、ユーザーは個人的なスタイルに関するアンケートに回答する必要があります。アンケートでは、色、価格、サイズなど、人々が衣服を購入する際に考慮する一般的な問題を取り上げました。

Stitch Fix は、ユーザーの個人的なスタイルに関するアンケートを収集し、アルゴリズムとスタイリストのアドバイスに基づいて推奨事項を作成します。その後、ユーザーは 5 種類の異なる服を受け取り、都合の良い場所で試着して他の服と合わせることができます。気に入った場合はそのまま保管し、気に入らなければ返品することができます。

Stitch Fix は、服を勧めたり、人と商品をマッチングさせたりする際に、人間と機械の協働アプローチを採用しています。機械のアルゴリズムや手作業だけに頼るのではなく、お互いの長所を補完し、1 + 1 > 2 の効果を実現します。

以下のように人間と機械の連携により衣服が推奨されます。

アルゴリズム別:

  • 大量の在庫 SUK を選別して仕分けすることは、手作業では困難です。在庫がピークに達すると、数十万、さらには数百万にも達し、手作業による選別は非常に時間がかかります。
  • 試着モードをベースに、大規模データから各人に適したパターンを見つけ出します。
  • 特定の色の服が、特定の年齢層のユーザーの間で特によく売れることがわかります。
  • スタイリストによって選択が異なるため、システムのノイズを低減できます。

下の図に示すように、人とアルゴリズムは連携して動作します。

人とアルゴリズムの協力システムを構築し、互いの強みを補完し、1+1>2 を真に実現します。人間は、テキストデータや写真などのシステム内の非構造化データを処理できます。

スタイリストとユーザーなど、ユーザーと感情的にコミュニケーションをとることもできます。感情的にコミュニケーションをとれば、みんなの信頼も高まります。アルゴリズムが不意を突かれないように、もっと創造性を発揮することもできるでしょう。

上の写真のように、左側にコンピュータがあり、右側に人がいます。コンピュータは比較的負荷の高い繰り返し計算を処理できます。また、コンピュータの短期記憶と長期記憶は人間に匹敵するものがありません。

人間は、非デジタル構造を処理し、写真を美しくし、人間とコンピュータのより良い関係を確立することが得意です。また、次のような文のように、感度も処理できます。マイクを地面に置き、その上に本を置きます。 「上」が地面を指すことは誰もが知っていますが、そのようなシナリオでは機械が学習することが難しくなります。

Stitch Fix のデータ チームの概要と責任

以下は、Stitch Fix のデータ チームの概要です。

Stitch Fix チームは約 80 名で構成されており、主に顧客、レコメンデーション、在庫、データ プラットフォームの 4 つの小規模チームに分かれています。データ プラットフォーム チームのビッグ データ アーキテクチャと自動分析プロセスは他の 3 つのチームをサポートし、これらの 3 つのチームはビジネス ユニットと 1 対 1 で対応しています。

顧客チームは主に、精密マーケティング、需要予測、ユーザープロファイリング、顧客サービス分析に取り組んでいます。需要予測では、主にユーザーの安定した成長、需要の季節性、サブスクリプションユーザーを考慮します。

推奨チームは主に、人と製品のマッチング、ユーザーとスタイリストのマッチング、ヒューマンコンピューティング、スタイリストの行動分析に重点を置いています。

ユーザーがリクエストを行うと、スタイリストがユーザーとマッチングされます。ヒューマンコンピューティングは主に、過去の購入履歴や返品データなど、仮想環境におけるスタイリストの行動を研究します。これらのデータサンプルに基づいて、スタイリストに衣服の選択を提供する仮想環境が構築されます。

購入や返品が判明している場合にスタイリストに表示する情報を制御します。同時に、さまざまな表示状況がスタイリストの成功率に与える影響も研究されています。スタイリスト行動分析では、ログを使用してスタイリストの実際のピッキング行動を分析します。

在庫チームは主に在庫予測、アルゴリズムに基づく在庫整理、ラベル付けを行います。

在庫は随時変動します。倉庫在庫にある商品、在庫からユーザー宅に発送されてユーザー宅に残っている商品、ユーザーが買わなかったために返品される商品などがあり、在庫予測が必要となります。製品にラベルを付けることもでき、ラベルデータを使用してより適切なマッチングを行うことができます。

スティッチフィックスのスマートロジスティクス

インテリジェントロジスティクス - 倉庫配送

Stitch Fix は、単一倉庫、単一パッケージの配送方法を使用します。

次の図に示すように、出荷用に倉庫が選択されます。

Stitch Fix には 5 つの倉庫があります。ユーザーがリクエストを送信すると、最初のステップは倉庫を選択することです。倉庫を選択する際には、運賃、納期、在庫のマッチングなどを考慮してください。倉庫では商品が絶えず販売されているため、在庫は常に消費され、さまざまな在庫とユーザーのディメンションがリアルタイムで変化しています。

インテリジェントロジスティクス - スタイリストマッチング

次の図は、ユーザー スタイリスト マッチング テーブルを示しています。

取引履歴、スタイリストのユーザー評価、プロフィールのマッチングに基づきます。ユーザーとスタイリストの属性を考慮します。例えば、ユーザーが母親であれば、同じく母親であるスタイリストを推薦しようとします。

インテリジェントロジスティクス - 人とモノのマッチング

次の図は、ユーザーの機能モデリングと過去の製品取引に基づいています。

人と商品のマッチングは、より伝統的な機械学習アルゴリズムとして理解することができ、その方法の 1 つが協調フィルタリングです。協調フィルタリングでは、ユーザーの特徴や製品の特徴は必要ありません。ユーザーの特徴と過去の製品取引のみが必要です。

もう 1 つの方法は、ユーザー特性と製品特性に基づいてモデル化することです。ユーザー特性の部分については、Stitch Fix はユーザー アンケートを実施し、製品特性の部分については、ロジスティック回帰、サポート ベクター マシン、ディープ ニューラル ネットワーク学習を通じて取得します。

次の図は、ユーザーアンケートの特性を示しています。

図からわかるように、年齢、場所、職業、体のサイズ、色の好みなど、ユーザーに関するデータが収集されます。

Stitch Fix は、クラシック、ロマンチック、ボヘミアン、アバンギャルド、シャイニー、カジュアル、ユニフォームなど、各ユーザーのスタイルと好みを 7 次元の空間に配置するスタイル レインボー コンセプトも設計しました。

さらに、暗黙的なサイズはトランザクション履歴に基づいて取得できます。たとえば、ユーザー サイズが小さいものから大きいものまでの範囲にある場合、モデルによって異なる範囲の暗黙的なサイズを予測し、ユーザーを同じ範囲に収めることができます。

次の図は製品の機能を示しています。

製品の特徴は、ディープニューラルネットワークを通じて学習されます。画像を分析することで、各製品画像をディープニューラルネットワークに入力し、いくつかのプロセスを生成します。製品プロセスごとに製品類似性マトリックスを計算できるため、近接法を使用して推奨を行うことができます。

スティッチフィックスの推奨アルゴリズム

アルゴリズムに関して言えば、Stitch Fix は主にオープンソース ライブラリに基づいて独自のアルゴリズムを開発しており、これは Facebook に似たモデルです。

以下に示すように、Stitch Fix の主なアルゴリズムは混合効果ロジスティック回帰です。

マトリックスでは、各行はユーザーを表し、各列は製品を表します。ユーザー特性、製品特性、および一致するフィードバックもあります。これらのデータは、混合効果を持つロジスティック回帰であるモデリングを通じて予測されます。

推奨アルゴリズムの課題

推奨アルゴリズムの場合、考慮すべき最も重要なことは、ランキング付けにどの指標を使用するかということです。たとえば、取引データや購入率などです。

Naïve の解決策は、スタイリストの選択を無視し、トランザクション データをモデル化することです。

取引データとは、購入された製品や返品された製品など、各ユーザーと郵送された各製品を指します。これを行う利点は、従来の機械学習を使用して問題を解決でき、トランザクションデータの量がそれほど大きくないことです。

しかし、実際にこの方法を使用すると、多くの問題に遭遇することになります。データを削除するには:

ユーザーが特別なリクエストをしている場合、例えばノースリーブのシャツが気に入らない場合、スタイリストはそれを推奨しません。この部分のデータはトランザクションデータに反映されません。このようなユーザーの場合、ユーザーが推奨した商品の成功率を推定する方法はありません。

購入率は必ずしも良いランキング指標ではない

次の 2 つの図は、2 種類の衣服の購入率を比較したものです。

写真から、最初の商品のカバー率が比較的低いことがわかります。大きな円はすべてのユーザーグループを表しています。すべてのユーザーグループの中で、この製品は比較的先進的であるため、この製品を選択するユーザーは少数です。視聴者は少ないですが、誰がそれを選ぶべきかはわかっており、購入率は非常に高いです。

2 つ目の作品はよりニュートラルで汎用性が高く、誰にでも贈ることができますが、スタイリストは購入する顧客が誰なのかわかりません。したがって、選択されたユーザーサークルはカバー範囲が広くなりますが、カバー率が高いということは購入率が低いことを意味します。

次の図に示すように、購入率を指標として使用する場合は、最初の項目を最初にランク付けする必要があります。

このソートを行う際には、スタイリストの選択プロセスに選択バイアスが存在するという非常に重要な要素にも注意する必要があります。このバイアスを解決するには、ヘックマンの 2 段階モデル​​を使用できます。

要約する

この記事では、データ サイエンスと Stitch Fix の主要なテクノロジーに関する洞察をいくつか紹介します。読者がデータサイエンスに興味を持っているなら、個人的には「興味」「実践」「共有」という 3 つの言葉をお勧めします。

  • 興味: 私は高い山々に憧れます。そこにたどり着くことはできませんが、私の心はそこに憧れています。
  • 実践: 千里の道も一歩から始まる。
  • 共有: 幸せを共有することは、一人で楽しむことよりも悪いことです。

上記内容はWOTA2017「ビッグデータ応用イノベーション」特別セッションにおける王建強氏の講演をもとにまとめたものです。

[[201233]]

Twitter 米国本社の元テクニカル ディレクター。USTC で経営科学の学士号、2008 年にローバ州立大学で統計学の博士号を取得。彼はコロラド州立大学統計学部の客員教授、国立統計科学研究所と米国農務省の共同研修を受けた博士研究員、ヒューレット・パッカード研究所の上級科学者、Twitter の広告グループのデータ サイエンティストを務めてきました。彼は、需要予測、サプライ チェーン管理、広告のクリック率予測、広告ランキング、推奨アルゴリズム、統計予測モデルなどの分野にわたるデータ分析とモデリングの分野で長年の経験を持っています。データサイエンス教育、インターネット広告、新興小売ビジネスモデルに興味があります。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<:  機械学習アルゴリズムと機械学習モデルの開発方法について知っておくべきことは何ですか?

>>:  AmazonのAI研究開発はファッショントレンドをリードするために異なるアプローチを採用しています

ブログ    
ブログ    
ブログ    

推薦する

空飛ぶ脳?ヒントン氏のツイートは白熱した議論を引き起こした。ニューラルネットワークは鳥が飛ぶための「羽」なのか?

[[407838]]ヒントン氏はツイッターでちょっとした議論を始めた。「ニューラルネットワークを設...

理解すべき記事:この流行は7大テクノロジー企業を襲い、彼らがどう対応したかを見る

[[317397]]新型コロナウイルスが世界各国に広がるにつれ、世界のテクノロジー業界やインターネッ...

...

今後 10 年間で人工知能が私たちの生活を支配するようになるとき、携帯電話はどのようなものになるでしょうか?

テクノロジー業界のほとんどの人は、今後 10 年以内にユビキタス テクノロジーが 1 日のあらゆる瞬...

AIの偏見を公平に防ぐ方法

人工知能 (AI) には、ビジネス運営に革命を起こす大きな可能性があります。実際、ある調査によると、...

ソフトウェアプログラマー試験: 関数の最大値を見つけるための標準的な遺伝的アルゴリズム

Dim N2 (30) Longは2の累乗されたデータを格納するために使用されるDim Script...

AR のヒント | 説明する時間はありません。今すぐ保存してください。

[51CTO.com からのオリジナル記事] 近年、AR は常に資本追求の焦点となってきました。 ...

高校生のアルゴリズム「y-cruncher」が円周率の精度の世界記録を更新した

最近、スイスのグラウビュンデン応用科学大学のチームが、円周率の62.8兆桁の計算を101日と9時間で...

...

住宅街、公衆トイレ、ジム...「顔認識」はどこにでもあります。どこでも顔をスキャンする必要があるのでしょうか?

[[377911]]昨年12月中旬、上海市民の夏さんは徐匯河畔にレジャーに出かけ、「海上タワー」近...

AI モデルにバックドアがある可能性があります。チューリング賞受賞者が53ページの論文を発表「悪意ある予測には注意」

「敵対的事例」は古くからある問題です。画像内の数ピクセルを変更するなど、通常のデータにわずかな外乱...

...

人工知能が診断ツールをどのように変えるのか

医療においては、新しいアイデアが常に命を救うのに役立ちます。 1895 年にウィレム・アイントホーフ...

AI は予測分析にどのように役立ちますか?

今日、企業はビッグデータ分析を活用し、データ洞察を通じて製品機能を強化し、競争の激しいダイナミックな...

人工知能の主要技術分野のレビュー

[[441598]] AI への準備プロセスの多くは組織の変更です。人工知能の利用には、ニューカラー...