[ビッグガイがやってくるエピソード4] データ駆動型の製品意思決定とインテリジェンス

データと製品を組み合わせる

トピック 1 は、データと製品の組み合わせです。Stitch Fix を例に、データサイエンスが製品のさまざまな側面にどのように浸透しているかを説明します。

Stitch Fixは、データ駆動型の新しい衣料品小売Eコマース企業であり、ユーザーが自分に合ったスタイルを見つけるのを支援することに専念しています。主に、買い物に行く時間がなく、服装が得意ではなく、ファッションを追求したいユーザーにサービスを提供しています。

スティッチ・フィックスの売上はすべて、ブラインドボックスモデルで行われる推奨によるものだ。ユーザーは商品を受け取る前にプレビューすることができないため、どの服が気に入るかを推測する必要がある。推測が間違っていた場合、スタイリストサービスと双方向物流の実際のコストが消費されるため、精度要件は非常に高くなります。

下の図に示すように、一般ユーザーの視点から見ると、Stitch Fix の使用は主に 3 つのステップに分かれます。

セット1は、パーソナルスタイルアンケートに答えて、その後、事前にマッチした5つの服を受け取ります。試着後、気に入ったものだけを残し、残りは無料で返品できます。

Stitch Fix は、サイズ、価格、フィット感、スタイル、色など、各衣服に関するフィードバックをユーザーに提供するよう奨励しています。このデータは、データサイエンスチームがユーザーと衣服の適合性をより深く理解するのに役立ちます。

データサイエンスチームは従業員総数の4分の1を占めており、倉庫の割り当て、ユーザーとスタイリストのマッチング、ユーザープロファイリング、人と商品のマッチング、在庫管理など、データサイエンスが製品の多くの側面に浸透し、本来の価値を発揮していることも意味します。
例 1: 倉庫割り当てユーザーリクエストが送信されたら、どの倉庫から商品を出荷するかを決定する必要があります。出荷用倉庫の選択には、運賃、納期、倉庫スタイルとユーザースタイルのマッチングなど、複数の要素を総合的に考慮する必要があります。これらの要素に基づいて、倉庫とユーザー間のマッチング指数が確立されます。

例 2: ユーザーとスタイリストのマッチングユーザーがリクエストを行うと、ユーザーとスタイリスト間の取引履歴、ユーザーの評価、プロフィールのマッチングに基づいてスタイリストがマッチングされます。

例 3: ユーザーポートレート Stitch Fix では、ユーザーポートレートはアルゴリズムとスタイリストの両方に役立つため、人々に説明でき理解しやすいユーザーポートレートが必要です。

ユーザーポートレートのほとんどは、ユーザーが記入した個人アンケートから作成されており、基本的な寸法のポートレートや、ユーザーの体のサイズ、色、価格の好みなど、服装に関連するものが含まれています。

ユーザースタイルの処理では、服装スタイルをクラシック、ロマンチック、ボヘミアンなどの 7 つの次元に分けます。各ユーザーは、各次元で 1 ～ 4 のスコアを持ちます。ユーザーのスコアに基づいて、ユーザーの服装スタイルを大まかに把握できます。

例 4: 人と商品のマッチング。ここでは、主にデータとモデルの 2 つのレベルを共有します。データレベルには、ユーザーのポートレート、製品 ID、製品の一般化機能 (画像、ラベル)、多次元フィードバックが含まれます。推奨アルゴリズムのデータには、不均衡なアイテムサンプル、データ逆流によるエラー、欠落した機能やフィードバックデータ、割引による偏差などの課題があります。モデルレベル（2016年）では、混合効果モデル、因数分解マシン、DNN、word2vec、LDAなどがあります。

例 5: 在庫管理在庫管理では、どのような商品が入手可能か、どの商品を購入するか、どれだけ購入するか、どの倉庫に割り当てるか、どの在庫を処分する必要があるかなど、解決しなければならない問題が多数あります。どのような商品が入手可能かを知ることは単純な質問のように思えるかもしれませんが、Stitch Fix では、在庫品は実際には全商品の 40% しか占めていないため、これは非常に特殊です。大量の商品がユーザーから倉庫へ、または倉庫からユーザーへ向かっています。ここで、それに対処するためにシミュレーションと在庫スナップショットが必要です。

上記の製品のリンクを通じて、データを使用して効率を改善し、問題を定義して解決する機会を見つけることができます。では、これを実現するためにどのようなテクノロジーが使用されるのでしょうか?ここでは、主に、測定指標の選択と分析、AB テスト、ユーザーポートレートという、一般的な懸念事項の 3 つについて説明します。

指標の選択と分析

Stitch Fix では、コンバージョン率、GMV、リテンションという 3 つの主要な指標に重点を置いています。指標を選択する際に考慮すべき点は、データソースの信頼性、結果に対する指標の関連性、信号の品質と感度の 3 つです。

Stitch Fix が使用する一般的な分析には、ファネル、グループ、複数のディメンションが含まれます。次の図は、グループ分析の例を示しています。

例えば、顧客獲得時間や初回注文時間などのラベルに従ってユーザーをグループに分け、特定の時間範囲内での特定の指標の変化を観察することができます。時間の範囲は、比較的短いものや比較的長いものを選択できます。

次の図は、さまざまな顧客獲得時期におけるユーザー維持率の比較を示しています。

全体的に1月から7月にかけて初月の継続率が増加しており、チャネルを通じて獲得したユーザーの質を向上させる必要があることを示しています。さらに、時間が経つにつれて、ユーザー維持がプラットフォーム効果を持つようになることもわかります。最初の 4 か月間は、月ごとのユーザー損失がかなり大きく、その後のユーザー維持は安定する傾向があります。

AB テスト Stitch Fix では、AB テストはオフライン取引によって生じる遅延とスタイリストの人的要因という 2 つの主な課題に直面しています。

オンラインアルゴリズムが変更されると、各ユーザーに合わせてスタイリストがマッチングを行う必要があり、物流と相まって 7 ～ 10 日の遅延が発生します。

スタイリストの人的要因は、主にスタイリストの慣性によって生じます。極端な例を挙げると、アルゴリズムが高額商品をプッシュしたいのに、スタイリストが中価格帯の商品をユーザーに勧めたい場合、結果に影響が出ます。

ここで注意しておきたいのは、AB テストは慎重に行う必要があるということです。次の 4 つの点に注意してください。

実験直交設計: 実験 1: 奇数で終わる UID と偶数で終わる UID 実験 2: (0,1) で終わる UID と 2 で終わる UID

ユーザー適応曲線

小規模なトラフィック実験と完全なトラフィック開始の違い

実験効果の重ね合わせ: 四半期中に 6 件の +1% 実験が開始されましたが、全体的な改善はわずか 3% でした。

ユーザーポートレートユーザーポートレートは、企業内の基本データの構築であり、データミドルプラットフォームとも呼ばれます。このポートレートは、ビジネス推奨事項、ユーザー操作、チャネルポートレートにとって重要な指針となります。

つまり、企業内でのポートレート作成には複数の部門間の連携が必要であり、主にデータとアプリケーションの断絶、および複数のビジネス要件の類似性という 2 つの状況で課題が生じる可能性があります。実際、ポートレートを生成するには、ポートレートの要件の収集、ラベルフレームワークの構築、データの入力という 3 つのステップがあります。

実践的なプロセスで突破したい場合は、次の 3 つの提案があります。

大規模で包括的なフレームワークを放棄し、ビジネスシナリオ（価値）から逆算する

ラベル（手段）を自動生成する：ルールまたはアルゴリズム

効果的なラベル管理メカニズム（持続可能性）

データと人を組み合わせる

2 つ目のトピックは、データと人の組み合わせです。Stitch Fix では、アルゴリズムとスタイリストを組み合わせてユーザーに服装を推奨しています。これは、人間と機械のカップリングシステムと言えます。では、人間と機械のカップリングシステムにはどのような課題があるのでしょうか。

アルゴリズム的には、 Set.1 は大量の在庫の SKU をスクリーニングして分類すること、Set.2 は大規模なデータからパターンを見つけることです。 3つ目はノイズの低減です。スタイリストによって個人差がかなりあるため、最終的な審査結果に大きなばらつきが出ないように、比較的一貫した基準を確立する必要があります。

人間と機械が連携したシステムでは、スタイリストが人間の役割を担い、非構造化データを処理し、1対1の感情的なコミュニケーションを行い、創造性を発揮することで、エッジケースを考慮しなくてもアルゴリズム開発を行うことができます。

この人間と機械のコラボレーションモードは、機械のアルゴリズムや手作業だけに依存するものではありません。機械はより重労働で反復的な作業を引き受けることができ、大量の作業記憶と長期記憶を持つ一方で、人間は非構造化データをより適切に処理し、美的評価を実行し、顧客との良好な人間と機械の関係を確立することができます。

さらに、人々はシーンに対してもより敏感になります。たとえば、秋になると、スタイリストは中西部の人々にどのような服が似合うかに対してより敏感になり、より良い提案ができるようになります。

人間と機械の結合では、1+1 は 2 より大きいですが、人間と機械の結合は次のような問題にも直面します。

スピードと規模のボトルネックになるのは人です。注文の分配がスタイリストの勤務時間と一致しません。

人間と機械の相互価値を測る

アルゴリズムの複数のフィードバックチャネル: ユーザーからのフィードバックとスタイリストの選択

アルゴリズムの最適化目標は慎重に選択する必要がある

データとチームを組み合わせる

3 つ目のパートは、データとチームの融合です。このパートでは主に、データチーム全体で分析、アルゴリズム、データ開発がどのように融合されているか、また、会社のアーキテクチャシステムの下でデータチーム全体がビジネスチームとどのように連携しているかを紹介します。

データとチームの組み合わせ。実際、ビッグデータについて話すとき、私たちは方法論や思考の枠組みについて多くを語りますが、最終的な実装は、データチームのメンバーがそれを実現し、会社に価値をもたらすかどうかにかかっています。

Stitch Fix のデータチームは、主に、データプラットフォームとデータウェアハウスを構築できる基盤となるデータ開発チームと、効率性を改善したり展開ツールを作成したりするデータサイエンティストの 4 つの部分に分かれています。

上記の3つのチームは、顧客チーム、推奨チーム、在庫チームと、それぞれの業務に1つずつ対応しています。

データチームを構築する際に参考にしていただける 3 つの配置原則を以下に示します。

ビジネスと製品に焦点を当てます。データから真の価値を生み出す製品とビジネスに注力

特に幅広い事業を展開する企業の場合、データサイエンスチームはインフラストラクチャ部門とビジネス部門を統合する必要があります。

会社の意思決定者からの忍耐強いサポート、そして一貫した目標を持つ特定のエンジニアリングチームと製品チームとの有機的な一体化

実際の運用では、次のような問題にも直面することに注意してください。

分析結果をどのように実装するか、実装可能な分析をどのように行うか

データの分析と処理のニーズとデータ駆動型ビジネス。データ処理は受動的なものに相当します。データチームはビジネス部門のためにデータを引き出すというタスクに直面することがよくありますが、同時にデータチームが主導権を握ってビジネスを推進する必要もあります。これは、受動と能動の調整方法と考えることができます。

データプラットフォームチームは、データプラットフォームの安定性を確保しながら、データサイエンティストがデータプロセスをより適切に管理し、コードを展開し、オンラインツールを構築できるようにするためのツールをできるだけ多く開発しています。

<<: データ変換率が低いと機械学習に深刻な影響を与える可能性がある

>>: 【ビッグコーヒーがやってくるエピソード5】ビッグデータミドルプラットフォームの構築方法