この世界的に有名な旅行ウェブサイトは、150の独自の機械学習モデルを分析し、6つの教訓を学びました。

多くのメディア記事では、「機械学習がXX業界に力を与える」という言葉を目にしますが、この「エネルギー」がどのような側面で発現するのか、企業が機械学習モデルを導入する際にどのような点に注意すべきなのかについては、明確に説明されていない記事が多くあります。今年の KDD カンファレンスで採択された論文の中には、世界最大のオンライン旅行代理店 Booking.com が、顧客向けの 150 の成功した機械学習アプリケーションとそこから学んだ 6 つの教訓を分析した論文を寄稿しました。この記事はこの論文の簡単な要約です。

「150 の成功した機械学習モデル: Booking.com で学んだ 6 つの教訓」は、Booking.com で成功した約 150 の顧客向け機械学習アプリケーションとそこから学んだ教訓を組み合わせた優れたレビューです。奇妙なことに、論文のタイトルにもかかわらず、これらの 6 つの教訓は本文に明示的に記載されていません。しかし、論文の区分からこれらの部分を推測することは可能であり、私の解釈は次のとおりです。

機械学習モデルを使用したプロジェクトは大きなビジネス価値を生み出す
モデルのパフォーマンスは運用パフォーマンスと同等ではない
解決しようとしている問題を理解する
予測の遅延は大きな問題である
モデルの品質に関する早期フィードバックを得る
ランダム化比較試験を使用して、モデルのビジネスへの影響をテストします（ポイント 2 でも説明されています）

もちろん、この論文に記載されている 6 つの提案以外にも、優れた提案は数多くあります。

実際のビジネスへの影響を実現することは非常に困難であり、モデリングの取り組みと観察された影響との関連性を分離して理解することは困難であることがわかりました。私たちの主な結論は、機械学習を使用してこれら 150 の成功した製品を構築するための鍵は、他の分野を統合する反復的な仮説主導のプロセスにあるということです。

この引用文を、機械学習に投資する価値がないと言っていると解釈しないでください。それどころか、ユーザー向けのシナリオで機械学習モデルを設計、構築し、正常に展開する組織の能力を向上させることは、State of DevOps レポートで言及されている高業績組織の他のすべての特性と同様に、組織の競争力を向上させるための基本であると私は信じています。（また、将来のレポートでその仮説を確認または否定するデータを見るのは興味深いと思いませんか？）

Booking.com はモデルを構築する際にどのような問題を解決する必要がありましたか?

「世界最大のオンライン旅行代理店」であるBooking.comについて聞いたことがあるかもしれません。ユーザーに優れた旅行体験を提供することは、主に次の要因により困難な作業です。

推薦のリスクは大きいです。間違った宿泊施設を予約するのは、気に入らない映画をストリーミングするよりもはるかに悪いです。

ユーザーが旅行を予約する際、実際に探しているものに関する十分な情報が提供されないことがよくあります。

宿泊施設の供給は限られており、価格の変化は宿泊客の選択傾向に影響を与えます。

ゲストの好みは、プラットフォームを使用するたびに変わる可能性があります (たとえば、年に 1 回か 2 回しか予約しない場合など)。

宿泊施設に関する情報が多すぎて、ユーザーが時間内に理解することができません。

この150モデルとは何ですか?

約 150 の機械学習モデルが本番環境に導入されており、機械学習は Booking.com のユーザーエクスペリエンスのあらゆる側面に影響を与えています。一部のモデルは非常に具体的で、特定のコンテキスト内の特定の状況に焦点を当てています。他のモデルはセマンティックレイヤーのようなもので、ユーザーの行動の終点に基づいてユーザーの柔軟性を予測するモデルなど、複数のコンテキストで役立つ特定の概念をモデル化します。

Booking.com が使用するモデルは、大きく 6 つのカテゴリに分けられます。

旅行者嗜好モデル: セマンティックレイヤーで動作し、ユーザーの嗜好についてさまざまな予測を行います。（例：柔軟性）
旅行者コンテキストモデル: セマンティックレベルでも、旅行のコンテキスト (家族旅行、友人との旅行、出張など) を予測します。
アイテムスペースナビゲーションモデル: ユーザーの閲覧履歴を追跡し、ユーザーの個人履歴とディレクトリ全体を考慮した推奨事項を提示します。
ユーザーインターフェイス最適化モデル: 背景画像、フォントサイズ、ボタン、その他の UI を最適化します。興味深いことに、「全体的に最適な特定の値は存在しないことがわかったので、私たちのモデルはコンテキストとユーザー情報に基づいて最適なユーザーインターフェイスを決定します。」
コンテンツキュレーションモデル: レビューなどの人間が作成したコンテンツをキュレートして選択的に表示します。
コンテンツエンリッチメントモデル: 現在どのオプションが最もコストパフォーマンスに優れているか、特定のエリアの価格動向など、旅程に含まれる要素に関する追加情報を計算します。

レッスン 1: 機械学習モデルを使用したプロジェクトは大きなビジネス価値を生み出す

Booking.com では、これらの各モデルがビジネス価値をもたらします。機械学習を使用しない他の成功したプロジェクトと比較すると、機械学習をベースにしたプロジェクトはより高い収益を生み出す傾向があります。

図2: さまざまなモデルのビジネスへの影響と中央値の影響の比較

そして、一度使用されると、すぐに商業的な利益が得られるだけでなく、さらなる製品開発の基礎となることもよくあります。下の図は、一連の製品展開の影響を示しています。各展開は、以前の展開を基に構築され、ビジネス成果を継続的に向上させています。

図 3: 推奨製品に関する一連の実験。各実験では、機械学習の問題の特定のドメインまたは設定に特化した新しいバージョンをテストします。バーの長さは、第1版と比較した観測値です（すべての統計的に有意な差）

レッスン 2: モデルのパフォーマンスはビジネスのパフォーマンスと同じではない

Booking.com は、ランダム化比較試験を使用して、モデルが特定のビジネス指標に与える影響を測定し、モデルによって生成される価値を推定します。

興味深い発見がありました。モデルのパフォーマンスを向上させても、必ずしもビジネス価値が上がるわけではないのです。

その理由としては、商品価値の飽和（何をやってもこれ以上搾り取るものがない）、オーディエンスが少ないことによる部分的な飽和（新旧モデルの効果はほぼ同じ）、クリックスルーなど間接的な指標の一部が最適化されすぎていて、それがうまく商品指標（コンバージョン率など）に変換できないこと、下図で説明した不気味の谷効果（人型玩具やロボットの模擬度が高ければ高いほど好感度は上がるが、ある臨界点を超えると急激に好感度が下がり、人間に似れば似るほど嫌悪感や恐怖感を抱くようになり、どん底に達する。この効果を不気味の谷効果という）などが考えられる。

図 5: 不気味の谷: 人々は、予測が正確すぎることを好まないことがあります (マルコフ連鎖ベースの目的地推奨機能)。写真のユーザーは「booking.comは、私がザルツブルクに行く前にウィーンに行かなければならないことをどうやって知ったのか？」と不満を述べている。

レッスン3: 解決しようとしている問題を理解する

モデルの構築を開始する前に、解決しようとしている問題を慎重に定義するために時間をかける必要があります。

問題をフレーミングするプロセスでは、ビジネスケースまたは概念を入力として受け取り、定義されたモデリング問題 (通常は教師あり機械学習問題) を出力として受け取り、ビジネスケースまたは概念をモデル化するための適切なソリューションを見つけます。

いくつかの驚くべき改善は、特定のシステム内でモデルを最適化することではなく、システム自体を変更することから生まれます。たとえば、クリックデータに基づくユーザー嗜好モデルを、ゲストレビューデータに基づく自然言語処理の問題に変更します。

多くの場合、最良の質問はすぐに思いつく質問ではなく、質問の構成を変えることが隠れた価値を引き出す強力な方法になり得ることが分かりました。

レッスン4: 予測の遅延は大きな問題です

パフォーマンスがビジネス指標に与える影響について、もう 1 つ重要なポイントがあります。 Booking.com は、人工的な遅延を導入した実験で、遅延が約 30% 増加すると、コンバージョン率が 0.5% 低下することを発見しました。「これは当社の事業運営にとって重要なコストです。」

これは、予測を行うために強力なコンピューティングリソースを必要とする機械学習モデルに特に関係します。数学的に単純なモデルであっても、結果に影響を及ぼす遅延が生じる可能性があります。

Booking.com では、水平方向のスケーラビリティを実現するために複数のモデルコピーを配布したり、独自のカスタマイズされた線形予測エンジンを開発したり、パラメータの少ないモデルを優先したり、リクエストをバッチ処理したり、事前計算やキャッシュを実行したりするなど、さまざまな方法を使用して、モデルによって発生するレイテンシを削減しています。

レッスン5: モデルの品質に関する早期フィードバックを得る

モデルがリクエストを処理するとき、出力の品質を監視することが重要ですが、解決が容易ではない問題が少なくとも 2 つあります...

真のラベルを観察することが困難であり、フィードバックが不完全になります。

遅延フィードバック。たとえば、ユーザーが予約を行うと、モデルはユーザーがレビューを残すかどうかを予測しますが、予測の精度は旅行が完了するまで評価できません。

Booking.com には、この状況でバイナリ分類問題にうまく機能するトリックがあります。それは、モデルによって生成された応答の確率分布を調べることです。「明確なプラトーを持つ滑らかな二峰性分布は、通常、モデルが 2 つのクラスをうまく区別できることを示しています。」その他の形状 (下の図を参照) は、モデルに何らかの問題がある可能性があることを示しています。

図7: 応答分布グラフの例

…証拠によれば、応答分布の分析は、モデルの欠陥を早期に検出するのに非常に役立つことが示唆されています。

レッスン 6: ランダム化比較試験でモデルのビジネスへの影響をテストする

この記事で検討した機械学習の成功事例のほとんどには、洗練された実験設計が伴っており、その中には開発プロセスを導くものや影響を検出するように設計されたものもありました。

この記事では、さまざまな状況で実験を設定する方法についての提案を示します。

すべての被験者が変更の対象ではない場合 (モデルに必要な機能を備えていないなど)、対象となる被験者のサブセット内で実験グループとコントロールグループを作成します。

図8:選択的トリガーの実験設計

モデルによって生成された結果が特定のケースでのみユーザーエクスペリエンスに影響を与える場合は、モデルがこの範囲内でユーザーに表示される出力を生成できるように、実験グループとコントロールグループの範囲をさらに制限します (もちろん、コントロールグループでは表示されません)。パフォーマンスへの影響を評価するために、モデルをまったく呼び出さない 3 番目のコントロールグループが追加されました。

図9:モデル出力に依存するトリガーの実験設計と、パフォーマンスへの影響を測定するためのコントロールグループ