この世界的に有名な旅行ウェブサイトは、150の独自の機械学習モデルを分析し、6つの教訓を学びました。

この世界的に有名な旅行ウェブサイトは、150の独自の機械学習モデルを分析し、6つの教訓を学びました。

多くのメディア記事では、「機械学習がXX業界に力を与える」という言葉を目にしますが、この「エネルギー」がどのような側面で発現するのか、企業が機械学習モデルを導入する際にどのような点に注意すべきなのかについては、明確に説明されていない記事が多くあります。今年の KDD カンファレンスで採択された論文の中には、世界最大のオンライン旅行代理店 Booking.com が、顧客向けの 150 の成功した機械学習アプリケーションとそこから学んだ 6 つの教訓を分析した論文を寄稿しました。この記事はこの論文の簡単な要約です。

「150 の成功した機械学習モデル: Booking.com で学んだ 6 つの教訓」は、Booking.com で成功した約 150 の顧客向け機械学習アプリケーションとそこから学んだ教訓を組み合わせた優れたレビューです。奇妙なことに、論文のタイトルにもかかわらず、これらの 6 つの教訓は本文に明示的に記載されていません。しかし、論文の区分からこれらの部分を推測することは可能であり、私の解釈は次のとおりです。

  • 機械学習モデルを使用したプロジェクトは大きなビジネス価値を生み出す
  • モデルのパフォーマンスは運用パフォーマンスと同等ではない
  • 解決しようとしている問題を理解する
  • 予測の遅延は大きな問題である
  • モデルの品質に関する早期フィードバックを得る
  • ランダム化比較試験を使用して、モデルのビジネスへの影響をテストします(ポイント 2 でも説明されています)

もちろん、この論文に記載されている 6 つの提案以外にも、優れた提案は数多くあります。

実際のビジネスへの影響を実現することは非常に困難であり、モデリングの取り組みと観察された影響との関連性を分離して理解することは困難であることがわかりました。私たちの主な結論は、機械学習を使用してこれら 150 の成功した製品を構築するための鍵は、他の分野を統合する反復的な仮説主導のプロセスにあるということです。

この引用文を、機械学習に投資する価値がないと言っていると解釈しないでください。それどころか、ユーザー向けのシナリオで機械学習モデルを設計、構築し、正常に展開する組織の能力を向上させることは、State of DevOps レポートで言及されている高業績組織の他のすべての特性と同様に、組織の競争力を向上させるための基本であると私は信じています。 (また、将来のレポートでその仮説を確認または否定するデータを見るのは興味深いと思いませんか?)

Booking.com はモデルを構築する際にどのような問題を解決する必要がありましたか?

「世界最大のオンライン旅行代理店」であるBooking.comについて聞いたことがあるかもしれません。ユーザーに優れた旅行体験を提供することは、主に次の要因により困難な作業です。

推薦のリスクは大きいです。間違った宿泊施設を予約するのは、気に入らない映画をストリーミングするよりもはるかに悪いです。

ユーザーが旅行を予約する際、実際に探しているものに関する十分な情報が提供されないことがよくあります。

宿泊施設の供給は限られており、価格の変化は宿泊客の選択傾向に影響を与えます。

ゲストの好みは、プラットフォームを使用するたびに変わる可能性があります (たとえば、年に 1 回か 2 回しか予約しない場合など)。

宿泊施設に関する情報が多すぎて、ユーザーが時間内に理解することができません。

この150モデルとは何ですか?

約 150 の機械学習モデルが本番環境に導入されており、機械学習は Booking.com のユーザー エクスペリエンスのあらゆる側面に影響を与えています。一部のモデルは非常に具体的で、特定のコンテキスト内の特定の状況に焦点を当てています。他のモデルはセマンティック レイヤーのようなもので、ユーザーの行動の終点に基づいてユーザーの柔軟性を予測するモデルなど、複数のコンテキストで役立つ特定の概念をモデル化します。

Booking.com が使用するモデルは、大きく 6 つのカテゴリに分けられます。

  • 旅行者嗜好モデル: セマンティック レイヤーで動作し、ユーザーの嗜好についてさまざまな予測を行います。 (例:柔軟性)
  • 旅行者コンテキスト モデル: セマンティック レベルでも、旅行のコンテキスト (家族旅行、友人との旅行、出張など) を予測します。
  • アイテム スペース ナビゲーション モデル: ユーザーの閲覧履歴を追跡し、ユーザーの個人履歴とディレクトリ全体を考慮した推奨事項を提示します。
  • ユーザー インターフェイス最適化モデル: 背景画像、フォント サイズ、ボタン、その他の UI を最適化します。興味深いことに、「全体的に最適な特定の値は存在しないことがわかったので、私たちのモデルはコンテキストとユーザー情報に基づいて最適なユーザー インターフェイスを決定します。」
  • コンテンツ キュレーション モデル: レビューなどの人間が作成したコンテンツをキュレートして選択的に表示します。
  • コンテンツ エンリッチメント モデル: 現在どのオプションが最もコストパフォーマンスに優れているか、特定のエリアの価格動向など、旅程に含まれる要素に関する追加情報を計算します。

レッスン 1: 機械学習モデルを使用したプロジェクトは大きなビジネス価値を生み出す

Booking.com では、これらの各モデルがビジネス価値をもたらします。機械学習を使用しない他の成功したプロジェクトと比較すると、機械学習をベースにしたプロジェクトはより高い収益を生み出す傾向があります。

図2: さまざまなモデルのビジネスへの影響と中央値の影響の比較

そして、一度使用されると、すぐに商業的な利益が得られるだけでなく、さらなる製品開発の基礎となることもよくあります。下の図は、一連の製品展開の影響を示しています。各展開は、以前の展開を基に構築され、ビジネス成果を継続的に向上させています。

図 3: 推奨製品に関する一連の実験。各実験では、機械学習の問題の特定のドメインまたは設定に特化した新しいバージョンをテストします。バーの長さは、第1版と比較した観測値です(すべての統計的に有意な差)

レッスン 2: モデルのパフォーマンスはビジネスのパフォーマンスと同じではない

Booking.com は、ランダム化比較試験を使用して、モデルが特定のビジネス指標に与える影響を測定し、モデルによって生成される価値を推定します。

興味深い発見がありました。モデルのパフォーマンスを向上させても、必ずしもビジネス価値が上がるわけではないのです。

その理由としては、商品価値の飽和(何をやってもこれ以上搾り取るものがない)、オーディエンスが少ないことによる部分的な飽和(新旧モデルの効果はほぼ同じ)、クリックスルーなど間接的な指標の一部が最適化されすぎていて、それがうまく商品指標(コンバージョン率など)に変換できないこと、下図で説明した不気味の谷効果(人型玩具やロボットの模擬度が高ければ高いほど好感度は上がるが、ある臨界点を超えると急激に好感度が下がり、人間に似れば似るほど嫌悪感や恐怖感を抱くようになり、どん底に達する。この効果を不気味の谷効果という)などが考えられる。

図 5: 不気味の谷: 人々は、予測が正確すぎることを好まないことがあります (マルコフ連鎖ベースの目的地推奨機能)。写真のユーザーは「booking.comは、私がザルツブルクに行く前にウィーンに行かなければならないことをどうやって知ったのか?」と不満を述べている。

レッスン3: 解決しようとしている問題を理解する

モデルの構築を開始する前に、解決しようとしている問題を慎重に定義するために時間をかける必要があります。

問題をフレーミングするプロセスでは、ビジネス ケースまたは概念を入力として受け取り、定義されたモデリング問題 (通常は教師あり機械学習問題) を出力として受け取り、ビジネス ケースまたは概念をモデル化するための適切なソリューションを見つけます。

いくつかの驚くべき改善は、特定のシステム内でモデルを最適化することではなく、システム自体を変更することから生まれます。たとえば、クリック データに基づくユーザー嗜好モデルを、ゲスト レビュー データに基づく自然言語処理の問題に変更します。

多くの場合、最良の質問はすぐに思いつく質問ではなく、質問の構成を変えることが隠れた価値を引き出す強力な方法になり得ることが分かりました。

レッスン4: 予測の遅延は大きな問題です

パフォーマンスがビジネス指標に与える影響について、もう 1 つ重要なポイントがあります。 Booking.com は、人工的な遅延を導入した実験で、遅延が約 30% 増加すると、コンバージョン率が 0.5% 低下することを発見しました。 「これは当社の事業運営にとって重要なコストです。」

これは、予測を行うために強力なコンピューティング リソースを必要とする機械学習モデルに特に関係します。数学的に単純なモデルであっても、結果に影響を及ぼす遅延が生じる可能性があります。

Booking.com では、水平方向のスケーラビリティを実現するために複数のモデル コピーを配布したり、独自のカスタマイズされた線形予測エンジンを開発したり、パラメータの少ないモデルを優先したり、リクエストをバッチ処理したり、事前計算やキャッシュを実行したりするなど、さまざまな方法を使用して、モデルによって発生するレイテンシを削減しています。

レッスン5: モデルの品質に関する早期フィードバックを得る

モデルがリクエストを処理するとき、出力の品質を監視することが重要ですが、解決が容易ではない問題が少なくとも 2 つあります...

真のラベルを観察することが困難であり、フィードバックが不完全になります。

遅延フィードバック。たとえば、ユーザーが予約を行うと、モデルはユーザーがレビューを残すかどうかを予測しますが、予測の精度は旅行が完了するまで評価できません。

Booking.com には、この状況でバイナリ分類問題にうまく機能するトリックがあります。それは、モデルによって生成された応答の確率分布を調べることです。 「明確なプラトーを持つ滑らかな二峰性分布は、通常、モデルが 2 つのクラスをうまく区別できることを示しています。」その他の形状 (下の図を参照) は、モデルに何らかの問題がある可能性があることを示しています。

図7: 応答分布グラフの例

…証拠によれば、応答分布の分析は、モデルの欠陥を早期に検出するのに非常に役立つことが示唆されています。

レッスン 6: ランダム化比較試験でモデルのビジネスへの影響をテストする

この記事で検討した機械学習の成功事例のほとんどには、洗練された実験設計が伴っており、その中には開発プロセスを導くものや影響を検出するように設計されたものもありました。

この記事では、さまざまな状況で実験を設定する方法についての提案を示します。

  • すべての被験者が変更の対象ではない場合 (モデルに必要な機能を備えていないなど)、対象となる被験者のサブセット内で実験グループとコントロール グループを作成します。

図8:選択的トリガーの実験設計

  • モデルによって生成された結果が特定のケースでのみユーザー エクスペリエンスに影響を与える場合は、モデルがこの範囲内でユーザーに表示される出力を生成できるように、実験グループとコントロール グループの範囲をさらに制限します (もちろん、コントロール グループでは表示されません)。パフォーマンスへの影響を評価するために、モデルをまったく呼び出さない 3 番目のコントロール グループが追加されました。

図9:モデル出力に依存するトリガーの実験設計と、パフォーマンスへの影響を測定するためのコントロールグループ

  • モデルを比較する場合、2 つのモデルが一致しないケースに注目します。現在のモデルのみを呼び出すコントロール グループを使用します (現在のモデルを候補の改善に対してテストしていると仮定します)。実験設計は次のようになります。

図10:モデルを比較する際の実験設計

結論

仮説に基づく反復と学際的な統合は、機械学習で価値を生み出す方法の核となる強みです。この研究が他の機械学習実践者に指針を提供し、このトピックに関するさらなる探究を促すことを願っています。

<<:  Geek+がダブル11の結果を発表:中国最大のインテリジェント倉庫ロボットネットワークが72時間で811万件の注文を配達

>>:  売上高2,684億元の背後にあるアリババのAI技術の全貌

ブログ    

推薦する

プライベート5GとAI技術は自動化から自律性への移行を加速させる

モノのインターネットとインダストリー 4.0 の登場以来、マシン ビジョン、人工知能、機械学習、ディ...

例 | CNN と Python を使用した肺炎検出

導入こんにちは!数時間前にディープラーニング プロジェクトを終えたので、その成果を共有したいと思いま...

海外の研究者がAIを使って生体認証を欺く顔を生成

海外メディアによると、イスラエルのテルアビブ大学の研究者らは最近、画像生成システムStyleGANを...

キャラクター AI は私たちのやり取りの方法をどのように変えるのでしょうか?

Persona AI は、人々がチャットボットと対話する方法に革命をもたらします。ニューラル言語モ...

手計算から数値モデルへの移行後、人工知能は産業生態系を変えるだろう

実際、人工知能の概念は 1950 年代にはすでに登場していました。科学者が最初のニューラル ネットワ...

「ロボット」は詐欺の標的になり得るのか?

機械は識別や配送などの一連の機能を統合した後、自然に俳優と「対話」します。相互作用のプロセスにおける...

エッジ AI について知っておくべきことすべて

エッジ AI では、システムを他のシステムに接続する必要がないため、ユーザーはデータをリアルタイムで...

画像からの「テキスト生成」の難しさを克服し、同レベルの拡散モデルを粉砕せよ! TextDiffuser アーキテクチャの 2 世代の詳細な分析

近年、テキスト生成画像、特に詳細レベルでリアルな効果を示す拡散ベースの画像生成モデルの分野で大きな進...

...

指紋と顔は本当に生体認証を表現できるのでしょうか?

今年初めから現在まで、ToFセンサーはApple、Samsung、GD、AMSなどのセンサー企業やス...

Baidu Shen Dou: AIネイティブアプリケーションを作成するには2つのステップが重要

2024年1月10日、Honor MagicOS 8.0発表会と開発者会議において、Honor Te...

5分でAdam最適化アルゴリズムを素早くマスター

[[389202]]勾配降下法は、目的関数の負の勾配に従って関数の最小値を見つける最適化アルゴリズム...

美団点評におけるディープラーニングの応用

序文近年、ディープラーニングは音声、画像、自然言語処理などの分野で優れた成果を上げており、最も注目さ...

オープンソースモデル「幻覚」はより深刻です。これは3段階の幻覚検出キットです

大規模モデルには、幻覚を生成するという致命的な問題が長い間存在していました。データセットの複雑さによ...