ユーザー成長シナリオでAB実験システムを構築するには何をする必要がありますか?

ユーザー成長シナリオでAB実験システムを構築するには何をする必要がありますか?

1. 新しいユーザーシナリオでの実験が直面する問題

1. UGパノラマ

UGのパノラマビューです。

UG は、有料広告、ASO、SEO などのチャネルを使用して顧客を引き付け、アプリに誘導します。次に、ユーザーを活性化し、成熟段階に入るのを支援するために、初心者向けの操作とガイダンスをいくつか実行します。その後のユーザーは徐々に非アクティブになり、衰退期に入ったり、離脱期に入ったりする可能性があります。この期間中、アクティベーションを促進するために、解約やリコール活動に関する警告をいくつか行い、その後、失ったユーザーのリコールもいくつか行われます。

これは上図の式にまとめることができ、つまり、DAU は DNU に LT を掛けたものに等しくなります。 UG シナリオのすべての作業は、この式に基づいて分類できます。

2. AB実験原理

AB 実験では、トラフィックを完全にランダム化し、実験グループとコントロール グループに異なる戦略を与えます。最後に、統計的手法と実験仮説を組み合わせて科学的な決定を下します。これが実験全体の枠組みです。現在、市場で入手可能な実験的転用には、実験的プラットフォーム転用とクライアント ローカル転用の 2 種類があります。

実験プラットフォームの転用には前提条件があります。デバイスは初期化後に安定した ID を取得する必要があります。この ID に基づいて、実験プラットフォームに転用関連のロジックを完了するように要求し、転用 ID をエンドに返します。エンドは受信した ID に基づいて対応する戦略を作成します。その利点は、転用の均一性と安定性を確保できる実験プラットフォームがあることです。欠点は、実験的な転用を実行する前にデバイスを初期化する必要があることです。

トラフィック転送のもう 1 つのタイプは、クライアント側のローカル トラフィック転送です。このシナリオは比較的ニッチであり、主に一部の UG シナリオ、広告画面を開くシナリオ、および一部のパフォーマンス初期化シナリオで使用されます。ここでの転用ロジックは、エンドが初期化されるとすべて完了します。その利点は明らかで、遅延がなく、電源を入れるとすぐに転用を実行できます。論理的に言えば、転換の均一性も保証できます。しかし、実際のビジネス シナリオでは、トラフィック分散の均一性に問題が生じることがよくあります。その理由については後ほど説明します。

3. 新規ユーザーシナリオにおけるAB実験が直面する問題

UG シナリオが実際に直面する最初の問題は、できるだけ早く転換することです。

例を挙げてみましょう。例えば、ここのトラフィック受信ページの場合、プロダクトマネージャーは、コア指標を改善するために UI をさらに最適化できると考えています。このようなシナリオでは、できるだけ早く実験を転用できることを願っています。

1ページの迂回では、迂回中にデバイスが初期化を完了し、IDを取得します。18.62%のユーザーはIDを生成しません。従来の実験プラットフォームの転用方法を使用すると、18.62% のユーザーをグループ化できず、固有の選択バイアスの問題が発生します。

さらに、新規ユーザーのトラフィックは非常に貴重です。新規ユーザーの 18.62% は実験に使用できず、実験の期間とトラフィック利用の効率に大きな損失が発生します。

今後は、転用実験の問題を早期に解決するために、クライアント側のローカル転用実験を使用する予定です。利点は、デバイスを初期化すると転用が完了することです。原理としては、まず、最後に初期化されると、それ自体で乱数を生成し、その乱数をハッシュし、同じ方法でグループ化することで、実験グループとコントロールグループを生成できます。原理的には、トラフィックが均等に分散されることを保証できるはずです。ただし、上図のデータから、21% を超えるユーザーが異なるグループに繰り返し割り当てられていることがわかります。

Honor of KingsやTikTokなど、非常に人気のある製品にユーザーが簡単に夢中になるシナリオがあります。新規ユーザーは、実験期間中にアプリを複数回アンインストールして再インストールすることになります。先ほど述べたローカル転用のロジックによれば、乱数の生成と転用によりユーザーは異なるグループに入ることができるため、転用 ID と統計 ID を 1 対 1 で一致させることはできません。これにより、流量の分布が不均一になるという問題が発生します。

新しいユーザー シナリオでは、実験的な評価基準の問題にも直面します。

このシナリオを引き継ぐ新しいユーザー トラフィックのタイムラインを整理しました。 APPを起動するときに、トラフィックを転送することを選択しました。転換のタイミングがこれを達成でき、均一であると仮定すると、対応する戦略が有効になります。次に、インジケーター統計 ID は戦略が有効になるタイミングよりも後に生成され、この時点でのみデータを観測できます。データ観察のタイミングが戦略実行のタイミングより大幅に遅れると、生存者バイアスが発生します。

2. 新しい実験システムとその科学的検証

上記の問題を解決するために、私たちは新たな実験システムを提案し、その科学性を検証しました。

1. 新規ユーザーシナリオ実験転用IDの選択

前述のように、新規ユーザー実験では、新規ユーザーの転用選択に対する要件が比較的高くなっています。新規ユーザー実験転用 ID を選択するにはどうすればよいでしょうか?いくつかの原則があります:

  • コンプライアンス。海外事業でも国内事業でも、安全性とコンプライアンスは何よりも生命線です。安全性とコンプライアンスを満たさなければ、製品が店頭から消えた時の影響は特に大きくなります。
  • 適時性: 新規ユーザー シナリオの場合、適時性が必要であり、デバイスの電源がオンになるとすぐにトラフィックを取得できる必要があります。
  • 一意性: 単一インストール サイクル内では、転用 ID は安定しており、インジケータ キャリバー ID と 1 対 1 で対応しています。下図のデータから、転用IDと指標計算口径IDの1対1一致率は99.79%に達し、指標計算IDと転用IDの1対1一致率も99.59%に達したことがわかります。基本的には、規格に従って選択された転用IDとインジケータIDが1つずつ一致できることが検証できます。

2. 転用能力の科学的検証

転用 ID を選択した後、転用機能は多くの場合、2 つの方法で実現されます。1 つ目は実験プラットフォームを介して、2 つ目はクライアント上で完了します。

転用IDを取得したら、転用IDを実験プラットフォームに提供し、実験プラットフォームでの転用機能を完成させます。転換プラットフォームとして最も基本的なことは、そのランダム性を検証することです。 1つ目は均一性です。同じレイヤーの実験では、トラフィックは多数のバケットに均等に分割され、各バケット内のグループの数は均一である必要があります。ここでは単純化できます。1 つのレイヤーに 1 つの実験のみがあり、グループ a と b の 2 つのグループに分かれている場合、コントロール グループと実験グループのユーザー数はほぼ等しくなるはずであり、それによって転換能力の均一性が検証されます。第二に、多層実験の場合、実験は互いに直交し、互いに影響を受けないようにする必要があります。同様に、異なるレイヤーの実験間の直交性を検証することも必要です。同質性と直交性は統計的カテゴリ検定によって検証できます。

転用選択の ID と転用機能を導入した後、新しく提案された転用結果が AB 実験の要件を満たしているかどうかを指標結果レベルから検証する必要があります。

3. 転用結果の科学的検証

内部プラットフォームと組み合わせて、多くのAAシミュレーションが実行されました。

対照群と実験群を比較して、対応する指標に関して実験要件を満たしているかどうかを確認します。このデータセットを見てみましょう。

t 検定のためにいくつかの指標グループをサンプリングしました。非常に多くの実験では、タイプ 1 のエラー率は非常に小さい確率になるはずです。タイプ 1 のエラー率が約 0.055% であると予想されると仮定すると、その信頼区間は実際には約 1000 倍になり、0.0365 ~ 0.0635 の間になるはずです。最初の列でサンプリングされた指標のいくつかはこの実行範囲内にあることがわかり、タイプ 1 エラー率の観点からは、既存の実験システムは正常です。

同時に、この検定は t 統計量の検定であることを考慮すると、対応する t 統計量は、大規模なトラフィックの分布の下では正規分布にほぼ従うはずです。 t 検定統計量の正規分布を検定することも可能です。ここでは正規分布検定が使用されており、検定結果も 0.05 よりはるかに大きいことがわかります。つまり、元の仮説が確立され、t 統計量はほぼ正規分布しています。

t 統計量の各テスト結果について、多数の実験で p 値がほぼ均一に分布しています。p 値に対して均一分布テスト (pvalue_uniform_test) を実行すると、同様の結果が得られますが、これも 0.05 よりはるかに大きい値になります。したがって、p 値がほぼ均一分布に従うという当初の仮説も正しいことになります。

転用 ID と指標計算口径、転用能力、転用結果指標結果の間の上記の 1 対 1 の対応はすべて、新しく提案された実験転用システムの科学的性質を証明しています。

3. アプリケーション事例分析

次に、UG シナリオでの実際の適用事例に基づいて、実験評価を実施し、上記の 3 番目の問題を解決する方法について説明します。

1. 新規ユーザーシナリオ実験評価

これは典型的な UG トラフィック受け入れシナリオです。NUJ の新規ユーザー ガイダンスまたは新規ユーザー タスクの実行中は、トラフィックの利用率を向上させるために多くの最適化が行われます。このときの評価基準は定着率であることが多く、これが現在の業界の共通認識となっています。

新規ユーザーにとって、ダウンロードからインストール、そして最初の起動までのプロセスは、特に製品の使用を経験したことのないユーザーにとっては敷居が高すぎると PM は感じています。ユーザーが最初に製品に慣れ、製品のヒップホップな瞬間を体験してから、ログインするようにガイドされるようにすべきでしょうか?

その後、PM は別の仮説を提案しました。それは、新規ユーザー ログインまたは新規ユーザー NUJ のシナリオで、製品を体験したことのないユーザーの抵抗を軽減するというものです。製品を体験したユーザーや、携帯電話を変更するユーザーの場合は、引き続きオンラインプロセスが使用されます。

転用は指標IDに基づいて行われます。まず指標IDを取得し、次に転用を行います。このような転用は均一であることが多く、実験結果からもそれがわかります。同時に、保持率から見ても大きな違いはありません。このような結果に基づいて総合的な判断を下すのは困難です。このような実験は実際にはトラフィックを無駄にし、選択バイアスの問題があるため、ローカル ダイバージョンに関する実験を実施します。ローカル ダイバージョン実験の結果は、下の図に示されています。

グループに入る新しいデバイスの数に大きな違いがあり、信頼性があります。同時に、定着率は改善していますが、他のコア指標は実際にはマイナスであり、このマイナスは定着率と強く相関しているため理解しにくいです。そのため、このようなデータに基づいて説明したり、原因を特定したりすることは難しく、総合的な判断を下すことも困難です。

グループに繰り返し追加されているユーザーの状況を見ると、20%以上のユーザーが異なるグループに繰り返し追加されていることがわかります。 AB 実験における転換のランダム性は破壊されており、このような結果により、より科学的な決定を下すことが困難になっています。

最後に、提案された新しい分割を使用した実験の結果を見てみましょう。

機械の電源を入れるとすぐに転換が実行でき、転換能力は内部プラットフォームによって保証され、転換の均一性と安定性を最大限に保証できます。実験データから判断するとほぼ近い値であり、処方テストを行うと、ニーズを十分に満たしていることがわかります。同時に、有効な新規デバイスの数が 1% と大幅に増加し、維持率も向上していることがわかります。同時に、コントロールグループまたは実験グループだけを見ると、最終的に生成された新しいデバイスへの転送IDに基づくトラフィックの変換率は、実験グループの方がコントロールグループよりも1%高いことがわかります。この結果の理由は、実験グループが実際に NUJ と NUT でのユーザーのエントリーポイントを拡大し、より多くのユーザーが来て製品を体験し、その後滞在しやすくしたためです。

実験データをログインありとログインなしに分けてみると、実験グループのユーザーのうち、より多くのユーザーが製品を体験するために非ログインモードを選択し、リテンションも向上したことがわかります。この結果は予想通りです。

日々の指標を見ると、グループに参加するユーザー数は実際に長期間にわたって記録されていることがわかります。日々の視点で見ると、着実に増加しており、リテンション指標も向上しています。対照群と比較して、実験群では有効なデバイスの数と保持率が向上しました。

新規ユーザー トラフィックを引き継ぐシナリオでは、リテンションまたは短期 LT の次元からさらに多くの評価指標が評価されます。ここでの最適化は、実際には LT レベルの 1 次元空間での最適化のみです。

新しい実験システムでは、1次元最適化が2次元最適化に変更され、DNU Shen Shang LTの全体的なパフォーマンスが向上しました。これにより、戦略空間が1次元から2次元に変更されました。同時に、いくつかのシナリオでは、LTの一部の損失を受け入れることができます。

IV. 結論

最後に、本稿では、新しいユーザーシナリオにおける実験的能力構築と実験的評価基準についてまとめます。

  • UG 新規ユーザー シナリオの既存の実験システムでは、新規ユーザー トラフィック受け入れ戦略の評価で直面する問題を完全に解決できないため、新しい実験システムが必要です。
  • 転用 ID を選択するための基準はいくつかあります。1 つ目は、セキュリティ準拠です。2 つ目は、初回起動時に取得できることです。3 つ目は、1 回のインストール サイクル内で安定しており、インジケーター ID とワンショットの関係があることです。
  • 新規ユーザー シナリオの実験的評価は、多次元の最適化です。これまでのデバイス保持率の評価とは異なり、効果的な新規デバイスの数とデバイス保持率からメリットが得られます。
  • 「新しい」ユーザーを獲得すると、多くの場合、ビジネス上の大きなメリットがもたらされます。ここでの「新規」とは、新規ユーザーだけでなく、アンインストールして再インストールするユーザーも含まれます。

<<:  ドキュメント内の単語が増えるほど、モデルは興奮します。 KOSMOS-2.5: テキストが密集した画像を読み取るためのマルチモーダル大規模言語モデル

>>:  OpenAIの最新の評価額は半年で3倍になり、800億ドルを超える

ブログ    
ブログ    

推薦する

充電の問題にさよなら。ロボットが新しいアイデアをもたらし、新しいトレンドを生み出す

近年、交通と環境に対する要求が継続的に高まっており、わが国の新エネルギー自動車は急速な発展を遂げてい...

空飛ぶ車の将来展望は?

空飛ぶ車というアイデアは何十年も私たちの想像力をかき立て、交通渋滞の上を飛ぶことができる未来のビジョ...

ブラックボックスモデルを突破せよ! MITの中国人博士がモデル解釈のための新しいツールExSumをリリース

近年の人工知能の急速な発展は主にニューラルネットワークモデルによるものですが、モデルが大規模かつ複雑...

...

5 分で機械学習モデルのハイパーパラメータを最適化するマスターマニュアル

[[396168]]機械学習アルゴリズムには、特定のデータセットに合わせて調整できるハイパーパラメー...

...

Baidu Shen Dou: AIネイティブアプリケーションを作成するには2つのステップが重要

2024年1月10日、Honor MagicOS 8.0発表会と開発者会議において、Honor Te...

マスク氏のAIスタートアップxAIは社会への影響を優先する特別な構造を採用

12月27日、テスラのCEOイーロン・マスク氏が新たに設立したAIスタートアップ企業xAIは、競合他...

AI イニシアチブを成功させるために必要な 10 のこと

市場で競争上の優位性を獲得する過程で、多くの企業が新興技術の導入に熱心です。しかし、導入を急ぐあまり...

2021年には、人工知能が私たちの生活にさらに統合されるでしょう。これは何を意味するのでしょうか?

[[375039]]人工知能の歴史は、アラン・チューリングがチューリングテストを発明した 1950...

ChatGPTの愚かさに対する新たな説明: 世界はAIによって変化し、訓練されたときとは異なっている

学術界は、ChatGPT がなぜ愚かになったのかという新たな説明を持っています。カリフォルニア大学サ...

...

...

AI がデータセンターのワークロード管理の課題を解決する方法

データセンターのワークロードが急増し続ける中、効率性を向上させてコストを削減しながら IT チームの...

GoogleのオープンソースAIは92%の精度で音を区別できる

[[249335]] VentureBeatによると、Googleの人工知能研究部門は音声認識におい...