推奨システムは、インターネットの発展において最も一般的かつ重要な技術の 1 つです。今日では、あらゆる種類のアプリ、ウェブサイト、ミニプログラム、その他のコンテンツを提供する場所では、推奨システムが背後で機能しています。 本当に優れた推奨システムを開発することは非常に価値がありますが、非常に困難でもあります。 Daguan Data は中国における推奨システムの大手サードパーティサプライヤーであり、試行錯誤しながら前進してきました。顧客に優れたサービスを提供するための強力な推奨システムの開発に取り組む一方で、推奨システムを評価する方法についても考えていました。ご存知のとおり、業界には「評価なくして進歩なし」という格言があります。これは、推奨システムの有効性を評価する科学的な方法がなければ、最適化と改善の方向性を見出すことは不可能であり、優れた推奨システムを作成することはできないという意味です。 数年前、私は「検索エンジンの結果の品質を定量的に評価する方法」というタイトルの記事を書き、それが最初に InfoQ で公開されました (Zhihu でも入手可能 https://zhuanlan.zhihu.com/p/30910760)。モバイルインターネット時代の推奨システムは、検索エンジンと比較して、適用範囲が広く、評価指標もより複雑です。 評価指標は、製品の最適化の方向性を導く定規のようなものです。推奨システムの結果の品質を科学的かつ合理的に評価するにはどうすればよいでしょうか。さまざまな文献やオンライン記事には数十種類の評価式があり、目を見張るものがあります。これらの指標の長所と短所は何でしょうか。また、どのように選択すればよいのでしょうか。この記事では、私たちの実際の経験に基づいて詳細な分析を行い、皆様のお役に立てれば幸いです。 1. 異なる推奨シナリオでは、地域の状況に応じて適切な評価方法を選択することが重要です。 評価指標を策定する際に最も重要となるのが推奨シナリオです。推奨シナリオなしで評価指標について語ることは、水から出た魚のようなものです。いわゆる「推奨シナリオ」は、推奨コンテンツの種類、その提示方法、推奨が満たすユーザーのニーズと密接な関係があり、この関係は非常に微妙な場合があります。 たとえば、どちらもおすすめの動画ではありますが、映画(通常は長い動画)をおすすめする場合と、短い動画(通常は数秒程度)をおすすめする場合のユーザーのニーズはまったく異なります。前者は映画のポスター、名前、評価、主演俳優、ストーリーの概要などを表示します。これらのコンテンツを閲覧するユーザーの目的は、できるだけ早く適切な映画を選択することです。そのため、推奨システムでは、高品質の結果をより速く、より正確に提供することを重視します。後者の短い動画の推奨(一般的なDouyinやKuaishouなど)は、ユーザーが閲覧する目的が強くなく、期間が短く意思決定コストが低いため、ユーザーは時間をつぶすために閲覧します。推奨システムの目的は、ユーザーがこのアプリに十分長く滞在し、高い粘着性を持つようにすることです。 前のシナリオでは、ユーザーが推奨ページ (再生ページではないことに注意してください) に長く滞在するほど、満足度は低くなります。映画名やポスターがたくさんあるページで長い時間を過ごしたい人はいません。10 分以上選択しても、次に見る価値のある映画が見つからない場合、ユーザーは間違いなく推奨システムに対して悪い印象を持つでしょう。しかし後者の場合、推奨プロセス自体が短い動画を継続的に視聴することを伴います。ユーザーの暇つぶしのニーズを満たすためには、多様性や目新しさなどが重要になります。 評価方法の観点から、映画などの長時間動画を推薦する際には、ユーザーの継続的な視聴ニーズを満たすのに十分な短時間で公開されているかどうかを重視する必要があり、最も理想的な指標は、ユーザーが「高得点の良い映画」だと感じ、1時間以上の視聴時間が価値があると感じたかどうかです。後者の場合、ユーザーを維持し、閲覧時間を増やし、プラットフォーム上の短編動画制作者の露出と健全なエコロジーを考慮することが、推奨システムの重要な評価要素となります。 この簡単な例を通して読者に説明したいのは、評価方法をより適切に選択し、多数の推奨評価式が適切に使用されるようにするためには、製品シナリオの観点から推奨の役割を深く理解する必要があるということです。 2. 推薦システムの評価に影響を与えるいくつかの要因 シナリオの微妙な違いにより、評価方法も異なる必要があります。 「場面に応じて着るものを着なさい」ということわざがあります。スーツでもスポーツウェアでも、それぞれに適した場面があります。状況のニュアンスを理解すると、いくつかの要素が関係してきます。 要因 1: 推奨表示スロットの数は固定されているか、情報フィード フロー内で継続的に拡大しているか。 スロット数が固定された推奨事項は、検索エンジンやターゲット広告の結果に近くなります。表示件数が限られており、検索結果が上から下に並べられているように優先順位がある場合があるため、推奨結果の精度が高くなければなりません。このようなシナリオを Top-N 推奨と呼びます。このとき、最初の N 件の推奨結果のクリック率 (CTR) が一般的な指標 (クリック/露出) になります。 推奨結果に明確な順序がある場合 (アプリで上から下に結果を表示するなど)、多くの場合、順位低下要因を考慮に入れることができます。たとえば、NDCG (正規化割引累積ゲイン)、MRR (平均逆順位)、MAP (平均平均精度) はすべて、順位要因を組み込んでいます。 右側の赤いボックスは、一般的なトップN推奨結果です。 一般的なディスプレイの推奨事項/広告 もう 1 つのタイプはディスプレイ タイプのレコメンデーションです。これは従来のパフォーマンス広告と非常によく似ていますが、唯一の違いは上記のように課金方法です。この場合、推奨システムは、AUC、ROC、その他の指標など、広告システムの一般的な評価方法を借用できます。 しかし、モバイルアプリで一般的なフィードフローのレコメンドの場合、レコメンドの表示枠が多数(無限とも言える)あり、ユーザーが簡単に画面をスクロールできるため、位置要因は特に重要ではありません。レコメンドの品質を測る指標として、露出クリック率(クリック数/露出数)がよく使われます。また、PVクリック率(クリック数/総PV)やUVクリック率(クリック数/総UV)もフィードフローでよく使われる手法です。このとき、最初の画面の最初の結果は Top-N の推奨事項ほど重要ではないため、評価指標も異なります。 要因 2: 推奨の背後にあるビジネス モデルは、電子商取引取引に基づいていますか、それとも広告収入に基づいていますか? 大手電子商取引ウェブサイトや食品配達アプリなど、電子商取引プラットフォームでは、買い手と売り手の間の取引をより円滑にするために多くの推奨システムが使用されています。推奨の中心的な目的は、取引を促進することです(たとえば、ユーザーが商品の購入を完了したり、ユーザーがオンデマンドで映画を視聴したり、ユーザーが小説を読み始めたりすること)。このとき、推奨によってもたらされた取引が総取引額に占める割合、または総取引額とGMVの比率が最も直接的な評価指標となります。 買い物客の興味を刺激する推奨からユーザーが注文を完了するまでの一連の操作があるため、アクションを細分化して各リンクの効果をより適切に測定することもできます。たとえば、カート追加率(おすすめに誘導されてカートに追加された数/おすすめ露出総数)、商品詳細ページ閲覧率(おすすめに誘導されて商品詳細ページにアクセスした数/おすすめ露出総数)などです。 一部のプラットフォームは、広告のクリックと露出を主な収入源としています。たとえば、さまざまな一般的なニュースや情報アプリ、または短編動画や無料の読書(漫画、小説)アプリなど、広告を主な収入源としているプラットフォームがあります。推奨システムにより、ユーザーがアプリに費やす時間がより長くなり、ユーザーのクリック数が増えると期待されています。つまり、プラットフォームはより多くの広告収入を得ることができます。なぜなら、CPM課金広告でもCPC課金広告でも、ユーザーのアクティブ度が高く、アプリを閲覧する回数が多いほど、平均収益が高くなるからです。 この場合、推薦システムが満たそうとしているユーザーのニーズは、時間をつぶすことや「ぶらぶらする」ことです。このとき、ユーザーの平均滞在時間、推薦の誘導による成功した読書の数などは、ニーズにもっと合致しています。 要因 3: 推奨評価はオフラインで行われますか、それともオンラインでリアルタイムに行われますか? オフライン評価とオンライン評価では、データ準備条件が異なるため、異なる方法が必要になります。通常、オフライン データ収集を完全に詳細かつ包括的に行うことが難しい場合 (たとえば、多数のユーザーからの暗黙的なフィードバック データは、パフォーマンス コストが高すぎるため完全に記録することが難しい)、オフライン評価方法は異なります。 典型的なオフライン評価には、有名な Netflix Prize コンテスト、KDD Cup、Kaggle のビッグデータ アルゴリズム コンテストなどがあります。これらのコンテストでは、固定データ セットが使用され、MSE (平均絶対誤差)、RMSE (二乗平均平方根誤差)、R-Squared などの静的評価方法を使用して次の計算が行われます。 たとえば、映画やテレビシリーズの推薦では、特に学術分野では、ユーザーアイテム評価マトリックス (User-Item-Rating) がオフライン評価によく使用されます。大学や学術界が実際のオンライン環境にアクセスすることは難しいため、アルゴリズムの品質を評価するにはオフライン評価を使用する方が便利です。これは学術コミュニティの無力さと言えます。 しかし、製品の評価に関するユーザーからの明確なフィードバックは非常に少ないことは誰もが知っています。評価マトリックスを概算で生成し、上記の静的指標を計算するために、共有が何ポイントにマッピングされるか、いいねが何ポイントにマッピングされるかなど、評価マッピング関係を考え出す必要がある場合もあります。 各種推奨効果指標をオンラインでリアルタイムに計算 オンライン評価の利点は、ABテストの流用テストをいつでも実行でき、結果が一目でわかるため、エンジニアに非常に好評です。困難は 2 つあります。1 つ目は、オンライン環境は非常に複雑で、他の多くの要因によって干渉されるため、推奨アルゴリズムの有効性が正確に反映されない可能性があることです。たとえば、一部のインジケーターは攻撃や不正行為に対して脆弱です。その他の運用活動も結果に影響を及ぼす可能性があります。特に、抽出・比較のトラフィック比率が小さすぎる場合、データのジッターが大きくなり、ABテストの結果が実際の効果を反映しない可能性があります。 2 つ目の難しさは、評価データは、途中の特定のモジュールの直接的な品質ではなく、最終結果を反映することが多いことです。 AB テストを使用してより深い内部アルゴリズム モジュールに送信する場合、内部パラメータを渡すためにエンジニアリング アーキテクチャで多くの開発を行う必要があることがよくあります。たとえば、推奨されるランキング戦略のパフォーマンスをオンライン評価で計算するのは簡単ですが、以前のリコール戦略のどれがより効果的かをオンライン評価で分析するのははるかに困難です。パラメータの転送にはビッグデータ エンジニアリング アーキテクチャへの取り組みが必要であり、Daguan はこれに取り組んでいます。 第一線のアルゴリズムエンジニアがおそらく頻繁に遭遇するもう 1 つの問題は、オフライン評価とオンラインテストの結果がまったく異なることです。オフライン テストで非常に優れたパフォーマンスを発揮するアルゴリズムでも、オンラインになるとまったく効果を発揮しなくなる可能性があります。これは、適切な評価方法を選択することがいかに重要であるかを証明するものでもあります。 要因 4: 推奨システムの現在の目標は、運用指標を最大化することですか、それとも生態学的バランスとソースの多様性を考慮することですか? 推奨コンテンツがすべてプラットフォーム自体から提供される場合、GMV を増やすために取引を増やすこと、読者の維持率を高めること、プラットフォーム全体でのユーザーのアクティビティを改善することなど、プラットフォームの主要な運用指標を最大化および最適化することにのみ焦点を当てる必要があります。 しかし、状況は複雑です。一部のプラットフォームで推奨されるコンテンツは、さまざまな UGC または PGC から提供されます。これらのコンテンツ プロバイダーは、プラットフォームの推奨に依存してコンテンツを公開し、利益を上げています。この場合、プラットフォームは自身の生態バランスとシステムの長期的な健全性の観点から、ロングテールUGCまたはPGCに推奨される露出機会の一部を放棄することを検討し、少数のトップコンテンツチャンネルにハイジャックされて発生する「大口顧客による店舗いじめ」の問題を回避する必要があります。同時に、より多くの中小コンテンツクリエイターをサポートすることで、生態系をより健全で繁栄させることができます。結局のところ、プラットフォームは、大きな木の下で草が枯れないのを見て決して喜んでいません。このとき、推薦システムは最も重要なバトンであり、その評価指標にはコンテンツソースのカバレッジ(Source Coverage)や多様性(Novelty)などの指標を含める必要があります。 経済学におけるジニ係数は、生態系の健全性を評価するための補助指標としても使用できます。推奨システムの本来の目的は、マシュー効果を排除して、さまざまなアイテムを特定のグループの人々に表示できるようにすることです。しかし、研究によれば、主流の推奨アルゴリズム (協調フィルタリングなど) はすべてマシュー効果を持っていることがわかっています。ジニ係数は、推奨システムにおけるマシュー効果の強さを評価するために使用されます。 Gini1 が初期のユーザー行動から計算されたアイテム人気のジニ係数、Gini2 が推奨リストから計算されたアイテム人気のジニ係数である場合、Gini2 > Gini1 であれば、推奨アルゴリズムにマシュー効果があることを意味します。 要因 5: 推奨結果は、人間の本性に応えるものか、それとも人間の本性を導くものか? 推奨システムの本質は、大規模なデータマイニングを通じてコンピュータシステムに人間の本質を「理解」させることです。しかし、もう少し深く言えば、人間の本質は最も複雑で矛盾したものなのです。理性的な側面と感情的な側面の両方を持っています。 推奨システムが単に人間の本性に応えるものであれば、それは「下品」に見え、最終的にはユーザーに拒否されることになります。たとえば、人間の本性には好奇心と貪欲な面があり、人間の本性は通常せっかちです。これは、数秒の短いビデオがますます人気になっている理由、テレビシリーズに「倍速」機能がある理由、そして、スリリングなタイトルの短い記事が、内容が深く長さのある記事よりも常に推奨される指標となる理由も証明しています。 人間は群れをなす動物であり、仲間が何を見ているかを常に気にしています。協調フィルタリングのアイデアに基づく多数のアルゴリズムが関連するニーズを満たします。彼らの要望に全面的に応えれば、多くの人が下品でファーストフード風のコンテンツを好んで視聴していることがわかるでしょう。介入がなければ、ポルノ、ギャンブル、麻薬、クリックベイト、人騒がせで奇妙で刺激的なコンテンツ、あるいは安価で質の悪い商品が推奨結果に表示されることが多くなります。 しかし、人間の本性を導き、より質の高いコンテンツを推奨するのは、推奨システムの責任です。このとき、評価指標はクリック率やコンバージョン率などの定量的な指標だけに焦点を当ててはいけません。これらの指標だけを使ってアルゴリズムを最適化すると、最終的には低品質のコンテンツがレイアウトを埋め尽くし、プラットフォーム全体のスタイルが低下するからです。 推奨システムを評価するとき、人々は「セレンディピティ」と「目新しさ」についてよく話しますが、これらは人間の本性の観点から探求されることが多いです。これらの指標を計算する上で最も難しいのは、評価指標が主観的であり、オンライン行動の計算を直接使用することが難しいことです。一般的には、事後アンケートやユーザーによるコンテンツの評価、格付け、転送によって間接的にしかサポートできません。または、7 日間または N 日間の保持率を使用して、推奨結果に対するユーザーの全体的な満足度を判断します。 3. 実践における評価指標の設定方法 方法1: 人口の異なるセグメントに異なる評価指標を設定する ユーザーの総合的な評価に基づいて、推奨アルゴリズムは「大多数の人の好み」に合う結果を推奨するように誘導されますが、これでは各個人へのパーソナライズという本来の意図から外れてしまいます。私たちは、コミュニティ内のさまざまな人々が推薦を通じて満足のいく体験を得られることを願っています。少数の人々の好みは、全体のデータに埋もれてしまうことがよくあります。当社の最前線のアルゴリズム エンジニアは、新しい推奨アルゴリズムがリリースされた後、全体的な指標は明らかに大幅に改善されているものの、リーダー/顧客が推奨されたものが以前ほど良くないと不満を言うという経験をよくします。同様の矛盾は個人とグループの間にもしばしば存在します。推奨アルゴリズムはグループ全体にとって有益かもしれませんが、必ずしも別のグループの人々にとって有益であるとは限りません。 理想的なアプローチは、ユーザー層をセグメント化することです。たとえば、電子商取引の Web サイトには、価格に敏感な一般ユーザーと、品質を追求するハイエンド ユーザーの両方が存在します。指標を計算する際に、指標を異なるグループに分けると、推奨効果が発生した後の具体的な違いをよりよく反映できます。たとえば、新規ユーザーがすぐに取引を完了して落ち着くことを期待する場合、このグループの人々に対して推奨される指標である注文率と翌日または 7 日間の保持率が非常に重要です。しかし、ハイエンドの人々にとっては違います。個人差やニッチな嗜好にはもっと注意を払うべきです。 方法2: 推奨ポジションに応じて異なるインジケーターを設定する 同じレコメンドアプリや商品でも、異なる場所でのレコメンドには、レコメンド評価指標をターゲットに設定する必要があります。推奨される指標策定ルールは、上記の場所やシナリオによって異なる場合があります。たとえば、ホームページ上のバナー推奨(トップ N 推奨)、情報フィード推奨、コンテンツ詳細ページの下部にある関連推奨(通常は適合率と再現率または F1 スコアを使用して計算されます)などです。また、検索結果なしページ、ショッピングカートページ、終了確認ページなど、さまざまな場所で、地域の状況に応じて適切な評価指標を選択する必要があります。 方法3: 複数の異なる評価指標を組み合わせて全体的なデータ指標を取得する 各指標には限界があります。推奨システムでは、多くの要素 (ビジネス、ユーザー エクスペリエンス、技術的な実装、資金、人材など) のバランスを取る必要があります。適切なバランスをどのように取るかが哲学です。通常、いくつかの要因の加重合計が全体的な指標として使用される。 指標の選択は、製品の主な位置付けに関連しています。たとえば、高速で新鮮なコンテンツを特に重視するアプリの場合、結果のタイムリーさをより重視する必要があります。スタイルやテイストを重視するアプリでは、1 つの記事を読む時間がより重要になります。コミュニティ活動を重視するプラットフォームでは、ユーザーコンテンツの共有率やインタラクション率などが全体的な指標の中でより目立つようになるはずです。 製品運用のさまざまな段階では、異なる傾向を持つ指標の選択も異なる必要があります。製品発売の初期段階では、ユーザーエクスペリエンスに配慮し、新規ユーザーを積極的に拡大する必要があるかもしれません。十分な数のユーザーがいる場合は、商業的な収益化(有料動画の推奨、リストへの広告の挿入など)に重点を置き、推奨を通じてできるだけ早く製品を収益化するように努めます。電子商取引の推奨であれば、購入前と購入後のユーザーの違いや、標準品と非標準品の違いを慎重に考慮する必要があります。購入する前に、ユーザーがより適切に比較できるように、類似した製品を推奨することがよくあります。特に耐久消費財の場合、購入が完了したらそれを勧め続けるのは逆効果になります。 さまざまな推奨アルゴリズムと指標を柔軟に選択 4. 推奨指標の概要 推奨システムの本質はあらゆる消費者を満足させることであり、これらの指標はさまざまな角度から「満足度」の度合いを測定するものにすぎません。この概要では、一般的な指標の種類として次の種類が含まれます。
同じ推奨シナリオでは、指標が多すぎると最終的な最適化の決定に役立たないため、指標が多すぎるべきではありません。各シナリオのコアの役割を把握するだけで十分です。しかし、指標が 1 つだけでは不十分です。指標が 1 つだけでは、推奨アルゴリズムの最適化が誤った方向に進んでしまいます。単一の指標のパフォーマンスが良好であると迷信的に信じても、製品が優れているわけではなく、すべてが裏目に出ます。 過剰に最適化すると指標は上がるかもしれませんが、ユーザー エクスペリエンスは低下することがよくあります。 多くの推奨評価指標は、それ自体が脆弱で脆弱です。一部の推奨アルゴリズムがさまざまなフィードバック指標に大きく依存して結果を自動的に最適化すると、悪意を持って悪用されることがよくあります。したがって、推奨評価指標を柔軟に使用する必要がありますが、テクニカル指標を完全に盲目的に信じてはいけません。なぜなら、指標の背後に反映されるのは、ユーザーの人間性だからです。商業的利益と人間性の最適なバランスを見つけることは、推奨システムの開発と推奨効果の評価の最高レベルです。 著者について: 陳雲文: Daguan Data の創設者兼 CEO、復旦大学でコンピューターサイエンスの博士号を取得、国家「千人計画」の専門家、第 9 回上海青年科学技術人材、復旦大学と上海財経大学の学外大学院生の指導教官。人工知能分野で豊富な研究成果を持ち、IEEE Transactions、SIGKDDなどトップクラスの国際学術誌や会議で数十本のハイレベルな科学研究論文を発表。人工知能の古典『Intelligent Web Algorithms』(第2版)を翻訳し、ACM KDD CUP、CIKM、EMI Hackathonなど世界トップクラスのデータマイニングコンテストで何度も優勝や準優勝の栄誉を獲得。彼は、Shanda Literatureの最高データ責任者、Tencent Literatureのシニアディレクター、BaiduのコアテクノロジーR&Dエンジニアを務めてきました。彼は機械学習、自然言語処理、検索推奨などの分野で豊富な研究およびエンジニアリングの経験を持っています。 [この記事は51CTOコラムニスト「Daguan Data」によるオリジナル記事です。転載については51CTOコラムまでご連絡ください] この著者の他の記事を読むにはここをクリックしてください |
<<: COVID-19 最新情報: COVID-19 との戦いに役立つトップ 10 のイノベーション
>>: 世界初の翻訳エンジンが進化して復活、「細部にこだわり」方言もマスター
01 はじめにFacebook に写真をアップロードするたびに、プラットフォームが顔認識アルゴリズ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
「タイムレイダース」を覚えていますか? 1つは1999年、もう1つは2018年のもので、わずか19年...
現在、知能ロボットが急速に発展していますが、機械を知能化するための鍵は実はビッグデータです。ビッグデ...
[[409599]]インターネット接続が4Gから5Gへと高速化していく一方で、利用可能な帯域幅が限ら...
AI はこれまでに開発された最も強力なテクノロジーの 1 つですが、すでに 4 回の進化を経ています...
多くの機械学習技術は、急速に概念実証から人々が日常的に頼りにする重要なテクノロジーの基盤へと移行して...
人工知能は、企業のデジタル変革の方法を変え、効率性、俊敏性、顧客中心の機能を最前線にもたらします。要...
専門家の混合 (MoE) は、LLM の効率性と精度を向上させるためによく使用される手法です。このア...
[[210283]]人工知能 (AI) と機械学習 (ML) は、現在非常に注目されている流行語で...