肖像ラベルシステムの構築と運用実践

肖像ラベルシステムの構築と運用実践

1. ポートレートラベルシステム

Qunarは、事業開発プロセスごとに独立したポートレートラベリングシステムを構築しています。会社が成長を続けるにつれ、さまざまな事業の肖像ラベルシステムを統合する必要が生じてきました。技術的な観点から見ると、統合プロセスは比較的単純ですが、ビジネス レベルでの統合はより複雑です。さまざまなビジネスにおけるさまざまなタグの定義が異なるため、統合の難易度が高まります。統合ラベル システムが企業全体の戦略にさらに貢献できるようにするには、各ラベルのロジックと一貫性を確保するために、徹底的なキーワード抽出と最適化が必要です。

1. ポートレートタグとは何ですか?

ユーザー行動とは、ユーザーがアプリ上で操作することで発生する行動を指し、ビジネスログとは、ユーザー自身のクリック、注文、検索などの行動によってサーバー側で生成されるデータを指します。ポートレート タグは、ルール統計とマイニング アルゴリズムを通じてユーザーの行動とビジネス データを計算することから得られるユーザー ディメンションに関するデータです。

2. 画像タグの需要源

各事業部門が独自のポートレートラベルプラットフォームを構築する場合、目的が異なるためニーズも異なります。たとえば、航空券事業では通常マーケティングが目的であり、ホテル事業では通常サービスが目的です。実際のビジネスニーズから始めて、会社の経営陣、インターンシップ生、その他のレベルの従業員を含むさまざまな部門とコミュニケーションを取り、徹底的なニーズ調査を実施して、統合ラベル システムがビジネスニーズをよりよく満たせるようにする必要があります。統合プロセス中、ユーザー ポートレートのラベル付け要件は、主にマーケティング リスク管理、内部ビジネス分析アプリケーション、およびユーザー説明の 3 つのカテゴリに分類されます。

  • マーケティング リスク管理: ユーザー マーケティング、パーソナライズされた推奨事項、ターゲット広告、ユーザー リスク管理。
  • ビジネス分析: ビジネス最適化分析、多次元ビジネス指標の監視、新規ビジネス製品設計のガイダンス。
  • ユーザーについて説明します: 単一ユーザーの定義、プラットフォーム ユーザーの位置付け、業界レポート。

3. 画像タグの分類

肖像ラベルの構築プロセスは、ビジネス分類と技術分類に分かれています。

業務で必要なユーザー ポートレート分類は要件から抽出され、その中で第 1 レベルおよび第 2 レベルのカテゴリは業務プロセスに基づいて定義され、継続的に拡張されます。

さらに、さまざまな技術要件に応じて、ポートレートタグの生成、保存、呼び出しを実現するために適切なテクノロジースタックを選択する必要があります。

まず、どの技術を使用する必要があるかを判断するために、肖像ラベリングの定義と目的を明確にする必要があります。次に、タグの更新サイクルとアクセス方法を考慮する必要があります。これにより、タグをオンラインで処理する必要があるか、オフラインで処理する必要があるか、どのストレージ リソースを選択するかが決まります。最後に、これらの要素に基づいて、ポートレート ラベリング システムを実装するための適切なテクノロジー スタックを選択し、システムのパフォーマンスと安定性を確保できます。このような技術的な分類により、肖像ラベル システムの管理と保守が改善され、拡張性と使いやすさが向上します。

(1)工法

  • 統計: これは SQL を使用して実行できます。
  • ルールベース: データ アナリスト、ビジネス アナリスト、製品運用担当者など、特定のビジネス バックグラウンドを持つ人が、ビジネスに対する理解に基づいてルールベースのラベルを作成します。これらのラベルは、ビジネスに対する理解の変化に応じて変化します。
  • モデル タイプ: このタイプのラベルでは、アルゴリズム チームが複雑な計算を実行するか、サンプル データが必要になります。一部の基本ラベルとは異なり、モデル クラス ラベルは精度の点で難しい場合があり、100% 正確であるとは限りません。取得できるサンプル数が非常に限られている場合があるため、ラベルの精度を高いレベルで維持することが困難です。したがって、モデル クラス ラベルについては、その精度と使いやすさを向上させるために、他の方法やテクニックを探す必要があるかもしれません。

(2)更新サイクル

すでに記載した時間ごと、週ごと、月ごとの更新サイクルに加えて、現在、ストリーミング更新に近いリアルタイムのラベル更新も実装しています。

(3)アクセス方法

ポートレートラベリングプラットフォームは大量のデータとユーザーリクエストを処理する必要があるため、バックグラウンドテクノロジースタックに基づいて適切なアクセス方法を選択する必要があります。一部の大企業では、ユーザー数とデータ数が非常に多いため、ラベルを効果的に保存および呼び出す方法を検討する必要があります。一部のタグはオフラインでのみ構築する必要がある場合がありますが、他のタグはオンラインで呼び出す必要がある場合があります。オフライン タグの場合、Redis や HBase にデータを保存するなど、ストレージ コストが高くならないリソースを選択できます。オンラインタグでは、システムがユーザーの要求に迅速に対応し、安定したサービスを提供できることを保証する必要があります。したがって、アクセス方法を選択する際には、システムのパフォーマンスと安定性を確保するために、実際の状況に基づいて検討して選択する必要があります。

4. 肖像ラベルシステムの構築プロセス

ポートレートラベリングシステムの製造プロセスでは、さまざまなデータソースに対して一連の処理を実行し、最終的にラベルを生成する必要があります。その中でも、ID マッピングは重要なリンクです。 ID マッピングの目的は、特に初期段階の企業において、異なる ID が同じ人物を指している問題を解決することです。登録方法が多様であるため、同じユーザーに対応する ID が複数存在する場合があります。たとえば、電子メールで登録した後、ユーザーが携帯電話番号をバインドまたは変更したり、ログインせずに携帯電話番号を使用できるようにしたりすることができます。これらの状況では、同じユーザーに対応する複数の ID が存在する可能性があります。

この問題を解決するために、ID マッピングは複数のデバイスの関連付けを実現する役割を果たします。さらに、ID マッピングもリスク管理のための重要な基本ステップです。 ID マッピングにより、さまざまなデバイスのユーザーをより適切に識別して関連付けることができるため、リスク制御とセキュリティ管理をより適切に実行できます。合理的な ID マッピングの設計と管理により、ユーザーのプライバシーとデータのセキュリティをより適切に保護し、ポートレート ラベリング システムの精度と信頼性を向上させることができます。

2. ポートレートタグプラットフォーム

ポートレート ラベル プラットフォーム (CDP プラットフォームとも呼ばれます) には、ポートレート ラベルの作成、データ分析、ビジネス アプリケーション、効果分析などのサービスが含まれます。下の図は、Qunar CDP プラットフォームの機能アーキテクチャを示しています。

Qunar.comでは、感染拡大後に社内の能力を強化し、ポートレートタグを主流の戦略プラットフォームに統合しました。現在、このプラットフォームはポートレートタグのライフサイクル全体をカバーしており、ポートレートの構築、群衆の選択、最終的なマーケティングアクションなどの機能を実現できます。このような統合により、データ主導のマーケティング戦略をより適切に実行でき、ユーザー ポートレートをマーケティング活動とシームレスに結び付けることができます。これにより、マーケティング効果とユーザー満足度が向上し、企業内のデータ統合とコラボレーションにも役立ちます。

3. 共通アルゴリズムプロファイルタグ

1. 共通モデルクラスラベル 共通アルゴリズムタイプ

実際には、サンプルとテクノロジー スタックに基づいて、モデル クラス ラベルによく使用されるアルゴリズムは次のカテゴリに分類できます。

(1)分類アルゴリズム:ビジネスプロセスでは、予測クラスラベルが選択とビジネスフィルタリングに使用されます。予測精度を向上させるには、モデルをトレーニングして最適化するための十分なサンプルデータが必要です。予測タグは注文の支払い予測に限定されず、検索の支払い予測、検索予測、詳細ページ予測などを含めることもできます。

(2)推奨アルゴリズム:ソートや優先順位付けに関連し、より広範囲の最先端の知識と技術スタックを必要とする。推奨アルゴリズムの目的は、リコール セットからユーザーに適したホテルの部屋タイプを推奨することです。たとえば、家族旅行の場合、推奨アルゴリズムはツインルームやスイートルームなどの適切なホテルの部屋タイプをユーザーに推奨できます。

(3)ナレッジグラフ:グラフデータベース技術を活用して、ユーザーとその周囲の関係性をよりよく明らかにする。異常なユーザーを識別し、悪意のあるユーザーかどうかを判断するなどのリスク管理シナリオで広く使用されています。

(4)因果推論:本稿では、SMSやプッシュメッセージをユーザーに送信することがマーケティング効果に与える影響について例を挙げて説明し、コストの問題についても触れる。

(5)グラフィックスと画像:グラフィックスと画像処理技術を組み合わせて、グラフィックスと画像を表示します。これには、画像のセグメンテーションや認識などのテクノロジが含まれますが、ユーザー タグによる画像のラベル付けに逆に適用される場合が多くあります。たとえば、不適切なコメントを投稿したユーザーについては、そのラベルが抽出され、グラフィック画像ラベリング アルゴリズムに適用され、ラベリングの効率と精度が向上します。

(6)NLPロボット

(7)類似マーケティングアルゴリズム:シードユーザーを利用して拡張マーケティングを行うアルゴリズム。

需要の種類に応じてさまざまな分類方法があります。

  • 単一エンティティ: 関係ネットワークまたはナレッジ グラフを通じて他の関連エンティティを検索します。たとえば、ナレッジ グラフを使用してエンティティ間の関係を検出し、単一のエンティティの関連エンティティを拡張することができます。
  • ビジネス エンティティ セット: 特定のビジネスに関連するタグ。手動で制御されるのではなく、ビジネス自体によって生成されます。たとえば、ホテル検索ユーザーやフライト検索ユーザーを対象にビジネスをマーケティングして拡大したい場合は、ビジネス エンティティ タグの詳細な分析とマイニングを実施して、ユーザーのニーズと行動をより深く理解し、ビジネス戦略を最適化して、コンバージョン率とユーザー エクスペリエンスを向上させる必要があります。ビジネス エンティティ セットは、ブランド パターン、関連ルール、ソリューション ラベリング プラットフォームなどを通じて拡張でき、より豊富なポートレート ラベルやポートレート ユーザーを取得できます。
  • ルール エンティティ セット: 特定のルールまたは条件に基づいて生成されたラベルを指します。これらのラベルは通常、ビジネスに対する理解に基づいて製品チームによって作成され、ラベル付けツールを使用して特定のルールを満たすユーザー グループが選択されます。たとえば、旅程や部屋タイプを推奨する過程で、一部のユーザーは北京の航空券やホテルをすでに購入している可能性があります。この場合、特定の行動チェーンを持つこれらのユーザーをマーケティングプロモーションのターゲットグループとしてターゲットにすることができます。リレーショナル エンティティとクラスタリング アルゴリズムを使用して処理できます。クラスタリング アルゴリズムを実行する場合、クラスタリングにルール ラベルのみを使用することはできず、他のラベルも使用する必要があることに注意することが重要です。同時に、ルール ラベルと強く関連するラベルをルール ラベルとグループ化することは避ける必要があります。この状況を回避するために、ソリューション タグ プラットフォームは、タグと他のタグ間の相関分析を提供し、ユーザーが類似のタグを除外できるようにします。
  • 行動エンティティ セット: ユーザーの行動に基づいて生成されたラベル。これらのタグは、ユーザーの行動特性と需要の種類を分析して、対応するマーケティング戦略を開発します。たとえば、北京で航空券とホテルを購入したユーザーの場合、購入時期、頻度、好みなどの行動特性をさらに分析して、よりターゲットを絞ったマーケティング戦略を立てることができます。

2. 知識グラフと頻出パターンに基づくLooklikeアルゴリズム

スクリーニングにポートレートタグのみに頼ると、要件を満たさない対象ユーザーが大量に生成される可能性があり、これらのユーザーをどのように分類するかが難しい問題になります。値やアクティビティなどで並べ替えるなどの従来の方法では、選択したユーザーがターゲット ユーザー グループに最も類似していることを確認することが困難です。ナレッジグラフや頻繁なパターンを通じて、ユーザー間の類似性を測定することができ、この類似性は定量化および拡張可能です。関係レベルを通じて、アルゴリズムはターゲット ユーザーに類似したユーザー グループをより正確に見つけることができます。

3. 因果推論に基づく類似アルゴリズム

従来の関連ルールやポートレートラベルと比較して、因果推論はより深い問題を解決できます。関連付けルールとポートレートタグは主に、「ビールを購入するユーザーはおむつも購入する可能性がある」などの相関関係の問題を解決しますが、なぜこの相関関係が存在するのかを説明することはできません。この相関関係は、文化や市場によって必ずしも当てはまらない可能性があります。したがって、履歴データとモデルを通じて因果推論を実行することで、ユーザーの行動とコンバージョンに影響を与える主な要因を見つけることができます。これらの重要な要素は関係性の検出を通じて見つけることができ、これによりユーザーの行動やビジネス プロセスをより深く理解できるようになります。

例えば、右上の赤い部分は、業務を理解することで業務プロセスをよりよく反映し、より多くのユーザーを拡大できる部分です。

4. 物事のイメージ

オブジェクトのポートレートを構築するプロセスでは、ホテルのポートレートでは、都市、ビジネス地区、ルート、フライトなど、オブジェクトの属性と特徴に主に焦点を当てます。これらのプロパティは、オブジェクトをより正確に説明および理解し、そのポートレートに豊富なコンテンツを提供するのに役立ちます。

ユーザー ポートレートと比較して、オブジェクト ポートレートはオブジェクト間の類似性を強調します。実際には、オブジェクトの類似性は、推奨やソートなどの操作によく使用されます。オブジェクト間の類似性を測定するために、属性ベクトルや埋め込みなどのさまざまな方法を使用できます。これらのメソッドは、オブジェクトをベクトルとして表現し、これらのベクトルを使用して類似度の計算を実行できます。オブジェクト ポートレートを構築するプロセスはユーザー ポートレートを構築するプロセスと似ていますが、実際のアプリケーションでは、ビジネス ニーズとシナリオに基づいて適切な調整と最適化を行う必要があることに注意してください。同時に、オブジェクトのイメージがビジネスニーズを正確に反映していることを確認するために、オブジェクト間の関係性と階層を深く分析することも必要です。

さらに、オブジェクトの肖像画を構築する過程では、いくつかの重要な問題にも注意を払う必要があります。

(1)近いということは似ているということではない。たとえば、埋め込み方法を使用する場合、価値の高いユーザー グループが 5 つ星ホテルを検索すると、これらの 5 つ星ホテル間の相関関係は強くなる可能性があります。ただし、一部のビジネス シナリオでは、この相関関係は当てはまらない場合があります。したがって、特定のビジネス シナリオに基づいてオブジェクトの類似性を慎重に検討する必要があります。

(2)コールドスタートの問題たとえば、ホテルのポートレートでは、新しいホテルがオンラインになったときに、ユーザーの行動データが不足している可能性があります。この問題を解決するには、属性距離を使用して高次元のラベル属性を抽出し、ユーザー指向のポートレートラベルを構築し、このラベルを使用して類似度を計算します。

(3)解釈可能性

IV. ポートレートタグの応用シナリオ

応用1: マーケティング集団の選択と拡散

ポートレートタグは、マーケティングの選択と普及のプロセスにおいて重要な役割を果たします。ポートレートタグを適切に使用することで、オペレーターは選択したユーザーグループをより詳細に分析およびスクリーニングできます。オペレーターは、最初に選択したユーザーグループが大きすぎる、または小さすぎると感じた場合、またはマーケティング効果をさらに拡大または最適化する必要があると感じた場合、ポートレートタグを使用して拡大または再選択し、より良いマーケティング結果を達成できます。

しかし、ポートレートタグを選択して普及させる際に最もよく問題となるのが、ユーザー変換と運用介入の 4 つの象限です。これら 4 つの象限は、異なるユーザーの変換状況と運用介入戦略を表しており、状況に応じて異なる対策が必要になります。例えば、コンバージョン率が高く介入率が低いユーザーに対しては現状維持の戦略を採用し、コンバージョン率が低く介入率が低いユーザーに対してはコンバージョンを促進する戦略を採用する、などです。

ポートレートタグの適用プロセスにおけるマーケティングキュレーション拡散の 4 つの段階は次のとおりです。

科学的分析:ユーザー データを詳細に調査し、ターゲット グループを正確に特定して、コンバージョン結果を改善します。

支援選択:タグを使用してターゲット ユーザーを効率的に選別し、マーケティング活動のターゲティングと効率を向上させます。

インテリジェントな拡張:アルゴリズムとモデルに基づいて、ユーザー グループがインテリジェントに分類および拡張され、マーケティングの範囲が拡大されます。

モデルの実装:実際のマーケティング活動と組み合わせて、ポートレート ラベルと戦略を最適化し、最高のマーケティング結果を実現します。

応用2: ビジネス指標の帰属分析

ポートレート ラベル システムを使用してビジネス指標を分析し、戦略をさらに最適化します。ビジネス反復プロセスでは、通常、アトリビューション分析アルゴリズムやビジネス分析などの方法を使用して戦略を生成します。その後、実験測定を実施し、実験戦略がうまく機能すれば、本格的に打ち上げます。

しかし、このプロセスでは、指標の品質と実験結果の品質をどのように分析するかという 2 つの問題が発生します。これらの問題を解決するには、ビジネス指標の帰属分析を行う必要があります。まず、レポートやアラームなどを通じてビジネス上の問題を発見し、問題の原因を突き止め、具体的なシナリオと実際のコンバージョン関係を明らかにします。次に、問題の原因を特定し、その原因が制御可能か制御不可能かを判断します。制御できない場合は、自然なジッターである可能性があり、あまり注意を払う必要はありません。制御可能な場合は、この問題を引き起こす未知のシナリオがあるかどうかをさらに調査する必要があります。

定性分析モジュールでは、制御可能な要因と制御不可能な要因を特定し、いくつかの未知のシナリオにおける問題の原因を調査します。最後に、さまざまなシナリオで何をすべきかについて、ビジネス担当者に提案し、指導します。このシナリオは、実際には特定のビジネスのコンバージョン率が低下したことを意味します。ビジネス全体の分析プロセスを通じて、非市場要因と制御可能な要因の割合をそれぞれ判断できます。市場要因が大きな割合を占める場合、大量の人的資源や物的資源を直ちに動員しなくても、後でこの問題を解決できます。

アプリケーション3: AB実験パフォーマンス分析

Qunar の AB 実験システムを担当する過程で、私たちはしばしばいくつかの課題に直面します。製品チームが実験を完了するために多くの時間とリソースを投資した場合、実験結果が有意でなければ、「なぜ実験は効果がないのか」や「次の反復の方向性は何か」などの疑問が生じやすくなります。

これらの問題に対処するために、主に 3 つの部分に分かれた AB 実験のパフォーマンス分析を実施しました。まず、ビジネス プロセス ファネル モデル、コア ユーザー ポートレート ラベル識別、ビジネス ドメインの誤解を招くラベル識別を使用して、実験結果が悪かったのはボリュームの増加が不十分だったためかどうかを判断します。次に、決定木などの分析手法を使用して、他の実験との競合や改善が大きな割合に達しない状況など、質的改善に問題があるかどうかを調査します。最後に、アクションの有効性を定量化し、各アクションが目標に与える影響を明確にします。

これらの分析プロセスを通じて、製品チームに具体的なガイダンスを提供し、最適化のためのより効率的な方向性の選択を支援し、質的な改善を実現します。これらの分析は、製品の反復の方向性を最適化するだけでなく、企業のリソースと時間を節約し、全体的なビジネス成果を向上させるのに役立ちます。

5. 質疑応答

Q1: ユーザー行動とビジネスログの違いは何ですか?

A1: ユーザー行動データは主に、クリックなど、アプリ上でのユーザーのインタラクティブな行動を記録します。これらのデータは主に、ユーザーのインタラクションプロセスを反映しています。ビジネスデータには、エージェントの接続プロセス、物流情報など、バックグラウンドで処理されるさまざまな情報が含まれます。これらのデータはユーザーには見えませんが、ビジネスプロセス全体を理解し、ユーザーエクスペリエンスを向上させるためにも重要です。実際の運用では、ユーザーの行動やビジネスプロセスをより適切に分析し理解するために、このデータをポートレートラベリングシステムに組み込む必要があります。たとえば、電子商取引プラットフォームの場合、一部のデータはユーザーにとって無関係である可能性がありますが、一部のデータはユーザーエクスペリエンスやビジネスプロセスに関係するため、適切に選別して処理する必要があります。

Q2: ストリーミング ラベリングは現在どのように行われていますか?より複雑なラベル付けルールをサポートできますか?データによって開発されるのか、それとも視覚的に構成されるのか?

A2: ストリーミング タグは、Flink などのツールを使用するストリーミング コンピューティングを通じて実装できます。ユーザーは定義したデータをドラッグ アンド ドロップし、ストリーミング コンピューティングを通じてラベル計算を実行できます。同時に、カスタマイズされた計算用の Python コードまたは SQL コードをアップロードすることもできます。さらに、Spark やその他の方法でもサポートできます。ストリーミング タグでは、さまざまな要件を満たすために計算量と時間ウィンドウを制限する必要があります。

ストリーミング タグは複雑なタグ ルールをサポートできます。ユーザーは、Python コードまたは SQL コードをアップロードすることで、より複雑なラベル計算を実装できます。

ストリーミング タグは、データ開発と視覚化構成の 2 つの方法で実装できます。 Qunar 旅行プラットフォームでは、ユーザーは定義したデータをドラッグ アンド ドロップしたり、ストリーミング コンピューティングを通じてラベルを計算したり、Python コードや SQL コードをアップロードして計算をカスタマイズしたりできます。

Q3: ライブタグとは何ですか?

A3: リアルタイム タグは、ユーザーの行動やビジネス イベントが発生したときにリアルタイムで計算され、適用されるタグです。たとえば、ユーザーがフロントエンド インターフェイスで苦情を送信すると、システムはユーザーの要求と注文の問題をリアルタイムで分析し、対応するリアルタイム タグをユーザーにタグ付けします。このリアルタイムのラベル付けにより、ユーザーのニーズと問題がすぐに反映され、タイムリーに処理および最適化できるようになります。リアルタイム タグの定義は企業によって異なります。Qunar では 3 秒以内のデータをリアルタイムと見なし、1 時間単位のデータは非リアルタイムと見なします。

Q4: ID マッピングは複数の携帯電話番号/デバイス番号を一意の ID に識別しますか? それとも各ユーザーに一意の ID を付与しますか?たとえば、携帯電話番号が 2 つのデバイスでログインされていて、そのうちの 1 つのデバイスが別の携帯電話番号でログインしている場合、ログインしているのは 1 つだけでしょうか、それとも 3 つでしょうか。

A4: モバイルインターネットの普及に伴い、携帯電話番号をユーザーの固有識別子として使用する企業が増えています。ワンクリック ログインは業界では一般的な慣行となり、ユーザーはより便利にログインしてアプリケーションを使用できるようになりました。 Qunar のようなプラットフォームでは、ユーザーの固有 ID として携帯電話番号も使用します。ほとんどの場合、携帯電話番号はユーザーの一意の識別子として扱われます。ただし、特別なケースでは、ユーザーが携帯電話番号を変更するシナリオも考慮し、それに応じて処理します。また、ユーザーをより適切に管理・識別するため、携帯電話番号が2つのデバイスでログインされている場合、一連の判断を通じてユーザーのデバイス所有状況を判定します。ユーザーがデバイスに一時的にログインしている場合は訪問者とみなし、ユーザーがデバイスを長時間保持している場合は所有者とみなします。

Q5: 製品ラベルの適用シナリオは何ですか?

A5: 最も一般的なのは製品の価格設定です。製品の価格をカスタマイズするには、製品ラベルを使用する必要があります。これらのラベルは、内部要因と外部要因の特定の値に基づいて計算されます。内部要因が適切に整理されていない場合、外部要因の影響が誇張される可能性がありますこれは、力ずくの解決法として理解できます。各要素を試してみて、各要素がどの程度影響を与えるかを確認し、各要素に相関関係があるか因果関係があるかを判断します。

Q6: ビジネス用のリアルタイムタグはカスタマイズする必要がありますか?

A6: リアルタイム タグが構築された後、開発レベルを使用して、基本統計を通じて取得できるいくつかのリアルタイム タグを網羅的にリストしました。ルールやモデルタイプなどのリアルタイムタグについては、カスタマイズして開発する必要があります。

Q7: タグのライフサイクルを管理するにはどうすればよいですか?

A7: 設立当初は使い捨てのラベルがいくつかあり、使用後は使用されません。

Q8: AB 実験の最小サンプル サイズを決定するために、何らかの統計的手法を使用できますか? AB 実験には標準的な計算プロセスがあります。この方法で、統計的に有意な効果を達成するために必要なサンプル数を大まかに知ることができますか?

A8: 中小企業の場合、トラフィックがそもそも十分でない可能性があります。最小サンプルサイズを達成するのは難しいかもしれませんが、運用レベルでは実現不可能です。したがって、最小サンプルサイズに達していない場合に、実験効果を迅速かつ大まかに推測する方法が必要です。

Q9: ユーザー口径ポートレートの口径タイプはどのように保存され、表示されますか?ユーザー ポートレートには、単一のラベルに加えて複数のラベルがあり、ユーザーの好みの視点を形成します。これら 2 種類のタグをより適切に保存するにはどうすればよいでしょうか?

A9: 企業ごとに違いがあることを示します。ストレージの観点から見ると、Qunar には複数のストレージ方法があります。主に高速なリアルタイム応答を目的として、一部のデータの冗長ストレージを許容できます。つまり、タグにアクセスするときは、可能な限り短い時間でアクセスしようとします。

Q10: プログラムラベル構築におけるモデルの応用は何ですか?

A10: 実際、Qunar での私の経験から、アルゴリズムのラベリングでは大きなモデルが広く使用されていると言えます。まず、最も単純な例を見てみましょう。ユーザー ポートレートを作成するときに、POI ランドマーク データに遭遇することがよくあります。ランドマーク データは、いくつかのドキュメントから抽出されます。おそらく、これが大きなモデルで使用されているものです。正直に言うと、このデータの精度は、過去に作成したモデルよりもはるかに優れています。ナレッジ グラフを構築する際には、エンティティの曖昧さ解消やエンティティのマージなどの作業が発生します。

Q11: ランキング推奨も実装するにはポートレートアルゴリズムエンジニアが必要ですか?

A11: 実はそうではありません。この推奨はエンジニア向けですが、推奨アルゴリズムはポートレートエンジニアの結果を使用します。ポートレートエンジニアは、ポートレートラベルの品質と適用シナリオを明確に説明して、推奨ランキングエンジニアがそれらをより適切に使用できるようにする必要があります。

<<:  AI画像合成技術の新たな波:Stable Diffusion 3とSoraアーキテクチャのブレークスルー

>>:  クロード3の「自己認識」事件が爆発、マスクはじっとしていられず、OpenAIにはバックアッププランがあることが明らかに

ブログ    
ブログ    
ブログ    

推薦する

大好きです!初心者に適した 7 つの高品質 AI プロジェクト

人工知能が本格的に普及しつつあります。AIの知識を学ばなければ、自分が新時代の後継者だと言えるでしょ...

自動運転は飛躍的な進歩を遂げており、マスク氏は年内にL5レベルの自動運転が実現すると発言した。

自動運転技術は、世界中の大手自動車メーカーの主要な研究開発方向となっています。現在、多くの自動車メー...

27回の機械学習インタビューの後、重要な概念を強調しましょう

機械学習面接のためのハンドブック。これだけあれば十分です。 [[348502]]機械学習やデータサイ...

サイバーセキュリティにおける人工知能の応用

1956年、ダートマス大学で開催された会議で、コンピューターの専門家であるジョン・マッカーシーが初め...

自動運転、顔認識…人工知能の時代が到来。私たちはどう対応すべきか?

2016年以降、人工知能がニュースに登場する頻度が高まっています。実は、理工系女子の私にとって、子...

人工知能が人事を変える7つの方法

[[357616]] International Journal of Engineering an...

機械学習における線形代数の理解に役立つ 10 の例

線形代数は、ベクトル、行列、線形変換を扱う数学の分野です。これは機械学習の重要な基盤であり、アルゴリ...

OpenAIがChatGPTに「ドラゴン退治のテクニック」を直接教える!公式のヒントエンジニアリングガイドはこちら

Prompt プロジェクトをどのように説明すればよいでしょうか? ChatGPT を初めて使用する初...

AIを正しい方向に導く

過去 1 年間、私は何百人ものクライアントにインタビューし、AI によって可能性に対する認識がどのよ...

...

GNN の科学: テンセント AI ラボと清華大学が、等変グラフ ニューラル ネットワークをレビューする論文を共同で発表

近年、伝統的な自然科学の問題の解決においてますます多くの人工知能手法が活躍しており、いくつかの重要な...

マシンビジョン: スマート製造のキーエンジン

インダストリアル 4.0 時代はインテリジェント製造と切り離せません。マシンビジョンは、現在の製造品...

人工知能の本質的な「差別」を排除する方法

[[246531]]情報イラスト。出典:新華網ハリウッド映画「アベンジャーズ3」では、悪役サノスが「...