従来のクライアント監視および分析シナリオでは、特定の URL に基づく統計分析方法が使用されます。ただし、アプリケーションが数万の URL にアクセスする場合、結果は不十分であり、アプリケーションがアクセスした URL に潜在的な問題があるかどうかを明確に特定することは不可能です。 MDAP プラットフォームは、クライアントの監視と分析を実行する際に、確率統計と機械学習ソリューションを使用して、いくつかの類似した URL を同じルール モデルに正規化し、ルール モデルに基づいて関連する統計分析を実行します。これにより、URL ベースのクライアントの監視と分析の可用性と精度が向上し、MDAP ユーザーによる独自のアプリケーション品質の監視と分析がさらに向上します。 1. はじめにURL は、クライアントの監視と分析の重要な要素です。従来の URL ベースの統計分析方法では、次のように元の URL 値を直接統計分析に使用します。 `url` を選択し、 count ( 1 ) を`cnt` として計算します。 上記のクエリ ステートメントを使用した統計分析の結果は非常に貧弱であり、主に次の点で顕著です。
例えば、 アプリ_1 訪問した 1,000,000 異なる値を持つ URL とその URL ルール モデル 100未満 。 初版 MDAP (多次元解析プラットフォーム) ユーザーや開発者もこのような問題に悩まされています。 MDAP ユーザーにより良いサービスを提供するために、MDAP ユーザーが独自のアプリケーションの品質を迅速かつ効果的に分析できるように支援します。 MDAPプラットフォームは、 確率と統計 理論と 機械学習 アプリケーションによって報告されたURLに基づいて、テクノロジーは、 自動学習 派生フィールドを使用して対応するURLモデルを出力する この論文の残りの部分は次のように構成されています。セクション 2 では、URL 正規化の問題を解決するための MDAP の考え方を具体的な例とともに説明します。セクション 3 では、MDAP が URL を正規化する方法の全体的なフレームワークを紹介し、セクション 4 では詳細なアルゴリズムの説明を示します。最適化効果のテストと評価については、セクション 5 で説明します。最後に、第 6 章では、まとめと今後の展望を示します。 2. 検討すべき質問このセクションでは、この作業の背景にある詳細な動機と考え方について説明します。構成/アップロード URL モデル ルールの実行不可能性を説明するために 3 つの異なるスキームが分析され、ボトムアップのペアワイズ戦略がどのように機能し、いつ失敗するかを示すために具体的な例が使用され、パターン ツリーが効果的な理由が説明されています。 2.1 ユーザー設定スキームURLモデルルールの設定/アップロードURL を対応する URL モデル ルールに変換するために最初に検討された解決策は、ユーザーがプラットフォームでアプリケーション関連の URL モデル ルールを構成/アップロードできるようにすることですが、この解決策にはいくつかの問題があることがすぐにわかりました。 golang/ジン : golang/grpc-ゲートウェイ : ジャバ/スプリング :
まとめると、ユーザーが設定したURLモデルルールに基づくソリューションは 実現不可能 。したがって、MDAP プラットフォームは、アプリケーションによって報告された URL に基づいて、対応する URL ルール モデルを自動的に学習する必要があります。 2.2 機械学習ソリューション2.2.1 URLプロトコル構文の概要読者が後続のアルゴリズム設計と問題解決に関する MDAP の考え方をよりよく理解できるように、この記事では次の図に示すように、URL の構文構造を簡単に紹介する必要があります。 上の図に基づいて、URL をいくつかの一般的な URL コンポーネントに分解できます。 スキーマ: http 後半のアルゴリズム設計では、本論文では ( 2.2.2 ボトムアップペアリング戦略を考える 上の図に示すように、8 つの異なる URL があります。MDAP は 2.2.1 を使用して各 URL を KV 構造に変換します。例:
上記の手順では、まず U5、U6、U7、U8 に基づいてそれぞれ P1 と P2 を生成し、次に P1 と P2 に基づいて理想的な URL モデル ルール P3 を生成します。しかし、U6が存在しない場合は、P1を生成できず、さらにP3も生成できません。また、上記の例では、U1 - U4 もルール モデルを生成するためのペアリングには適していません。 2.2.3 URLパターンツリーボトムアップ戦略と比較して、パターンツリーはトレーニングセット全体の統計情報を最大限に活用できます。このようにして、学習プロセスの信頼性と堅牢性が向上し、ランダムノイズの影響を受けなくなります。 2.2.2の例では、一部のURLが存在しない場合でも、他のすべてのURL(U1〜U4を含む)を考慮することで解決できます。 第二に、パターンツリーを使用すると、ツリーノードに基づいてルールを直接要約することで、学習効率を大幅に向上させることができます。たとえば、P1 と P2 は不要になり、上記のパターンに従って P3 を直接生成できます。詳細なアルゴリズムの説明はセクション 4 で詳しく説明します。 3. フレームワークの概要この章では、URL モデル ルールの学習とマッチングのための MDAP の方法とアーキテクチャについて説明します。 上の図に示すように:
さまざまなアプリケーションによって MDAP に報告される膨大な量の URL データを考慮して、MDAP プラットフォームは次のように Flink を使用して URL モデル ルールを学習します。
URLパターンマッチャーに関しては、MDAPは 4. アルゴリズムの説明この章では、エントロピーに基づくノード分割と、ガウス分布とマルコフ連鎖に基づく有意値と離散値の区別に焦点を当て、パターンツリーに基づいて URL ルール モデルを生成する方法について説明します。 上の図に示すように、URL ルール モデルを生成するアルゴリズムには、次の 6 つのステップが含まれます。
このアルゴリズムでは、最も重要な 2 つのステップはステップ 2 とステップ 3 です。 4.1 値要素に最も適したURLキーを見つける情報 エントロピ 分割の概念は、分割に最適な URL キーを見つける方法を解決するために使用されます。 URL キーの値がランダムであればあるほど、エントロピーは大きくなります。キー値の変化が少ない部分をできるだけ集約し、変化が多い部分については事後計算やワイルドカード処理を行い、エントロピーを最小化できるURLキーを見つける必要があります。 URL キーに対応するエントロピーを計算する式は次のとおりです。 このうち、V は URL キーに対応する値要素の数、N はすべての要素が出現する合計回数、vi は i 番目の要素の出現頻度です。 上記の式に従って、エントロピーが最小の URL キーを見つけ、4.2 と組み合わせて有意値と離散値を区別し、モデル ツリー ノードを分割します。 4.2 有意値と離散値の区別4.2.1 ガウス分布に基づく有意値と離散値の区別MDAP によって収集された URL 履歴データの分析に基づいて、URL 内の各キーに対応する値のリストはガウス分布に従うと想定されます。 したがって、エントロピーが最も小さいキーの値を頻度の逆順に並べ替え、隣接する 2 つの値間の頻度の減少率を計算します。減少率が最も大きい 2 つのノードを境界として、有意値と離散値を区別します。分割点の左側が有意値、右側が離散値です。例: 上の図では、周波数速度の低下が最も大きい2つのノードは [ 「インデックス」 、 「ユーザー」 、 「書籍」 、 「ビデオ」 ] 離散値には次のものが含まれます。 [ "0" 、 "12323" 、 "a3df56" 、 "bher43" ] 4.2.2 マルコフ連鎖と密度関数に基づく剪定4.2.1 は有意な値と離散値を区別するために使用できますが、その効果は必ずしも効果的ではありません。次に例を示します。 上図では、URL キーに対応する値が青い線のガウス分布に従う場合、4.2.1 は有意値と離散値を区別できます。しかし、URL キーに対応する値がオレンジ色の線のガウス分布に従う場合、またはオレンジ色の線よりも平坦である場合、離散値を有意値と誤認する可能性が非常に高いため、プルーニング操作を実行するための補助アルゴリズムが必要になります。 MDAP プラットフォームによる URL データの分析によると、個別の URL は次の特性を満たしていることがわかります。
上記の特性を満たす文字列(数字を除く)を総称して意味不明な文字列と呼びます。 MDAP では、意味不明な文字や数字の URL キー値を除去するために、意味不明な文字や数字の認識にマルコフ連鎖と密度関数を導入しています。ただし、略語 (Abbreviate) は標準的な人間の言語に属していないため、意味不明な文字と誤判定される可能性が高くなります。そのため、事前判定用の略語テーブルを構成する必要があります。具体的なアルゴリズムの手順は次のとおりです。
マルコフ連鎖に基づくナンセンス検出 マルコフ連鎖は NLP (自然言語処理) で広く使用されています。MDAP プラットフォームは、比較的単純な方法でマルコフ連鎖を使用します。 マルコフ連鎖と大きなテキストをトレーニング セットとして使用して、対応する確率行列を生成します。 次に、マトリックスを正常なテキストと不良なテキストに適用して、文字列が意味不明かどうかを判断するためのしきい値を計算します。 最後に、次の式を使用して、指定された文字列が意味不明であるかどうかを判断します。 密度関数に基づくデジタルコンテンツの識別 次のようなメジャーバージョン番号のような文字列を考えてみましょう。 5. アルゴリズムの最適化テストと効果表示このセクションでは、パターン ツリーによって生成された URL ルール モデルの重複排除効果と URL 一致度を示し、MDAP プラットフォームでの実際の効果を示します。 5.1 アルゴリズム最適化テスト5.1.1 圧縮比テストまず、MDAPは本番環境からデータの一部をトレーニングセットとして収集し、URLルールモデルを生成します。このモデルでは、各ドメイン名に 元のURLは 最後に、元のURLが第4節のアルゴリズムによって処理された後、生成されるURLルールモデルの数は 重複排除されたURLとURLルールモデルの統計的効果図を比較すると、次のことがはっきりとわかります。 パターンツリーによって生成されるURLモデルルールの数は、単純な 5.1.2 マッチングテスト5.1.1 で生成された URL ルール モデルは、2 つの異なるテスト セット間で検証されます。テスト セット 1 (Test-1) はトレーニング セットと同じ日ですが期間が異なるデータであり、テスト セット 2 (Test-2) はテスト セット 1 の 1 週間後のデータです。上の図に示すように、テスト セット 1 のデータ マッチング ルール モデルのヒット率は非常に高く (99.99% 以上)、テスト セット 2 のヒット率は比較的低くなっています (80.89% - 100%)。 5.1.3 テストの結論5.1.1 と 5.1.2 のテスト結果に基づいて、次の結論を導き出すことができます。
5.2 エフェクト表示MDAPプラットフォームは現在、 6. まとめと展望MDAP プラットフォームは、モデル ツリー構築に基づいて URL 正規化を実装し、正規化結果に基づいて URL ベースの統計分析の機能と精度を向上させます。 ただし、主に次の 2 つの側面を含むいくつかの欠陥がまだ残っています。
したがって、後続の MDAP プラットフォームは、URL に基づいて統計分析を実行する際の MDAP のデータ品質を向上させるために、これら 2 つの側面でさらに最適化されます。 著者 MDAP 共同プロジェクト チームのバックエンド エンジニアである Daniel は、Shopee エンジニアリング インフラストラクチャ チームに所属しています。 |
<<: 国際翻訳コンテストで優勝したモデルがByteDanceによってオープンソース化された。
クラスタリング結果の妥当性を評価すること、つまりクラスタリング評価または検証は、クラスタリング アプ...
Facebook は効果的な人工知能について私たちに多くのことを教えてくれます。最近のガートナー社の...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
OpenAI シリーズは終わりに近づいていますが、イースターエッグがあるとは思っていませんでした。ま...
この記事では、Keras Tensorflow 抽象ライブラリに基づく転移学習アルゴリズム モデルを...
海外メディアの報道によると、カリフォルニア大学リバーサイド校のエンジニアらが、ソフトロボットの動きを...
機械学習を始める最も簡単な方法は何ですか?今年ハーバード大学で統計学の学位を取得したばかりのダニー・...
[[230225]]本レポートでは、無人配送業界の変化、その台頭理由、中国と米国の違いについて詳細に...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
セルフメディアの時代において、すべてのパブリックアカウントは、自分の記事をより多くの人に見てもらえる...
中国人民大学の研究者らは、Llamaなどの因果言語モデルが遭遇する「反転の呪い」は、次のトークン予測...
ビジュアルサーボシステムは、視覚情報をフィードバック信号として使用し、ロボットの位置と姿勢を制御およ...