インタープリタパターンを使用して、要素のXPathパスを取得するためのアルゴリズムを実装します。

[[432233]]

文章

1. 通訳モード

言語に対して、その文法表現（言語のルールを定義するために使用される、言語内の文法記述ツール）を与え、その言語で定義された文を解釈するインタープリタを定義します。

定義は抽象的に聞こえるかもしれません。たとえば、一般的な Web サイトで多言語を実装する場合、まず言語の種類を決定し、さまざまな言語のコーパスを事前に設計する必要があります。次に、構成と統一された変数ルールに基づいて、それらをさまざまな言語にマッピングします。

2. 要素のXpathパス

XPath は、XML ドキュメント内の要素と属性を移動するために使用されます。 XPath は XML ノードの検索に使用されますが、HTML と XML は構造が似ているため、HTML ドキュメント内のノードの検索にも使用できます。ここでは HTML、つまり HTML ページ内で要素が配置されているパスのみを考慮します。

では、要素の Xpath パスを素早く取得するにはどうすればよいでしょうか。実はとても簡単です。Google デバッグツールを開いてみましょう。

要素の XPath パスをコピーするには、[XPath のコピー] を選択します。形式は次のようになります。

 //*[@id= "juejin" ]/div[2]/main/div/div[1]/article/div[1]

要素の Xpath パスを取得するアプリケーションシナリオは多数あります。たとえば、よく使用する Python クローラーは、クローラーフレームワークを使用して、Xpath パスを介してページ内の dom ノードを簡単に制御し、目的のデータと要素を取得できます。たとえば、要素の Xpath パスをバックエンドに送信すると、バックエンドは特定の機能の使用状況とインタラクションデータをカウントできます。たとえば、Web サイトを閲覧しているユーザーの熱分布マップ、パスポートレートなどを分析できます。

3.jsは要素のXpathパスの取得を実装します

実装する前に、まず Xpath パスの構造を分析してみましょう。たとえば、ページがある場合、要素 span の構造は次のようになります。

 <!DOCTYPE html>
 <html lang= "ja" >
 <ヘッド>
 <メタ文字セット= "UTF-8" >
 <meta name = "viewport" content = "width=device-width, initial-scale=1.0" >
 <meta http-equiv= "X-UA-compatible" content= "ie=edge" >
 <title>ドキュメント</title>
 </head>
 <本文>
 <div>
 <span>私は徐小曦です</span>
 </div>
 </本文>
 </html>

その場合、Xpath パスは次のようになります。

 HTML/BODY|HEAD/DIV/SPAN

上記からわかるように、右端の要素がターゲット要素であり、左端の最初の要素が最も外側のコンテナーです。このプロセスを完了するには、まず、要素の parentNode を介して現在の要素の親要素を取得し、最上位の位置を見つける必要があります。ただし、前のレイヤーを見つけるたびに、その要素の前の兄弟要素もトラバースする必要があることにも注意する必要があります。この兄弟要素の名前がその後ろの要素の名前と同じ場合は、要素名に 1 を追加します。

最初のステップは、同じレベルの兄弟要素を走査するメソッド getSameLevelName を実装することです。

 // 兄弟要素の名前を取得する
関数getSameLevelName(ノード){
    // 兄弟要素がある場合
    if(node.previousSibling) {
        let name = '' , // 返される兄弟要素名の文字列
count = 1, // 隣接する兄弟要素内の同じ名前を持つ要素の数
           ノード名 = ノード.ノード名、
           兄弟 = node.previousSibling;
        while(兄弟){
            if(sibling.nodeType == 1 && sibling.nodeType === node.nodeType && sibling.nodeName){
                if(nodeName == 兄弟.nodeName){
名前+= ++カウント;
                }それ以外{
                    // 同じ隣接ノード名を持つノードの数を再作成します
カウント= 1;
                    // 新しいノード名を追加
名前+= '|' + 兄弟ノード名.toUpperCase()
                }
            }
            兄弟 = 兄弟.前の兄弟;
        }
戻る 名前 
    }それ以外{
        // 兄弟要素がない場合は''を返します 
戻る  ''  
    }
 }

2 番目のステップは、ドキュメントツリーをトラバースすることです。

 // XPathインタープリタ
インタープリタ = (関数() {
戻る 関数(ノード、ラップ){
 // パス配列
パス = [] とします。
 // コンテナノードがない場合、デフォルトはドキュメントです
wrap = wrap || ドキュメント;
 // 現在のノードがコンテナノードと等しい場合
if(node === wrap) {
ラップノードタイプ == 1 の場合
パスをプッシュします(wrap.nodeName.toUpperCase())
 }
戻り経路
}
 // 現在のノードの親ノードがコンテナノードと等しくない場合
if(node.parentNode !== wrap){
 // 現在のノードの親ノードに対してトラバーサル操作を実行します
パス = arguments.callee(node.parentNode, wrap)
 }
 // 現在のノードの親要素ノードがコンテナノードと同じ場合
それ以外{
 wrap.nodeType == 1 && path.push(wrap.nodeName.toUpperCase())
 }
 // 要素の兄弟要素の名前統計を取得します
兄弟の名前を getSameLevelName(ノード) にします。
ノードのノードタイプが1の場合
path.push(node.nodeName.toUpperCase() + サブリング名)
 }
 // 最終的なパス配列の結果を返す
戻り経路
}
 })()

これら 2 つの方法を使用すると、要素の XPath パスを簡単に取得できます。次に例を示します。

 path = Interpreter(document.querySelector( 'span' ))とします。
 console.log(パス.join ( '/' ))

これは、開始と同じデータ構造を返します。例: HTML/BODY|HEAD/DIV/SPAN

<<: 10の古典的なソートアルゴリズム

>>: 人工知能の時代においても、人間同士の交流は依然として重要である

南洋理工大学華中科技大学などの最新研究：完全自動化された「即脱獄」、大型モデルだけが大型モデルを倒せる！ NDSS

ブログ

ビッグモデルは、テレンス・タオが問題を解決し、数学の定理を証明するのに役立ちます。数学は本当に AI の助けを借りてブレークスルーを達成する最初の分野になるのでしょうか?

ブログ

インタープリタパターンを使用して、要素のXPathパスを取得するためのアルゴリズムを実装します。

[[432233]]

文章

1. 通訳モード

2. 要素のXpathパス

3.jsは要素のXpathパスの取得を実装します

南洋理工大学華中科技大学などの最新研究：完全自動化された「即脱獄」、大型モデルだけが大型モデルを倒せる！ NDSS

Python+AI で古い写真をカラー化

なぜ機械学習エンジニアになりたいのですか?それは情熱や熱のせいでしょうか?

2017 ナレッジグラフストレージシステムランキング: あまり知られていないナレッジグラフストレージシステム

各行列乗算には1光子未満が使用され、手書き数字認識の精度は90％を超え、光ニューラルネットワークの効率は数桁向上します。

この世界的に有名な旅行ウェブサイトは、150の独自の機械学習モデルを分析し、6つの教訓を学びました。

ビッグモデルは、テレンス・タオが問題を解決し、数学の定理を証明するのに役立ちます。数学は本当に AI の助けを借りてブレークスルーを達成する最初の分野になるのでしょうか?

推薦する

Google ナレッジグラフプロダクトマネージャーへのインタビュー: 探検するために生まれた

AI 異常検出は企業にどのようなメリットをもたらすのでしょうか?

LeCun はそれを見て良かったと言っていました! Meta AI は音声、視覚、テキストで同時に SOTA を達成

ランダムフォレスト分類アルゴリズムを使用して Iris データ分類をトレーニングするとどうなるでしょうか?

72歳の男性がコーラを飲みながら脳で麻雀をする：これはすべて脳コンピューターインターフェース技術のおかげです

モバイルアプリ開発における人工知能の実装

2020年、アルゴリズムの話題が主流になる年

データマイニング分野のトップ10の古典的なアルゴリズムの1つであるC4.5アルゴリズム（超詳細なコード付き）

MetaMindによるNLP研究の徹底分析：機械学習をスキップさせる方法

COVID-19パンデミックの影響を受けて、世界のエッジAIソフトウェア市場は急速な発展を遂げている

2019年の中国人工知能産業の競争環境の分析

Googleが独自のAIチップを開発することを選択した6つの理由