蘇寧における知識抽出分野におけるディープラーニングの試みと実践

[[257470]]

【51CTO.comオリジナル記事】背景

近年、膨大なデータの蓄積、計算能力の向上、アルゴリズムモデルの革新により、ディープラーニングは学界と産業界の両方で NLP の分野でますます注目され、応用されるようになり、多くの満足のいく成果を達成しています。知識の抽出とマイニングは、データマイニングやナレッジグラフなどの NLP サブフィールドでは常に重要な課題となっています。知識抽出の範囲には、エンティティ抽出、関係抽出、属性抽出などが含まれます。この記事では、主に Suning ストアの製品タイトルにおけるディープラーニングの応用を紹介し、ビジネスに深く関連する属性語、ブランド語、アイテム語などのエンティティ情報のマイニングに焦点を当てています。

知識抽出タスクは、テキスト構造に応じて次のカテゴリに分類できます。

構造化データの知識抽出: たとえば、D2R を使用して構造化データベースから知識を抽出する場合、ネストされたテーブル、複数の列、外部キーの関連付けなどを含む複雑なテーブルデータを処理するのは困難です。また、グラフマッピングを使用してリンクされたデータから知識を取得する場合は、データの配置が困難です。

半構造化知識の抽出: ラッパーを使用して、半構造化データ (Web サイトなど) から知識を取得します。難しいのは、ラッパーの自動生成、更新、およびメンテナンスです。

テキスト指向の知識抽出：前述の構造化/半構造化手法とは異なり、非構造化テキストの知識形式には基本的に固定ルールがなく、業界には中国語に直接適用できる処理ツールがないため、この記事では、ランダム初期化ベクトルから主流の事前トレーニング方法まで、単語埋め込みの品質に焦点を当てたディープラーニング手法を採用し、抽出結果の精度とカバレッジを効果的に向上させます。

B-LSTM+CRFモデル

B-LSTM+CRFは、2016年にカーネギーメロン大学とポンペウファブラ大学のNLPグループがNER問題を解決するために提案したネットワークアーキテクチャです。実験では、4つの言語（英語、ドイツ語、オランダ語、スペイン語）で優れたパフォーマンスを発揮し、ドイツ語とスペイン語でSOA効果を達成したことが示されています。そのため、この記事では、このネットワーク構造をSuningの検索知識抽出タスクの主要モデルの1つとして使用します。以下は、このモデルについて簡単に紹介します。

モデルフレームワーク

モデルデータの入力には 2 つの方式があります。1 つ目の方式では、単語分割アルゴリズムは使用せず、BIO の注釈付け方法を採用して、「文字」単位で直接シーケンス注釈付けを行います。2 つ目の方式では、ビジネス定義のラベルセットを使用して、単語分割後の単語に注釈を付けます。 Suning の検索プラットフォームによって蓄積されたビジネス用語は、Suning 店舗の製品タイトルに自動的に注釈を付けるために使用されます。操作上のスクリーニングと排除の後、クリーンなデータセットが得られます。

ここでは、最初のアノテーション方法（ATT：属性語、BRA：ブランド語、GOD：商品語）を例に、店舗商品のタイトルを単位として、n語を含むタイトル（語句の並び）を次のように記録します。

ここで、xi は辞書内のタイトルの i 番目の単語の ID を表します。現時点では事前トレーニングは考慮されておらず、各単語のワンホットベクトルを取得できます。次元は辞書のサイズです。

*** レイヤー: ルックアップレイヤー。word2vec またはランダムに初期化された埋め込み行列を使用して、タイトル内の各単語 xi をワンホットベクトルから低次元の密な文字ベクトル (文字埋め込み) xi∈Rd にマッピングします。d は埋め込みの次元です。次のレイヤーを入力する前に、オーバーフィッティングを軽減するためにドロップアウトが設定されます。

2 番目のレイヤー: タイトルの特徴を自動的に抽出する双方向 LSTM レイヤー。タイトル内の各単語の文字埋め込みシーケンス (x1、x2、...、xn) が双方向 LSTM の各タイムステップの入力として使用され、次に順方向 LSTM によって出力された隠し状態シーケンスが使用されます。

逆LSTMの場合

各位置で出力される隠れ状態は位置ごとに接合されます。

完全な隠し状態シーケンスを取得する

隠れ層の出力にドロップアウトを設定した後、外部線形層が追加され、隠れ状態ベクトルを m 次元から k 次元にマッピングします。ここで、k は注釈セット内のラベルの数です。これにより、自動的に抽出されたタイトル機能が得られ、行列 P=(p1,p2,...,pn)∈Rn×k として記録されます。 pi∈Rkの各次元pijは、単語xiをj番目のラベルに分類するためのスコアとみなすことができます。Pに対してSoftmaxを実行すると、各位置で独立してkカテゴリ分類を実行することと同等になります。ただし、このように各場所にラベルを付ける場合、すでにラベル付けされている情報を使用することはできないため、CRF レイヤーを接続してラベル付けを行うことになります。

3 番目のレイヤー: タイトルレベルのシーケンスラベル付け用の CRF レイヤー。 CRF レイヤーのパラメーターは (k+2)×(k+2) 行列 A です。ここで、Aij は i 番目のラベルから j 番目のラベルへの転送スコアを表すため、位置をラベル付けするときに、以前にラベル付けされたラベルを使用できます。タイトルの長さと同じ長さのラベルシーケンスy=(y1,y2,...,yn)を記録すると、モデルはシーケンスyのスコアリング関数としてタイトルx全体にラベルを付けます:(式1)

シーケンス全体のスコアは各位置のスコアの合計に等しく、各位置のスコアは 2 つの部分によって取得され、1 つの部分は LSTM の pi 出力によって決定され、他の部分は CRF の転送行列 A によって決定されることがわかります。次に、ソフトマックスを使用して正規化された確率を取得します。（式2）

モデルをトレーニングする際、対数尤度関数が最大化されます。次の式は、トレーニングサンプル（x、y）の対数尤度を示します。（式3）

このモデルは、動的プログラミングViterbiアルゴリズムを使用して、予測プロセス中に***パスを解き、各単語の予測ラベルを取得します。(式4)

CRF レイヤーのバインディングルール

B-LSTM の出力は各ユニットのラベルスコアなので、最も高いスコアを持つものをユニットのラベルとして選択できます。たとえば、ユニット w0 の場合、「I-BRA」の最高スコアは 1.5 なので、w0 の予測ラベルとして「I-BRA」を選択できます。同様に、他のトークンのラベル w1: "B-BRA"、w2: "O"、w3: "B-GOD"、w4: "O" を取得できます。

B-LSTM を使用するとタイトル内の各トークンのラベルを簡単に取得できますが、ラベルが毎回正しく予測されることは保証されません。たとえば、上記の例では、ラベルのシーケンスは「I-BRA B-BRA」ですが、これは明らかに間違っています。

CRF レイヤーはニューラルネットワークの出力レイヤーに接続され (ラベル転送確率の使用に重点が置かれます)、文レベルのラベル予測を行うため、ラベル付けプロセスは各トークンの独立した分類ではなくなります。 B-LSTMは各単語の各ラベルの確率を計算し、CRF層はシーケンスの遷移確率を導入し、最後に損失を計算してネットワークにフィードバックします。したがって、CRFの作用により、上図のシーケンスは遷移確率に基づいて合理的な調整を行うことができます。

CRF レイヤーは、予測されたラベルがルールに準拠していることを保証するために、予測されたラベルにいくつかの制約を追加できます。これらの制約は、トレーニングデータのトレーニングプロセス中に CRF レイヤーを通じて自動的に学習できます。

例えば：

1. タイトルの最初の単語は、常に「I-」ではなく「B-」または「O」のタグで始まります。

2. ラベル「B-label1 I-label2 I-label3 I-…」、label1、label2、label3 は同じタイプのエンティティに属している必要があります。たとえば、「B-BRA I-BRA」は正当なシーケンスですが、「B-BRA I-GOD」は不正なタグシーケンスです。

3. ラベルシーケンス「O I-label」は不正です。エンティティタグの最初のラベルは「I-」ではなく「B-」にする必要があります。つまり、有効なラベルシーケンスは「O B-label」です。

上記の自動的に学習された制約ルールにより、ラベルシーケンス予測で不正なシーケンスが出現する確率が大幅に減少します。

実験結果

論文[1]はコーパスCoNLL-2003に基づいており、4つの言語（英語、ドイツ語、オランダ語、スペイン語）で良好なパフォーマンスを示し、ドイツ語とスペイン語でSOA効果を達成しています。

蘇寧ストアの商品タイトル注釈コーパスに対して、ランダム初期ベクトルと word2vec 事前トレーニングの比較実験を行いました。実験 1 の方法は比較的大まかで、「単語」を単位として、非数字とアルファベットの文字をワンホットエンコードし、ルックアップ層を通じて文字の低次元高密度エンコードを取得しました。すべての数字と文字のエンコードは別々に固められました。実験 2 では、非数字とアルファベットの文字に word2vec 事前トレーニングエンコード方式を使用しました。商品タイトルにおける数字と英語の文字のエンコードの重要性を考慮して、実験 3 では実験 2 を少し変更し、文字と数字の単語ベクトルを同時にトレーニングしました。実験 4 では、実験 3 の文字ベースのエンコード方式を放棄し、単語分割後のトークンをモデルの入力として再注釈しました。次の表に実験結果を示します (N は文字と数字が別々にエンコードされていないことを意味し、Y はその逆です)。

上記の実験から、各文字と数字を漢字と同じ意味を持つ文字として扱うことが、F1値の向上に大きな効果があることがわかります。小売店から抽出する必要がある実際のエンティティ情報構造から、文字と数字が属性語とブランド語の重要な構成要素であることもわかります。たとえば、洗濯用洗剤 1000g の場合、「1000g」が抽出する必要がある属性語です。HUAWEI p20 携帯電話ケースの場合、「HUAWEI」が抽出する必要があるブランド語です。 Word2vec が単語分割後のトークンを事前トレーニングした後、モデルの精度がさらに向上しました。これは、単語には文字よりも豊富な意味が含まれていることを示し、モデルパラメータを正しく適合させるのに役立ちます。

エルモ

上記の B-LSTM+CRF 入力の単語埋め込みは、ランダム化または word2vec トレーニングによって取得されます。この方法で取得された埋め込み品質は高くなく、含まれる暗黙の特徴は非常に限られており、単語の多義性を解決できません。たとえば、「apple」の前に eat や bite などの食用動詞がある場合、apple は果物の一種を表し、抽出する必要があるオブジェクト語です。「なんらかの Apple 携帯電話」の場合、またはタイトルに 256g や gold などの属性語が含まれている場合、apple は抽出する必要があるブランド語です。 word2vec モデルの学習目標は単語の出現確率を予測することであるため、膨大なコーパスから学習されるのは単語の一般的な意味情報であり、カスタマイズされたビジネスのマッチングシナリオに直接適用することはできません。

ELMO は 2018 年に AllenNLP によって作成され、その年の NAACL の最優秀論文に選ばれました。その主な貢献は、トレーニングされた単語埋め込みに豊富な構文的および意味的特徴が組み込まれていることです。著者らはこれを下流のタスクに追加し、6 つの困難な NLP タスクで SOA 効果を達成しました。公式サイトに掲載されている結果から判断すると、基本的には元の SOA に基づいて 2 ～ 4 パーセントポイント増加しています。

モデルの枠組みと原則

次に、この魔法のモデルを、モデルとソースコードを組み合わせるという観点から分析します。

従来のNLP言語モデルは一方向確率モデルであるため、次の単語を予測するためには前の単語のみが使用されます。たとえば、k番目の単語を予測する場合、式は次のようになります。（式5）

したがって、このモデルの欠点は明らかです。予測された単語の右側の情報を使用できないため、特に文脈を考慮する必要がある穴埋め、読解、機械翻訳などの分野では特に適していません。タイトル内のブランド、属性、項目語などの情報を抽出するという本記事の目的のためには、文脈情報も考慮する必要があります。右側の情報のみを考慮した言語モデルの式は次のとおりです。（式6）

ELMOの革新性は、2層のB-LSTMモデルを採用し、両側の情報を同時に考慮し、上記の式5と式6を目的関数として組み合わせることです。（式7）

上記の尤度関数を最大化することで、モデルのパラメータが得られます。このうち、はモデルの初期化入力のトークン表現を表し、はそれぞれ順方向および逆方向の隠し層のトークン表現を表します。

隠れ層表現の重みを調整するために使用される、順方向および逆方向のソフトマックスパラメータを表します。

このネットワークにトレーニングデータを入力すると、一定回数の反復トレーニングの後、各隠れ層の埋め込みと初期トークンを取得できます。ここで、kはk番目のトークンを表し、jはネットワーク内の層の数を表します。（式8）

上記は、トークンの 3 層埋め込みの包括的な表現です。最終的な埋め込みを得るには、最終的な埋め込みにおける各隠れ層 (初期入力を含む、0 番目の層と見なされます) の割合を調整する必要があります。この論文では次の式が示されている: (式9)

このうち、sj はタスク関連の重みであり、ソフトマックス関数を正規化することによって得られます。

ソースコードからわかるように、ELMO は下流のタスクと組み合わせて使用せずに単語ベクトルを生成するためだけに使用された場合、ここでのタスクは上記の式 7 の言語モデルタスクを指し、sj は単にこの「改善された」言語モデルタスクによってトレーニングされます。下流のタスクと組み合わせて使用する場合は、2 つが一緒にトレーニングされます。

論文によれば、第 1 の隠れ層の埋め込みではより多くの文法的特徴を取得でき、第 2 の隠れ層の埋め込みではより多くの意味的特徴を取得できるとのことです。そのため、下流のタスクが構文解析に偏ったタスクである場合、より大きな s1 が学習されます。逆に、下流のタスクが意味解析に偏ったタスクである場合、s2 は相対的に大きくなります。

使い方

事前学習済みモデルを使用するかどうかという観点から見ると、ELMO には 2 つの使用方法があります。1 つ目は、事前学習済みモデルパラメータとハイパーパラメータを提供する公式の事前学習済みモデルを直接使用することです (公式の事前学習済みモデルは英語に基づいており、10 億のトークンワードニュースコーパスを備え、3 台の GTX 1080 で 2 週間にわたって 10 回の反復学習が行われました)。私たちの課題は中国語の対話コーパスの NER 問題なので、そこから提供される優れたモデルを直接使用することはできません。しかし、事前トレーニング済みモデルを使用するための公式の方法を見てみるのも良いでしょう。

1 つ目は、文字入力を使用してコーパスを動的にトレーニングすることです。この方法はより一般的ですが、コストが高くなります。その利点は、登録されていない単語の影響をある程度軽減できることです。 2 番目の方法は、文脈に関係がなく曖昧さが少ない単語を事前にトレーニングしてキャッシュし、必要なときに繰り返しトレーニングする必要がないようにすることです。この方法は 1 よりも安価ですが、これらの単語を事前に指定する必要があります。 3 番目の方法は、クロールされたニュースデータ、収集された会話データなどのすべてのコーパスを ELMO にフィードし、トレーニング済みの最初の単語ベクトルと中間の隠し単語ベクトルをすべて保存し、下流のタスクで必要なときに直接ロードすることです。この方法は最初はコストがかかると思いますが、埋め込みを再利用できるため、将来のタスクの時間を大幅に節約できます。下流のタスクでこれらの埋め込みを使用する場合は、事前トレーニングの場合と同様に、動的な重み付けを行うだけです。

上記では、事前トレーニング済みモデルを使用する方法を紹介しました。最終的には、元のモデルに基づいてモデルパラメータを微調整し、それによって間接的に出力埋め込みを微調整して、出力埋め込みを現在のコンテキストのセマンティクスとより一致させることになります。

事前トレーニング済みモデルを使用するかどうかの観点から見た 2 番目の方法: 当然、事前トレーニング済みモデルを直接使用することはなく、すべてのパラメーターを最初からトレーニングする必要があります。これは非常にコストがかかりますが、ELMO を使用して中国語の埋め込みを取得する場合は、この作業を行う必要があります。手順は次のとおりです。

処理の詳細については、ハルビン工業大学のブログ記事（中国語用ELMo単語ベクトルの使用方法）を参照してください。

実験結果

ここまで述べてきたように、EMLOは多義性の問題を解決するのでしょうか？著者の実験（論文[2]）の次の図をご覧ください。

Glove が埋め込みに基づいて見つけた他の最も近い単語のほとんどは、スポーツの分野に集中しています。これは明らかに、トレーニングデータ内の「play」を含む文の数がスポーツのそれよりも大幅に多いためです。ただし、ELMO を使用すると、コンテキストに応じて動的に調整される埋め込みによって、「パフォーマンス」と同じ意味を持つ対応する文が見つかるだけでなく、見つかった文の「play」の対応する品詞も同じであることが保証されます。これは予想以上です。

同様に、Suning ストアの製品タイトル知識抽出タスクでは、基礎となる事前トレーニング方法が、上記の実験 4 の word2vec から ELMO に変更されました。同じトレーニングデータに対して、実験を通じて得られた F1 値はわずかに改善されましたが、それほど顕著ではありませんでした。下の図は、Suning ストアの製品タイトル 100,000 件をサンプリングし、各テキストの文字数をカウントしたものです。そのほとんどは 10 文字から 20 文字に集中しています。おそらく、この短いテキストには構文情報と意味情報が限られており、ELMO は word2vec と比較して限られた追加機能しか学習できません。

ELMO には欠点があるのでしょうか? もちろんあります! ELMO の特徴抽出器はベテランの LSTM を使用しているため、その特徴抽出能力は新興の Transformer よりもはるかに弱く、2 層 B-LSTM スプライシング法は双方向融合特徴融合能力が弱いため、このモデルアーキテクチャにはまだいくつかの欠点があります。そのため、以下では、基礎となる単語埋め込みのエンコーダーとして、2018 年に人気があった BERT アーキテクチャを使用することを試みます。

バート

BERTは2018年のGoogleの最高傑作です。11のNLPタスクでSOA効果を達成しており、あらゆるモンスターを一掃したと言ってもいいでしょう。 BERT の主な革新は、MLM (Mask Language Mode) の導入です。これは、文の予測というサブタスクを組み込んでおり、Transformer が双方向エンコーディングを実現できるようにしています。

Transformer は、2017 年に Google が論文「Attention is all you need」で提案した新しいエンコードおよびデコードモデルです。このモデルは革新的な自己注意メカニズムを提案し、従来のRNNが並列計算を実行できないという問題を克服するだけでなく、より多くの意味情報を抽出できるようになりました。現在、産業界と学界で支持されており、RNNやCNNなどの従来のモデルを徐々に置き換える傾向があります。

自己注意メカニズムは、クエリベクトルQ、キーベクトルK、値ベクトルVを使用して、現在のトークンと他の各トークン間の関連性を取得します。各トークンは、この関連性に基づいて他のトークンの表現を適応的に組み込みます。これは次のように表すことができます。（式10）

CNN のマルチコア畳み込み演算と同様に、この論文でもマルチヘッドメカニズムが使用されています。これは、各ヘッドがトークンを他のトークンに関連付け、この関連付けが多かれ少なかれ強かったり弱かったりするためです。マルチヘッドは、各ヘッドの出力をつなぎ合わせて、ジョイントモデルによってトレーニングされた重み行列を掛け合わせることで、モデルのさまざまな位置に焦点を当てる能力を効果的に拡張します。これは、多くの考え方から学ぶことに少し似ています。式は次のとおりです。(式 11)

論文「Attention is all you need」は、主に機械翻訳におけるTransformerの優れたパフォーマンスを検証しています。この論文の単語埋め込みのトレーニングの目標とは異なり、機械翻訳は教師ありタスクです。バイリンガルコーパスが与えられた場合、モデルの入力は翻訳される完全な文であり、文中の各トークンは並列にエンコードに参加します。単語埋め込みのトレーニングは教師なしタスクであり、従来のNLP言語モデルは、各トークンの表現を取得するために言語モデルの最大尤度を最適化するためによく使用されます。一方向のトークン情報のみを考慮します。単語埋め込みトレーニングにトランスフォーマーを使用することになると、2018年にOpenAIが提案した論文「生成的事前トレーニングによる言語理解の向上」（略してGPT）に言及する必要があります。ただし、教師なし事前トレーニング段階では依然として一方向言語モデルが使用されており、トレーニングされた単語埋め込みの精度は大幅に低下しています。

最近、openAIはGPTの拡張であるGPT-2をベースにした新しい汎用NLPモデルを発表しました。これは事前トレーニングなしでさまざまなタスクを完了し、優れた結果を達成することができます。私たちはそれに注目しています。話を元に戻すと、Bert は従来の一方向言語モデルを放棄し、word2vec の CBOW モデルに似た MLM 言語モデルを革新的に提案しました。これは、ウィンドウ内のコンテキストを使用して中心単語を予測し、次の文を予測するというサブタスクを導入します。これは、単語の予測などの細かいタスクを文レベルでうまくエンコードできないという問題を効果的に解決します。

BERT をゼロからトレーニングするコストは非常に高くなります。幸いなことに、Google は中国語の事前トレーニング済みモデルのパラメータをオープンソース化しているため、この記事では小規模店舗の製品タイトルコーパスを直接使用して、事前トレーニング済みモデルを微調整します。

データはワンホットに従って前処理され、BertModel に送られます。モデルによって出力されたシーケンス埋め込みは、下流の B-LSTM+CRF に渡されます。最終的な注釈結果は、実験 3 (word2vec+character+Y) よりも 2.002% 高く、BERT の威力を十分に示しています。

要約する

ディープラーニングの強力なパラメータフィッティング機能により、面倒な特徴エンジニアリング作業が大幅に軽減されます。この記事では、いくつかの一般的な事前トレーニング方法を紹介し、アルゴリズムの基本原理を説明し、それを Suning ストアの製品タイトルの知識抽出タスクに適用します。 Suning 検索チームは、NER、関係抽出、イベント抽出、共参照解決などの知識マイニングのサブタスクで多くの試みと実践を行ってきました。スペースの制限により、この記事ではそれらを紹介しません。読者の皆様は、後続の記事をフォローして共有してください。

参考文献

1. Lample G、Ballesteros M、Subramanian S、et al. 名前付きエンティティ認識のためのニューラルアーキテクチャ[J]。arXiv プレプリント arXiv:1603.01360、2016 年。

2. Peters ME、Neumann M、Iyyer M、et al. 深層文脈化単語表現[J]。arXiv プレプリント arXiv:1802.05365、2018。

3. Devlin J、Chang MW、Lee K、et al. Bert: 言語理解のためのディープ双方向トランスフォーマーの事前トレーニング[J]。arXiv プレプリント arXiv:1810.04805、2018。

4. https://github.com/allenai/bilm-tf

5. https://allennlp.org/elmo

6. 張俊林。単語埋め込みからバートモデルまで：自然言語処理事前学習技術の発展史

7. DL4NLP - シーケンスラベリング: 文字ベースの中国語固有表現認識のための BiLSTM-CRF モデル

8. Jianshu Yufengzhixing. BiLSTMモデルにおけるCRF層の動作原理

9. 注釈付きトランスフォーマー

10、Radford A、Narasimhan K、Salimans T、et al.生成的事前トレーニングによる言語理解の向上[J]。

著者について

Suning Search R&D CenterのアルゴリズムエンジニアであるLv Jianxin氏は、主に意味理解、知識グラフ、対話システムなどの研究開発に従事しています。彼は、知識抽出とマイニング、グラフ表現学習、転移学習など、従来の機械学習とディープラーニングの分野で豊富な実践経験を持っています。

Suning.com の検索技術ディレクターであるLi Chunsheng氏は、製品、インテリジェンス、検索技術ラインのアーキテクチャ設計とコア技術計画を担当しています。検索分野で長年の実務経験を持ち、Suning.com の検索プラットフォームを 0 から 1 まで構築しました。検索分野で 7 年以上働いており、検索アーキテクチャ設計とパフォーマンス最適化に精通しています。また、機械学習やビッグデータなどの分野でのシナリオベースの検索アプリケーションにも豊富な経験を持っています。

Suning.com の検索アルゴリズムチームの責任者であるSun Pengfei氏は、NLP、検索ランキング、インテリジェントな質疑応答の研究に重点を置いています。チームを率いて、検索ランキングシステム、パーソナライゼーションシステム、インテリジェント検索システム、不正行為防止システムなどをゼロから構築しました。彼は、製品におけるアルゴリズムのチューニングとエンジニアリングアプリケーションの実践において豊富な経験を持っています。

[51CTO オリジナル記事、パートナーサイトに転載する場合は、元の著者とソースを 51CTO.com として明記してください]

<<: 音声技術市場には発展のチャンスがあるが、落とし穴には注意が必要

>>: 見ないと後悔するよ！ 2019年の人工知能業界の25の主要トレンド