ナレッジグラフと AIGC を組み合わせるにはどうすればよいでしょうか? JD.comがやっていること

I.はじめに

まず、JD.com による電子商取引シナリオにおける AIGC の調査について紹介します。

これは、自動生成された製品マーケティングコピーのパノラマビューです。下から上に向かって、最初は製品の入力情報です。入力情報は、画像、テキスト、製品タイトル、製品詳細ページの製品ナレッジグラフなど、多種多様なソースから構成されます。一般的な知識グラフは、ヘッドエンティティ、テールエンティティ、および関係の 3 つの要素で構成されます (例: 「中国の首都は北京です」(ヘッドエンティティ: 中国、テールエンティティ: 北京、関係: 首都))。電子商取引のシナリオでは、トリプルのナレッジグラフが「製品属性と属性値」のペアであるバイグラムに変換されます。この製品には画像情報が含まれており、これは実際にはマルチモーダルテキスト生成のシナリオであることを意味します。この比較的豊富な情報を入手したら、セールスポイント（誰もが参照する価値のある製品の優れた価値ポイントを説明する）と要素（製品のナレッジグラフを凝縮する。たとえば、エアコンの場合、要素にはモーター、静音性、エネルギー効率などが含まれます。エネルギー効率を説明する場合は、環境保護、省エネ、節電などの要素と要素語のシステムを導入する場合があります）の抽出を含む予備処理を行います。

情報は最初に処理された後、モデル側に入ります。モデル側にはエンコーダーとデコーダーがあり、入力情報はマルチモーダルなので、エンコーダーはテキストエンコーダーと画像エンコーダーに分かれています。デコーダーに関しては、制限付きデコードとコピーデコードを使用して、電子商取引の厳しいシナリオでの AIGC のアプリケーションに対応します。さらに、現在普及している事前トレーニング済みの言語モデルと文章流暢性モデルも使用されます。文間流暢性モデルは従来のデコーダーの強化版です。従来のデコーダーは単語間の接続性（または一貫性）に重点を置いていますが、短文間の接続性には直接注意を払っていません。したがって、短文間の一貫性または論理的一貫性を強化するには、文間流暢性モデルを追加する必要があります。

さらに、句読点修正モデルも関係します。たとえば、生成されたコピーが「カンマのような」ものになる傾向があります (コピー全体の句読点がすべてカンマになる)。

一番上には出力があり、50 語や 100 語の短いテキストから、500 語や 1,000 語の長いライブブロードキャストテキストまで、さまざまなテキストが含まれています。

次に、JD.com の電子商取引シナリオにおける実際のアプリケーションをいくつか紹介します。

1つ目は、写真や商品のセールスポイントタイトル、商品のコピーライティングの形でユーザーに高品質な商品を推奨するJD APPの「Discover Good Products」チャンネルです。

2つ目のシナリオは、ショッピングガイドロボットです。JDカスタマーサービスとコミュニケーションをとる際、手動またはインテリジェントカスタマーサービスがユーザーの質問に答える前に、ショッピングガイドロボットはまず、ユーザーが問い合わせる必要のある製品に基づいて、製品紹介文をユーザーにプッシュします。紹介文を通じてユーザーの質問の一部に直接答え、製品をさらに宣伝する効果が期待されます。

3 番目のシナリオは、ソーシャルアプリ Jingfen です。これは、ソーシャルグループ購入シナリオです。コピーをパーソナライズ (絵文字やプロモーション情報の追加) することで、ソーシャルプラットフォームで共有しやすくなります。

4 番目のシナリオは、ライブブロードキャストロボットです。ライブブロードキャストロボットは、経験も運用チームもない仮想アンカーや実際の人物によるライブブロードキャストにコピーの参考資料を提供するために、比較的長いコピー (場合によっては 1,000 語以上) を生成する必要があります。

最後のシナリオは、組み合わせショッピングです。組み合わせショッピングと前の 4 つのシナリオの違いは、前の 4 つのシナリオでは 1 つの製品のコピーライティングが生成されるのに対し、組み合わせショッピングでは複数の製品のコピーライティングが生成される点です。この例の商品は、トップス、パンツ、バックパックです。これらはすべて、似たような色やスポーティなスタイルなど、特定のスタイルに準拠しており、モデルはこの類似性に基づいてコピーを自動的に生成し、商品の組み合わせを宣伝する必要があります。

実際、ほとんどの使用シナリオの基盤となるテクノロジは、テキスト生成、または制御可能なテキスト生成です。つまり、比較的深刻なシナリオでは、手動によるレビューや編集の助けを借りずに、コピーが直接生成されてユーザーに表示されるため、誤った属性を記述したり、一貫性のないテキストを記述したりするなど、奇妙で許容できないエラーは発生しません。

近年、制御可能なテキスト生成技術に対する学術界の注目も爆発的な成長傾向を見せています。近年のNLP分野のトップカンファレンスであるACLとEMNLPのテキスト生成関連論文の統計によると、2018年以前は関連論文投稿数は1桁でしたが、2019年以降は急増し、2桁以上を維持しており、関連トピックが学術界で十分な注目を集めていることがわかります。

では、制御可能なテキスト生成をどのように実現するのでしょうか?これを達成するための主な角度は 3 つあります。

最初の観点は、入力テキストを制御することです。ご存知のように、「ガベージインガベージアウト」とは、入力に大量のガベージ情報が含まれている場合、モデルに対する学習圧力が比較的高くなることを意味します。たとえば、「最高」や「トップ」など、広告法に違反する単語が入力に表示されることは望ましくありません。

2 番目の制御方向は語彙です。たとえば、特定の単語 (セールスポイントの単語、属性の単語、ナレッジグラフに関連する説明的な単語など) を推奨したり、特定の単語を禁止したりする場合は、語彙を調整することで、デコード側での単語の確率を調整できます。

3 番目の角度はモデルです。これは比較的効果的ですが、難しいアプローチでもあります。たとえば、デコーダーの初期化を変更したり、デコーダーがエンコーダーの初期化を変更したり、補助タスクを追加したり、マルチタスク学習を行ったりすることで、モデルを調整できます。

電子商取引分野におけるテキスト生成の研究は多くの課題に直面しています。

1 つ目は、テキスト生成の基本的な課題です。いわゆるテキスト生成の基本的な課題とは、学術、チャットボット、コピーライティングなどのタスクで直面する課題を指します。一般的に、主な目標は、人が書いたもののように聞こえるコンテンツを生成することであり、次のような特徴があります。

重要性。生成されたコピーでは、雑談ではなく重要なコンテンツが説明されます。
非冗長性とは、たとえば 500 語のコピーなど、より長いコピーを作成するときに、同じ角度を繰り返さないことを意味します。
読みやすさ: テキストは比較的流暢に表現されている必要があります。

電子商取引のシナリオでは、いくつかの高度な要件があります。

多様性を実現するには、製品をさまざまな角度から説明する必要があります。
Fidelity では、記述された製品の属性が製品ナレッジグラフに準拠している必要があります。
製品コンテンツの豊富さ。たとえば、製品自体を説明する情報に加えて、一般的なナレッジグラフに関連する情報など、ユーザーに表示できる常識的な情報も用意し、コピーのプロモーション効果を高めます。

次に、上記4つの側面について正式に紹介します。 1 つ目は、電子商取引のナレッジグラフに基づいて真正性を制御し、電子商取引のナレッジグラフを通じて属性の記述をより忠実にすることです。 2 つ目は、一般的なナレッジグラフに基づいてコンテンツの豊富さを拡大し、製品コピーに製品情報だけでなく、ユーザーの共感を呼ぶ追加情報も含めるようにすることです。 3 番目と 4 番目の観点は、ドメイン知識と一般知識を大きなモデルに統合する、大きなモデルの探索です。

2. ドメイン知識グラフに基づく製品コピーライティング生成

ドメイン知識グラフは、洗濯機の 2 つの仕様などの属性仕様パラメータとして定義できます。

容量: 9 kg、

製品タイプ: パルセーター洗濯機。

この場合、値が数値である容量など、一部の属性は誤った記述になりがちです。製品ナレッジグラフを照会すると、この製品の容量は 9kg であることが簡単にわかります。しかし、実際にはさまざまな仕様の洗濯機が多数存在し、中には 1～2kg の非常に小さな洗濯機もあります。モデルがこれらの数字に関連する属性値を記述する場合、間違いを犯しやすくなります。機械翻訳タスクが普及し始めた初期の頃、数字の翻訳は常に難しい問題であったことを思い出すことができます。現在、製品のコピーを生成する際に、デジタル関連情報の処理は、特に一部の低頻度の属性値の場合、依然として困難です。電子商取引のシナリオでは、値が間違っていてはなりません。間違っていると、ユーザーからの苦情に簡単につながります。

ここでは、9kg の実際の属性値を記述します。モデルがデコード時に最高かつ最適な正しい値を見つけるようにするにはどうすればよいでしょうか (モデルのデコードとは、モデルが参照する情報が最も正確になるように、大規模な語彙の中で最も確率の高い値を見つけることです)。モデルには、参照情報のソースが多数存在する場合があります。1 つ目は、モデルが入力を理解し、どの属性値が正しいかを総合的に判断することです。 2 つ目は、先ほど紹介した製品のさまざまな説明など、製品のタイトルや製品詳細ページのテキストから取得される数百または数千語のテキストから正しい属性値を見つけることです。

3 番目の方法は、製品ナレッジグラフを直接検索するという非常に優れたショートカットなので、紹介したいと思います。たとえば、ここでは、「この洗濯機の容量は」と記述する場合、ここで記述されているのが製品の容量属性であることをモデルに知らせるためのパターンを形成する必要があることをモデルに認識させます。モデルがこのパターンを学習すると、製品ナレッジグラフを直接クエリして、容量に対応する属性値を見つけ、エラーが発生しないことを保証できます。どのような属性値を入力すべきかを判断するために入力を包括的に理解する必要はありませんが、モデルが入力を包括的に理解することは非常に困難です。

要約すると、検索に似た形式を使用して、ナレッジグラフをポインターとして機能させ、モデルがナレッジグラフをクエリできるようにすることで、製品属性値が間違っていないことを目指します。

このプロセスを数式で表現するにはどうすればよいでしょうか?

1 つ目は、製品の属性値を取得するときに、すべての入力情報から正しいデコードワードを見つけるという、オリジナルのコピーメカニズムです。そこで、私たちが提案した改良されたコピーメカニズムは、入力テキストからコピーするだけではなく、まずトークンの属性タイプ（ここでは「容量」など）を見つけ、次に「容量」属性に対応する属性値を取得するため、このタイプの属性値トークンのデコード結果はより忠実になります。

ナレッジグラフを使用する際の難しさの 1 つは、ナレッジグラフで十分な情報を提供する方法です。電子商取引プラットフォームには数千万、あるいは数億もの製品が存在する可能性があり、多くの製品のナレッジグラフは非常に不足しています。衣料品を例に挙げてみましょう。電子商取引のシナリオでは、衣料品は 12 シーズンに分かれており、非常に頻繁に入れ替わります。大規模な店舗では数千または数万点のアイテムを扱っている場合もあり、一部のナレッジグラフが欠落してしまう可能性が高くなります。私たちは、商品情報を利用して商品ナレッジグラフを完成させたいと考えています。完成の過程で、多くの属性値に「奇妙な」現象があることにも気付きました。たとえば、サイズが記載されているが、そのサイズが内径なのか外径なのかわからないことがあります。長さが記載されているが、袖の長さなのかズボンの長さなのかわからないこともあります。しかし、商品の写真を観察することで、その色やそれが特定の部分を表しているか、長さがパンツを表しているかトップスを表しているかを簡単に知ることができるため、商品のマルチモーダル情報、つまり画像情報とテキスト情報を使用して商品ナレッジグラフを完成させたいと考えています。

具体的には、商品画像情報は 2 つの側面で役立ちます。1 つ目は、商品画像を通じて、特定の部品の特性を明確に知ることができることです。たとえば、写真に写っている服の襟を観察すると、襟が丸いのかまっすぐなのかがわかります。そこで、ここではローカルビジュアルゲートを使用します。これは、さまざまな製品属性を説明するときに、モデルが特定の製品写真の特定の領域に焦点を当てるようにするためです。

2 番目の側面は、タスクに基づいて簡単に考えられる方向性です (実際に定義するのは、テキストから特定の属性に対応する属性値を抽出するシーケンスラベリングタスクです)。つまり、テキストの理解を高める方法です。実際、画像とテキストの間にはクロスモーダルなつながりがあるため、画像の情報を使用してモデルのテキスト理解を向上させることが期待されます。そのため、ここでは、画像情報を使用してテキスト理解を強化するための 2 番目のゲート (グローバルビジュアルゲート) が定義されています。最後に、これら 2 つの視覚情報の助けを借りて、製品ナレッジグラフを完成させるという問題は完了します。

製品ナレッジグラフを使用してレプリケーションメカニズムをさらに強化する方法を次に示します。

従来のテキスト生成モデルには、テキストを生成する際に非常に優れたメカニズム、つまりコピーメカニズムがあります。デコードされたテキストは 2 つの部分から構成されます。最初の部分は生成確率で、生成された語彙のどの単語が最も高い確率を持つかを計算する必要があります。2 番目の側面はコピー確率で、現時点での入力のどの単語が出力に配置されるかを計算します。最終的なデコード確率は、実際には 2 つの確率の重ね合わせです。単語をコピーすることを選択する場合の従来のコピー確率は、入力からコピーすることですが、生成確率は必ずしも同じではありません。

例えば、「Midea」可変周波数エアコンの場合、誤った「固定周波数」属性を生成するかどうかを検討します。従来のコピー確率は、「固定周波数」のデコード確率を計算するときに、コピー確率（P _copy ）と生成確率（P _gen ）の2つの部分で構成されます。入力には「可変周波数」のみがあり、「固定周波数」がないため、「固定周波数」のコピー確率は0です。しかし、「固定周波数」トークンと「可変周波数」トークンの両方がデコード語彙に含まれているため、「固定周波数」のデコード生成確率が 0 に等しいことを保証するのは困難です。最終的な結論は、従来の複製確率が誤った属性値、つまり「固定頻度」を生成しないことを保証することはできないということです。そこで、この現象を改善しました。属性値を生成する際、生成確率を0に設定します。つまり、属性値を生成する際、そのデコード確率はコピー確率のみになります。入力に現れる属性値のみを出力にデコードできます。これにより、デコードされたテキストに間違った属性値が現れることがなくなります。

次に、最終的な実験結果を見てみましょう。属性語リストからのコピーと属性語Only-Copyの追加を使用し、最終的に非常に良い結果を達成することができました。忠実度と可読性の手動評価表から、最も初期のモデルである PGNet は従来のポインタージェネレーターであることがわかります。従来のコピーモデルの忠実度はわずか 64% ですが、Only-Copy メカニズムを追加すると 93% 以上に向上します。

3. 一般的な知識グラフに基づく製品コピーライティングの生成

次に、商品コピー生成のシナリオで一般的なナレッジグラフを使用する方法を紹介します。

実際にナレッジグラフを使用する際には、ナレッジグラフの融合という問題があります。例えば、商品ナレッジグラフを使用する場合、商品ナレッジグラフと一般ナレッジグラフを相互接続したいと考えています。ここでは、単に商品単語を相互接続の橋渡しとして使用しています。例えば、インスタントラーメンの場合、商品ナレッジグラフから産地や原材料などがわかりますが、一般ナレッジグラフ（右側の緑のグラフ）は、インスタントラーメンと一緒に何を食べられるのか、インスタントラーメンの原材料は何なのか、どのような食事シーンがあるのかなど、より豊富な情報を提供できます。この場合、仕事が忙しくて料理をする時間がないときにはインスタントラーメンを食べればいいなど、より多くの情報をユーザーに提供し、コピーをより宣伝的なものにすることができます。

もちろん、製品ナレッジグラフを使用する場合、現在の製品の製品ナレッジグラフ、つまりその属性と属性値はすべて現在の製品と一致しているという問題にも気づきました。ただし、リンクした一般的なナレッジグラフの情報の一部は、必ずしも当社の現在の製品に忠実なものではありません。例えば、インスタントラーメンは小麦とそばの両方から作られています。通常、どの一般知識グラフが最も忠実な情報を導入しているかを区別することは困難ですが、私たちは一般知識グラフを使用したいと考えています。そのため、いくつかの改良を加えて、入力情報のソースをトークン化しました。Transformerモデルに基づく従来のエンコーディングには2つの部分があり、1つは入力トークンで、もう1つは位置情報です。次に、製品の製品ワードを説明する製品カテゴリの説明トークンなど、トークンのカテゴリ情報である3番目の部分を追加します。トークンは、製品の詳細から、または製品知識グラフから、または一般知識グラフから取得されます。では、トークンベクトルを導入することで何を実現したいのでしょうか。つまり、モデルがデコードしているとき、入力情報を参照する過程で、製品ナレッジグラフを参照している場合は完全に信頼する必要がありますが、一般的なナレッジグラフを使用する場合は、そこから盲目的に情報を取得するのではなく、選択的に使用する必要があります。

最後に、事例を見てみましょう。一般的な知識グラフを紹介した後、例えばサングラスの場合、その機能は目の疲労と強い光の刺激やダメージを軽減することです。一般的な知識グラフを紹介した後、効能情報を説明します。そこに記載されている情報は、強い光や有害な光によって引き起こされる目へのダメージをブロックできるということです。 ROUGE指数を家電、衣料、食品の3つのカテゴリーで評価しました。いわゆる ROUGE 指標は、モデルによって生成されたコピーと人間が書いたコピーの類似性を測る指標です。図の赤い列である商品の一般的な知識グラフを追加した後、ROUGE指標がある程度改善されたことがわかります。

改善を行った後、実は別のことが分かりました。トークンのカテゴリ情報を追加すると、モデルによる商品単語の説明が大幅に改善されたのです。最初のコピーを読んだときにヘッドフォンについて言及されていなければ、携帯電話だと考えてしまうかもしれません。トークンカテゴリベクトルを追加すると、ヘッドフォンであることが明確に示されます。これは、実際に私たちが見たい現象です。

4. ドメイン知識グラフに基づくLLM

大規模モデルの調査結果を共有したいと思います。1 つ目は、ドメイン知識グラフに基づく大規模モデルです。

近年、大規模モデルの開発は非常に急速に進んでおり、2017年にTransformerが登場して以来、モデルのパラメータの数は近年数十億から数兆に増加しています。しかし、ハードウェアリソースの進歩は非常に遅く、まだ2〜3年前のA100のレベルにとどまっています。現在ではH800やA800が発売されていますが、実際の計算能力は目立った向上はありません。そのため、この場合、大規模モデルをどのように見るべきかも、考えるべきトピックです。

最初から皆の注目を集めてきた一般的な大規模モデルを簡単に見てみましょう。たとえば、自然言語理解 NLU (Natural Language Understanding) の方向には、非常に画期的な BERT (Bidirectional Encoder Representation from Transformers) モデルがあり、テキスト生成の方向には、非常に画期的な BART (Bidirectional and Auto-Regressive Transformers) モデルがあり、それぞれテキスト生成、テキスト要約、または一部の翻訳タスクで使用されています。その後、知識グラフに基づく KGPT (Knowledge-grounded Pre-training) や Baidu が提案した ERNIE など、一般的な知識に基づくいくつかの大規模なモデルが業界で登場しました。私たちは、トレンドについて、つまり、どのようにビッグモデルを業界やアプリケーションシナリオに実際に適用して価値を生み出すかについて考えてきました。私たちが最終的に得た結論は、大きなドメインモデルです。私たちが直面している課題は、ドメイン知識グラフまたはドメイン知識を大きなモデルにどのように統合するかということです。

この目標を達成するには、まず必要なドメイン知識を定義する必要があります。ここでは、4 種類のドメイン知識を定義します。

商品のバイナリ情報、商品の関連する一般的なナレッジグラフ情報など、より一般的な商品のナレッジグラフ。
製品の要素知識。要素知識は、実際には製品知識グラフの凝縮です。製品知識グラフまたは製品属性の一部のカテゴリの規模は非常に大きく、数万または数十万になる場合があります。これにより、一部のテール製品の知識グラフの頻度が非常に低くなります。そのため、これらの知識グラフまたはそのスキーマの一部を再設計する必要があります。これが製品要素です。
製品がヘッドフォンなのか携帯電話なのかといったカテゴリ情報。
製品のセールスポイント: セールスポイントに関する知識が当社のコピー生成モデルによってより適切に取り込まれ、セールスポイントのコピーの生成に役立つことを期待しています。

これら 4 種類の知識に対して、5 つの事前トレーニングタスクを定義しました。最初の 2 つは、比較的一般的なマスクされた言語モデルタスク、つまり単語を生成するためのマスクとテキストフラグメントを生成するためのマスクです。このようなタスクを設計する際には、知識情報のマスクを優先することにも重点を置きます。残りの 3 つのカテゴリは、私たちの知識に基づいて設計された 3 種類の事前トレーニングタスクです。 3 番目のカテゴリは、製品要素を検出するタスクです。これは、製品を説明するときに多くの角度があるためです。たとえば、洗濯機を説明するときは、そのモーターと静音性について説明します。最初の 2 つの文がモーターを説明しており、最後の 2 つの文が静音動作を説明していることをモデルに認識させることができますか? 実際、これら 2 つの要素の分岐点を検出しています。 4 番目のタスクは、製品カテゴリの分類タスクです。製品コピーが携帯電話ではなくヘッドフォンについて説明していることをモデルに認識させる必要があります。 5 つ目は、製品のセールスポイントフレーズ、または製品のセールスポイントセンテンスです。その生成タスクは、実際には AIGC シナリオで動作することです。設計を通じて、モデルが事前トレーニングプロセス中に言語関連の情報とナレッジグラフ関連の情報の両方を学習できることを期待しています。

次はモデルの評価です。私たちは、ナレッジグラフの完成、電子商取引のマルチラウンドダイアログ、製品概要の生成という NLU タスクと NLG タスクをそれぞれ評価しました。合計 3 種類のモデルがテストされました。C-PLUG (知識が追加されていない一般的なモデル)、E-PLUG (モデルに一般的な知識を追加するモデル)、K-PLUG (電子商取引の知識をモデルに注入するモデル) です。電子商取引の知識を追加した後、電子商取引分野の 3 つの下流タスクでモデルのパフォーマンスが大幅に向上することがわかりました。次に、eコマースの実際のシナリオである非常に興味深いケースも紹介します。紙殻クルミは3〜5センチメートルの大きさで、新疆で生産されています。モデルは、製品のナレッジグラフに基づいて顧客に応答します。顧客が実際に尋ねているのは、これが紙殻クルミであるかどうか、そして最高級の紙殻クルミであるかどうかです。しかし、ChatGPTに質問を入力すると、ナレッジインジェクションの形で製品のナレッジグラフもChatGPTに入力されます。しかし、ChatGPTには特級評価指標がないため、「特級」が何を意味するのかがわかりません。しかし、ドメイン知識があれば、「特級」とは実際には 3 〜 5 センチメートルのサイズを意味することがわかります。知識を組み込むことで、モデルは、サイズが 3 〜 5 センチメートルであれば、特級のクルミであることを認識できます。

これは、テキスト生成タスクのより直感的な評価です。3 つのポイントが見つかりました。1 つ目は、知識を統合した後、擬人化がより良くなり、つまり ROUGE スコアが高くなり、モデルによって生成されたコピーが人間が書いたコピーに似ていることです。 2 つ目の観点は、説明がより豊富であることです。一般的な事前トレーニング済みモデル T5 と比較すると、説明の長さは約 60 語にしか達しません。知識トレーニングを統合すると、単一のコピーの説明の長さは 80 語以上に達する可能性があります。 3 点目は、信頼性が高くなることです。モデルを手動で評価すると、従来の一般的な事前トレーニングモデル T5 では監査合格率が 76% しか達成できないのに対し、当社のモデルでは後処理なしで知識トレーニングのみを統合し、90% の監査合格率を達成できることがわかります。

5. 一般知識グラフに基づくLLM

最後にご紹介したいのは、一般的な知識グラフを使用して、事前トレーニング済みの言語モデルを強化する方法です。

事前トレーニング済み言語モデルの初期世代には、ノイズ除去オートエンコーダと呼ばれる事前トレーニング方法があり、入力テキストを選択的またはランダムにマスクします。入力はマスキングプロセス中にノイズの多い入力になり、その後、テキスト生成モデルが入力のノイズを除去することが期待されます。しかし、いくつか問題も見つかりました。1 つ目は、トレーニングプロセス中に、モデルがすべての情報を別々に扱うわけではないことです。たとえば、知識学習を強化する場合、知識のマスキング確率を大きくする必要があります。 2 つ目の側面は、トレーニングプロセス中に、マスク言語モデルであれ、現在普及しているデコーダーのみの言語モデルであれ、トレーニング方法は Teacher-Forcing の形式であることです。つまり、次の単語を予測するときに、モデルは前の単語の真の値または履歴情報を提供します。

ここで例を挙げます。従来の事前学習済み言語モデルを事前学習して、たとえばトム・クルーズの出生地を学習する場合、実際の出生地はニューヨークなので、出生地の最初の単語を予測するときに、モデルは上記の「born in」に基づいて最初の単語が「ニューヨーク」であると予測する可能性がありますが、モデルはそのような知識を学習していないため、ワシントン、つまり最も確率の高い最初の単語が「中国」であると予測しますが、2 番目の単語を予測するときに、モデルは最も確率の高い最初の単語「中国」を入力として使用せず、「ニューヨーク」を入力として使用して「about」を予測します。その結果、モデルは「ニューヨーク」という単語でトレーニングされているように見えますが、実際にはこの知識をまったく学習していません。モデルは依然としてワシントンがトム・クルーズの出身地であると信じています。言い換えれば、この Teacher-Forcing 形式は、モデルが知識の表現をうまく学習するには不十分です。

この問題を解決するために、我々はエンコーダや入力情報だけでなく、出力にもノイズを加える方法を提案しました。つまり、モデルがそのような知識実体を予測する際に、Teacher-Forcing形式を使用するだけでなく、完全に予測させます。例えば、2番目の単語「约」を予測する際に、「新」を入力として取り込むのではなく、[MASK]トークンなどのノイズを入力として取り込むことで、モデルは「纽约」と「约」という2つの単語を順番に完全に予測できるようになります。

具体的には、従来のマスキングでは、エンコーダー側でのみノイズが追加されます。たとえば、すべての単語にランダムにノイズが追加され、80% が [MASK] 文字に置き換えられ、10% がランダムな文字に置き換えられ、10% は変更されません。デコーダー側ではノイズは追加されません。しかし、私たちが提案した戦略は、エンコーダーにノイズを追加するプロセスを継続するだけでなく、デコーダーにもノイズを追加します。つまり、デコードしたテキストでは、Ground-Truth トークンをデコーダーへの入力として使用する代わりに、その 80% が [MASK] 文字に置き換えられ、10% がランダムトークンに置き換えられ、10% は変更されずに残り、モデルがエンティティトークンを完全に予測できるようになります。もちろん、私たちの研究は2022年のEMNLPの研究ですが、当時はデコーダーのみのフレームワークがセンセーションを巻き起こさなかったかもしれませんが、実は私たちが提案したトレーニングフレームワークはデコーダーのみのフレームワークにも十分に適用できます。

また、エンティティ NLG タスク用の WebNLG および WikiBio データセットのテストも実施し、デコード側でノイズが追加された知識指向マスクの事前トレーニング済み大規模モデルの改善が非常に明らかであることがわかりました。

<<: 中国電信が星辰AIビッグモデルをソース公開：LLM研究開発を完了し、オープンソース化した初の中央企業

>>: