GPT-3の良き「パートナー」:この方法はモデルの劣化を軽減し、出力をより自然にします

GPT-3の良き「パートナー」:この方法はモデルの劣化を軽減し、出力をより自然にします

テキスト生成は、多くの自然言語処理アプリケーションにとって重要です。

しかし、ニューラル言語モデルの最大化ベースのデコード方法 (ビーム検索など) は、多くの場合、退化したソリューションにつながります。つまり、生成されたテキストは不自然になり、不必要な繰り返しが含まれることがよくあります。既存の方法では、特定のトークンの確率を下げるためにトレーニング目標をサンプリングまたは変更することによってランダム性を導入します (例: 非尤度トレーニング)。しかし、それらはしばしば矛盾した解決策につながります。

最近、ケンブリッジ大学、香港中文大学、テンセント AI ラボ、DeepMind の科学者らは、自然言語生成モデルの劣化の潜在的な原因の 1 つは、トークンの分散表現ベクトルの異方性にあることを実証しました。

さらに彼らは、対照学習に基づいた自然言語生成フレームワークを提案しました。 2 つの言語における 3 つのベンチマークに関する広範な実験と分析により、私たちのアプローチは、人間による評価と自動評価の両方において最先端のテキスト生成方法よりも優れていることが実証されました。

研究動機と主な研究内容

図1. トークン表現ベクトルのコサイン類似度行列

この研究で、研究チームは、ニューラル言語モデルの劣化はトークン表現ベクトルの異方性分布、つまりトークン表現ベクトルが全体の空間の狭いサブセットに存在することに起因していることを発見しました。

図1(a)は、トークン表現ベクトルのコサイン類似度行列を示しています。ここで、表現ベクトルは、GPT-2の最後の隠し層の出力から取得されます。研究チームは、文章内のトークン間のコサイン類似度が 0.95 を超えていること、つまり表現が互いに非常に近いことを確認できました。

理想的には、モデルのトークン表現は等方性分布に従う必要があります。つまり、トークン類似性マトリックスはスパースで、異なるトークンの表現は図 2 (b) に示すように明確に区別される必要があります。デコード処理中、モデルの劣化を避けるために、生成されたテキストのトークン類似性マトリックスのスパース性を維持する必要があります。

上記の動機に基づいて、研究チームは、モデルが識別的かつ等方的なトークン表現を学習することを促す SimCTG (ニューラルテキスト生成のためのシンプルな対照フレームワーク) を提案しました。

対照検索の背後にある重要な直感は次のとおりです。

(1)各デコードステップにおいて、生成されたテキスト間の意味の一貫性をよりよく維持するために、出力はグループから最も可能性の高い候補単語を選択する必要があります。

(2)劣化を避けるためにトークン類似度行列のスパース性を維持する必要がある。

主な方法

  • コントラストトレーニング

研究チームの目標は、言語モデルが識別的かつ等方的なトークン表現を学習できるようにすることです。この目的のために、言語モデルのトレーニングに対照損失関数 LCL が導入されます。任意の可変長シーケンス x が与えられた場合、コントラスト損失関数は次のように定義されます。

このうち、ρは事前に設定されたマージンであり、hxiはモデルによって出力されるxiの表現ベクトルです。類似度関数 s は、任意の 2 つの表現ベクトル間のコサイン類似度を計算します。

上記のコントラスト損失関数をトレーニングすることで、異なるトークンの表現間の距離が広がることが想像できます。したがって、分離可能かつ等方的なモデル表現空間が得られます。最終的な総損失関数は次のようになります。

  • 比較検索

研究チームは、新しいデコード方法である対照検索を提案しました。各デコードステップにおいて、(1)モデルは最も可能性の高い候補セットから1つを出力として選択し、(2)生成された出力は以前に生成されたものと十分に異なるはずです。この方法で生成されたテキストは、モデルの劣化を回避しながら、以前のテキストとの意味の一貫性を維持できます。具体的には、出力 xt の生成は次の条件を満たします。

ここで、V(k) は候補単語の集合であり、k は通常 3 から 10 です。上記の式の最初の項はモデルのサポート v (モデル信頼度) を表します。これは、候補単語 v が次の単語であるとモデルによって推定される確率です。 2 番目の項はモデル劣化のペナルティ (退化ペナルティ) であり、次の単語 v と以前に生成された単語間の最大類似度です。 α は、2 つの損失のバランスを調整するハイパーパラメータです。 α=0 の場合、デコード方法は貪欲探索に退化します。

効率分析: この方法は比較検索を効果的に実装できます。必要な追加計算は劣化ペナルティの計算であり、これは単純な行列乗算によって実現できます。対照検索のデコード速度は、広く使用されている他のデコード方法よりも優れているか、同等であることが後で実証されます。

テキスト生成

まず、研究チームが提案した新しい手法を、自由記述の文書生成タスクで評価しました。

モデルとベースライン この論文で提案された方法はモデル構造に依存しないため、あらゆる生成モデルに適用できます。この実験では、代表的な GPT-2 モデルで提案手法を評価しました。

具体的には、研究チームは、提案された目標 LSimCTG を使用して評価ベンチマーク (以下に詳細) で GPT-2 を微調整し、さまざまなデコード方法を使用して連続テキストを生成しました。実験は、12 個のトランスフォーマー レイヤーと 12 個のアテンション ヘッドで構成される基本モデル (117M パラメータ) を使用して実行され、私たちのアプローチを 2 つの強力なベースラインと比較します。

(1)GPT-2は標準MLE損失関数で微調整され、(2)非尤度目的関数を使用して微調整された。研究チームの実装は、Huggingface ライブラリ (Wolf et al.、2019) に基づいています。

ベンチマーク データセット 研究チームは、1 億語を超える単語を含むデータセットを含む Wikitext-103 データセット (Merity 他、2017) で実験を実施しました。 Wikitext-103 は、大規模な言語モデルの評価に広く使用されているドキュメントレベルのデータセットです。

評価指標

研究チームは、次の 2 つの側面から結果を評価しました。

(1)言語モデルの品質、これはモデルの本質的な品質を測定する。

(2)生成品質。生成されたテキストの品質を測定するために使用されます。

言語モデルの品質

困惑

予測精度

n 予測される繰り返し率

l テキスト生成品質

n 繰り返しを生成する

多様性

nMAUVE(機械生成テキストが人間生成テキストにどれだけ近いかを測定する指標。MAUVE が高いほど、機械生成テキストは人間に近い)

n 意味の一貫性

n 生成されたテキストの難解さ

実験結果

表1. Wikitext-103データセットにおけるさまざまな手法のテスト結果

表1はWikitext-103データセットでの実験結果を示しています。

言語モデリングの品質 結果から、SimCTG は最高のパープレキシティと次のトークン予測精度を達成しました。 SimCTG はより識​​別力の高い分散表現を使用するため、次のトークンの予測を行う際に混乱する可能性が低くなり、モデルのパフォーマンスが向上します。非尤度モデルは、rep および wrep メトリックに関して最良の結果を生成しますが、複雑さと次のトークンの予測精度の点でパフォーマンスが低下します。

テキスト生成品質

まず、rep-n と多様性の指標に関して、SimCTG+ 対照検索は最高のパフォーマンスを達成し、モデル劣化の問題に最もよく対処していることを示しています。 2 番目に、MAUVE スコアは、SimCTG+ コントラスト検索によって生成されたテキストが、トークンの分布の点で人間が書いたテキストに最も近いことを示しています。 3 番目に、すべての方法の中で、SimCTG+ コントラスト検索は一貫性スコアが 0.6 を超える唯一の方法であり、この方法で生成されたテキストは高品質であり、接頭辞に関して意味的に一貫していることを示しています。最後に、gen-ppl メトリックは、他の方法と比較して大幅に優れた生成の困惑度を達成するため、対照検索に対する SimCTG+ の優位性を検証します。

さらに、MLE および Unlikelihood ベースラインの結果から判断すると、対照検索は貪欲検索やビーム検索よりもパフォーマンスがさらに向上します。しかし、対照トレーニングのパフォーマンス向上は依然として SimCTG に遅れをとっており、対照トレーニングの必要性が示されています。考えられる理由の 1 つは、対照損失 LCL、MLE、または尤度なしでトレーニングされたトークン表現が十分に区別できないことです。その結果、異なる候補の劣化ペナルティは容易に区別できず、出力の選択はモデルの信頼性によって影響を受け、対照検索の有効性が低下します。

人間による評価

研究チームはまた、内部採点プラットフォームを通じて、英語力の高い学生の協力を得て手動評価も実施した。生成されたテキストと実際のコンテキストはすべてランダムにシャッフルされ、5 人の人間の評価者によって評価され、合計 9,000 個のラベル付きサンプルが作成されました。評価は 5 段階のリッカート尺度 (1、2、3、4、または 5) に従って行われ、次の 3 つの領域で採点されます。

  • 一貫性: 生成されたテキストは、前のテキストと意味的に一貫していますか?
  • 流暢性: 生成されたテキストは読みやすいですか?
  • 情報コンテンツ: 生成されたテキストは多様で、興味深いコンテンツが含まれていますか?

表2. テキスト生成の人間による評価

表 2 は手動評価の結果を示しています。最初の行は、人間による評価が参照テキストをうまく見つけられることを示しています。まず、研究チームは、比較検索に MLE モデルまたは尤度モデルを直接使用しても満足のいく結果が得られないことを発見しました。これは、それらが表す空間の異方性によるものです。第二に、Unlikelihood モデルの一貫性スコアは MLE や SimCTG よりも大幅に低く、最も可能性の低い結果を生成することを示しています。これは、表 1 の世代の困惑度 (gen-ppl) からもわかります。さらに、SimCTG+ は、一貫性と流暢さの点で、さまざまなモデルからのカーネル サンプリングよりも検索結果を大幅に比較します。

最後に、SimCTG-large + 対照検索は、流暢性メトリクスにおいて人間が書いたテキストと同等のパフォーマンスを発揮し、全体的に最高のパフォーマンスを達成しました。これにより、この手法が大規模モデルに一般化できることが明らかになり、今後の研究では、GPT-3 などの数十億を超えるパラメータを含むモデルに拡張することに焦点を当てることができます。

オープンな対話システム

さまざまなタスクや言語にわたるこのアプローチの汎用性をテストするために、オープンドメインの対話生成タスクでもアプローチを評価しました。このタスクでは、複数ターンの会話コンテキスト(各ターンはユーザーの発話)が与えられた場合、モデルはコンテキストと意味的に一致する適切な応答を生成する必要があります。ここでは、会話の文脈が先行詞として考慮されます。

ベースライン モデルとベンチマーク テスト セット 中国語と英語の 2 つのベンチマーク データセットで実験を実施しました。中国のデータセットでは、LCCCデータセット(Wang et al.、2020)が使用されます。英語データセットでは、DailyDialog データセットが使用されます。

研究チームは、SimCTGとMLEによって微調整されたGPT-2モデルを比較しました。具体的には、中国のベンチマーク データセットでは、公開されている中国の GPT-2 (Zhao et al.、2019) が使用されます。トレーニング中は、バッチ サイズとして 128 を使用し、トレーニング サンプルを最大長 256 トークンに切り捨てます。 LCCC データセットでは、モデルは 40,000 ステップにわたってトレーニング (つまり、微調整) されます。 DailyDialog データセットの場合、データセットのサイズが小さいため、モデルは 5k ステップでトレーニングされます。最適化には、Adam オプティマイザーと 2e-5 の学習率が使用されました。

モデル評価研究チームは、モデルのパフォーマンスを測定するために手動評価に依存しました。彼らはテストセットから200の対話コンテキストをランダムに選択し、5人の注釈者に、一貫性、流暢さ、および(3)情報内容の3つの側面に基づいてスコアを付けるように依頼しました。スコアは 5 段階のリッカート尺度 (1、2、3、4、または 5) に従います。

表3. 自由回答形式の対話に対する人間の評価

表3は自由形式の対話に対する手動評価結果を示しています。どちらのデータセットでも、SimCTG + Contrastive Search はさまざまなメトリックで他の方法よりも大幅に優れており、このアプローチがさまざまな言語やタスクに一般化できることが実証されています。 LCCC ベンチマークでは、SimCTG+Contrast Search が流暢性の指標で人間よりも驚くほど優れたパフォーマンスを発揮し、一貫性と情報量の指標でも非常に優れたパフォーマンスを発揮していることは強調する価値があります。

さらに、対照的なトレーニングを行わなくても、対照的な検索を使用すると MLE モデルのパフォーマンスが大幅に向上します。これは中国語言語モデルの固有の特性によるものです。MLE 目標はすでに高い等方性を示す表現空間を生成できるため、対照検索を直接適用できます。この発見は、中国語などの一部の言語に対して、既成の言語モデル(つまり、対照的に訓練されていないもの)での対照検索の潜在的な適用可能性を明らかにしているため、特に魅力的です。

要約する

この研究では、著者らは、ニューラル言語モデルの劣化はトークン表現の異方性に起因することを実証し、等方性で識別的な表現空間を得るために言語モデルをトレーニングするための新しい方法、SimCTGを提案しました。さらに、この研究では、本論文で提案された SimCTG の目標と一致する新しいデコード方法であるコントラスト検索も導入されました。 2 つの言語の 3 つのベンチマーク テスト セットに対する広範な実験と分析に基づいて、自動評価と手動評価の両方で、提案された方法によりモデルの劣化の度合いが大幅に低減され、現在の最先端のテキスト生成方法を大幅に上回るパフォーマンスが得られることが示されました。

<<:  2022年に注目すべき6つのAIトレンド

>>:  人工知能は実際のデータセットを「放棄」するのか?

ブログ    
ブログ    

推薦する

...

人工知能の進化の限界は肉体にある

[[233888]] AIの未来は私たち自身のニューラルネットワークを複製することにある私たちは、チ...

AIドクターは正式に勤務中ですか? AIと医療の融合が爆発点に到達!

近年、医療分野における人工知能の応用が非常にホットな話題となっています。 「ニューイングランド・ジャ...

AI 導入の謎を解明: クラウドとエッジ

現在、ディープラーニング テクノロジーを展開できる方法としては、デバイス上への直接展開、クラウド内へ...

Google が AI ジェスチャー認識アルゴリズムをオープンソース化: 1 フレームの画像で 21 個の 3D ポイントを認識

リアルタイムの手の形状と動作の追跡ソリューションは、常に手話認識とジェスチャー制御システムの最も重要...

研究者はディープラーニングモデルを使って交通事故を予測する

[51CTO.com クイック翻訳]現在の世界は、コンクリートやアスファルトでできた巨大な迷路のよう...

人工知能と遠隔監視:宇宙でのマッチング

データ センターが地球外の人々の長期的なコンピューティング ニーズを満たすことは避けられないと思われ...

AIファイナンスブームの背後にはアリババとスタートアップ企業独自の狙いがある

中国の人工知能分野の二大大手であるMegvii TechnologyとSenseTime Techn...

20B大型モデルの性能はLlama2-70Bに匹敵します!完全にオープンソースで、ベースからツールまですべてが明確に整理されています

たった今、国産オープンソースモデルのパラメータ数の記録がまた更新されました! 9月20日、上海人工知...

人工知能開発の現状と将来動向の分析

人工知能、またはよく「AI」(英語の正式名称:Artificial Intelligence)と呼ば...

...

Microsoft Bing Chat が Chrome と Safari で利用可能になりましたが、いくつかの制限があります

Microsoft の人工知能チャットボット Bing Chat が、Google Chrome お...

...

AIRankingsが世界の大学AIランキングを発表

今年も大学入試シーズンがやってきました。私が大学受験をしていた頃には、この言葉が流行っていたのを覚え...