スタンフォード大学が長いテキストをよりスムーズに生成する時間制御方式を導入、その論文がICLR 2022に選出される

スタンフォード大学が長いテキストをよりスムーズに生成する時間制御方式を導入、その論文がICLR 2022に選出される

近年、GPT-2 を含む大規模言語モデルはテキスト生成において大きな成功を収めています。しかし、大規模言語モデルは長くて一貫性のないテキストを生成する可能性があります。理由の 1 つは、長いテキストのダイナミクスを事前に計画したり特徴付けたりすることができないことです。その結果、談話構造が悪く関連性が低い、まとまりのないコンテンツが生成されることが多く、アンカーとなる目標なしにテキストが生成されたように見えます。自己回帰モデルがより長いテキストを生成する場合、モデルがテキストの意図したエンドポイントを超えて外挿することが困難になるため、これらの一貫性の問題はさらに悪化します。これらの問題は、大規模な言語モデルが現在、ドキュメントの最初から最後までの展開を適切に捉えることができていないことを示しています。これは、ストーリー、会話、レシピの生成などの目標指向のタスクにとって重要です。

しかし、学習したローカルダイナミクスを使用して、特に長距離の軌道の場合、正確な目標条件付き軌道を生成することは困難です。

最近の研究では、スタンフォード大学の研究者らが、目標条件付き生成を伴う単純で固定されたダイナミクス モデルを明示的に想定する代替案を検討しました。この新しいアプローチにより、長いテキスト生成のパフォーマンスが向上し、人間の評価者はその出力をベースライン方法よりも 28.6% 高く評価しました。

既知の目標条件付きダイナミクスを持つ潜在空間を学習する方法として、時間制御を提案します。彼らは、目標指向でない生成された曲がりくねったテキストは潜在空間におけるブラウン運動として表現でき、隣接する文の埋め込みはより類似し、離れた文の埋め込みは類似しなくなるという仮説を立てています。開始ノードと終了ノードを固定すると、目標指向の動作をモデルに組み込むことができます。この場合、ブラウン運動はブラウン橋となり、結果として生じる潜在的な軌道は単純な閉形式のダイナミクスに従います。

論文リンク: https://arxiv.org/pdf/2203.11370.pdf

時間制御では、ブラウン橋ダイナミクスを使用して潜在空間を学習するための新しい対照的な目的を導出します。この潜在空間は、ローカルの一貫性を維持し、グローバルな一貫性を向上させるテキストを生成するために利用されます。テキスト生成を実現するために、時間制御はまず、開始点と終了点に固定されたブラウン橋プロセスを介して潜在的な軌道を計画します。次に、この潜在的な計画を条件付きで使用して文を生成します。この論文では、研究者らは潜在的な計画を解読し、時間制御の潜在的な軌跡に基づいて GPT2 を微調整することでテキストを生成します。時間制御からの軌跡は、文書内の抽象的な意味上の位置として機能し、微調整された言語モデルの生成を導きます。

全体として、この研究の貢献は次のとおりです。

  • 我々は、新しい対照的な目的で学習されたブラウン橋ダイナミクスを使用して潜在構造を明示的にモデル化する、時間的に制御された言語モデルを導出します。
  • さまざまなテキスト領域にわたって、時間制御は、テキストの埋め込みや長いテキストの強制生成などのタスク固有のアプローチと比較して、より一貫性のある、または同等の一貫性のあるタスクテキストを生成できます。
  • 我々は、人間による実験で談話の一貫性を評価することによって、潜在的表現がテキストのダイナミクスを競合的に捉えているという結論を検証します。
  • このアプローチは、対照的なターゲットの重要性を理解し、ブラウン橋ダイナミクスを強化し、基礎となるダイナミクスを明示的にモデル化するようにも調整されました。

時間制御

時間制御の背後にある洞察は、一貫したテキストをモデル化して生成するためのスムーズな時間ダイナミクスを備えた潜在空間を学習することです。研究者たちは時間制御を3つの部分に分けました。最初の部分では、対照学習によってエンコーダーをトレーニングして、文章をブラウン橋潜在空間にマッピングする方法について説明します。 2 番目のセクションでは、この潜在空間から文章を再構築するためのデコーダーのトレーニングについて説明します。セクション III では、時間制御によるテキスト生成について説明します。

ブラウンブリッジダイナミクスを使用してエンコーダをトレーニングする

ここでのエンコーダーは、元の入力空間から潜在空間への非線形マッピング、f_θ: X → Z です。このエンコーダーの目的は、高次元のシーケンシャル データを低次元の潜在ランダム プロセス (この論文ではブラウン ブリッジ プロセス) にマッピングすることです。 t = 0 の任意の開始点 z_0 と t = T の終了点 z_T 間のブラウン橋過程の密度は次のようになります。

この密度は簡単に理解できます。これは、軌道の開始と終了の間のノイズの多い線形補間のようなもので、開始時の z_T は z_0 に、終了時の z_T に似たものになります。不確実性は中間領域で最も高く、終点付近で最も低くなります。

図 1 は、目的がエンコーダーのトレーニングのための言語設定にどのように変換されるかを示しています。客観的な事実は、文献の 3 つの文から引用されています。同じテキストから抽出された文は滑らかな潜在軌跡を形成し、潜在空間内の条件付き密度に従って互いに近くなるはずです。異なるテキストから抽出された文は、滑らかな軌跡を形成せず、ブリッジダイナミクスに従う可能性は低くなります。

図1

潜在計画を用いたデコーダーのトレーニング

このセクションでは、基礎となる生成プランをデコードするための言語モデルをトレーニングする方法について説明します。まず、事前トレーニング済みのエンコーダー f_θ を使用して、トレーニング データセット内のすべての文を学習した潜在空間にマッピングします。これにより、データセット内のドキュメントの文レベルの潜在コード (z0、...、zT、...、zT) のブラウン橋軌跡が得られます。次に、デコーダーを最初から学習するのではなく、過去のコンテキストと潜在的な計画に基づいてテキストを生成するように GPT2 を微調整します。

推論時に潜在計画からテキストを生成する

図 2 は、トレーニングされたデコーダーが推論時にテキストを生成する方法を示しています。 2 つのエンドポイント z_0、z_T が与えられた場合、潜在的なブラウン運動ブリッジから軌跡サンプルが抽出され、このブリッジ上のデコーダーによって生成されます。多くの場合、ブラウン橋がどこで終わるのかは明確でない場合があります。この場合、開始点と終了点に対応する文のセット(たとえば、トレーニング セットの最初の文と最後の文)をエンコードし、これらの点にガウス分布を当てはめて密度推定値を形成できます。この場合、生成には、最初にガウスからサンプリングし、次に前と同じようにブリッジから生成することが含まれます。トレーニングと生成の詳細については、付録 B を参照してください。

図2

実験

実験部分では、研究者らはテキストのダイナミクスを捉える時間制御の能力を評価した。具体的には、次のような研究課題に分けられます。

1. 時間制御はローカルテキストダイナミクスをモデル化できますか?セクション 4.1 では、文の順序予測タスクを使用してこの問題を研究します。同じドキュメントの 2 つの文が与えられたときに、異なるモデルが元の順序を予測できるかどうかを評価します。

2. 時間制御によって部分的に一貫性のあるテキストを生成できますか?セクション 4.2 では、テキスト入力タスクを使用してこの問題を調査します。プレフィックスとサフィックスが与えられた場合、異なるモデル間での入力の効果を評価します。

3. グローバルテキスト動的モデルを時間で制御できますか?セクション4.3では、生成された部分の長さを調べることで、Wikipediaの都市記事のテキスト生成問題を研究します。

4. 時間管理によって長くて一貫性のある文書を作成できますか?セクション 4.4 では、強制的な長いテキスト生成の問題について検討し、生成中に外挿を強制された場合にモデルが全体的なテキスト統計 (一般的な部分の順序や長さなど) をどの程度保持するかを評価します。

研究者らは、異なる潜在次元(d = 8、16、32)を使用して時間操作を実行した。エンコーダー アーキテクチャは、Huggingface から取得した凍結された GPT2 事前トレーニング済みモデルとトレーニング可能な MLP ネットワークです。研究者らは、EOS トークンに対応する最後の隠し状態を抽出し、その隠し状態の上に 4 層の MLP をトレーニングしました。 MLP ネットワークは中レベルの ReLU アクティベーションを持ち、学習率 1e-4、運動量 0.9 の確率的勾配降下法でトレーニングされます。

ここでは、談話の一貫性設定(RQ1)における局所談話ダイナミクスのモデル化に対する時間制御の効果を評価します。談話の一貫性は通常、線形分類器が順序付きおよび順序なしの文のペアを検出できるかどうかをテストして、表現が談話構造を捉えられるかどうかを測定することによって測定されます。ここでは、時間制御エンコーダーを、EOSトークン(Radford et al.、2019)、BERT(Devlin et al.、2019)、ALBERT(Lan et al.、2019)、Sentence BERT(Reimers et al.、2019)、およびSimCSE(Gao et al.、2021)に対応するGPT2の最後のレイヤーの隠し状態と比較します。最後の 4 つの方法は、文埋め込みモデルとして設計されています。表1に示すように、アブレーション研究も実施されました。

表 1: 訓練された線形分類器のテスト精度によって測定された談話一貫性の精度。

RQ1 の答えは「はい」です。時間制御は、会話や記事内のローカルなテキストのダイナミクスをモデル化できます。

次に、テキスト入力設定において時間制御によって局所的に一貫したテキスト (RQ2) が生成できるかどうかを評価する実験が行われます。テキスト補完には、欠落した文がある不完全なテキストを補完するモデルが必要です。たとえば、「パティは友達が来てくれて嬉しかった。パティと友達は楽しい時間を過ごしました。」ここでのテキスト補完の課題は、左右の隣接する文と局所的に一貫性のある文を生成することです。

研究者らは、表2および17に示すように、BLEU(Papineni et al.、2002)、ROUGE(Lin、2004)、BLEURT(Sellam et al.、2020)、BERTScore(Zhang et al.、2019)に基づいて、生成された文と真実の補完文との間の談話の一貫性を評価した。

また、補足文として人間が生成した結果の一貫性の評価も含まれます。参加者は、ILM、LM、および Time Control によって生成されたフィラー文を 1 ~ 5 のスケール (不合理から非常に合理まで) で評価するように求められました。

RQ2 の答えは、時間制御は、基礎となるダイナミクスの明示性により、ローカルに一貫したテキストを生成できるということです。

これらの方法が Wikisection 上の文書構造をモデル化できるかどうかを評価することで、時間制御がグローバルテキストダイナミクスのモデル化に及ぼす影響を評価します (RQ3)。生成されたセグメントの長さがデータセット内の平均長さと一致するかどうかを確認しました。各 Wikisection ドキュメントには、都市の概要、歴史、地理、人口のセクションが含まれています。

評価結果は、文書構造のマッチングなど、グローバルテキストダイナミクスをモデル化するための時間制御の重要性を確認し、RQ3 に答えています。

EOS トークンを省略した場合の、グローバルに一貫したテキストの生成に対する時間制御の効果 (RQ4) を評価します。モデルは生成時に自然なエンドポイントを超えて外挿する必要があるため、これを強制的な長いテキスト生成設定と呼びます。参考までに、1000 トークンは、一般的な Wikisection ドキュメント (最も長いテキスト フィールド) よりも 50% 長くなります。このタスクでは、本論文で提案された方法も優れたパフォーマンスを実現します。

要約すると、時間制御により、テキスト充填と談話一貫性タスクのパフォーマンスが向上し、順序とテキスト長の一貫性の観点から長いテキスト生成のテキスト構造が保持され、提案された方法がよりローカルおよびグローバルに一貫性のあるテキストを生成できることが実証されています。研究チームは、時間制御はビデオやオーディオなどの連続データを持つ他の領域にも拡張できる、あるいは既知の固定された開始点と終了点のない任意のブリッジング プロセスを処理できると考えています。

詳細については原論文を参照してください。

<<:  アート業界におけるメタバースの探究

>>:  会話型AIの本当の限界は人間の忍耐力だ

ブログ    
ブログ    

推薦する

PyTorch チームが「すべてを分割」モデルを書き直し、元の実装より 8 倍高速化

今年初めから現在に至るまで、生成AIは急速に発展してきました。しかし、多くの場合、特に PyTorc...

人工知能を活用して顧客サービス体験を向上させる 5 つの方法

人々がデジタルの世界に移行するにつれて、組織と顧客の関係はここ数年で変化してきました。顧客の期待はか...

5G の出現はフェデレーテッド ラーニングにどのような影響を与えるでしょうか?

世界中の開発チームが AI ツールの作成を急いでいるため、エッジ デバイスでのアルゴリズムのトレーニ...

...

...

今後数年間の AI 求人市場はどのようになるでしょうか?

[[353999]] AI がもたらす自動化の脅威によって仕事が奪われる一方で、AI は新しい職種...

AIの「ショートカット」がシミュレーションを数十億倍高速化

[[314916]]シミュレーターは、NASA がエアロゾル モデルを使用してオーストラリアの火災に...

5年後、農業ロボットの市場価値は引き続き増加し、約880億ドルに達するだろう。

農業用ロボットは、一般的に、農産物を操作対象とし、ある程度の人間の知覚と行動能力を持ち、さまざまな高...

...

...

...

人工知能はソフトウェア開発のパラダイムを変えている

ソフトウェア開発者は、コードの作成とレビュー、バグの検出、ソフトウェアのテスト、開発プロジェクトの最...

MIT テクノロジーレビュー: 6 つの質問が生成 AI の未来を決定する

「生成AIは2023年に世界を席巻します。その未来、そして私たちの未来は、私たちの次の一手によって決...

...

三方からのアプローチ! AIがサイバーセキュリティを強化

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...