言語モデルは時間をどのように認識するのでしょうか?時間ベクトルについてさらに詳しく

言語モデルは正確にはどのようにして時間を認識するのでしょうか?言語モデルの時間認識をどのように利用すれば、出力をより適切に制御し、さらには脳を理解することができるのでしょうか?ワシントン大学とアレン人工知能研究所による最近の研究は、いくつかの洞察を提供しています。彼らの実験結果は、時間的変化が微調整されたモデルの重み空間にある程度エンコードされており、重み補間によって言語モデルをカスタマイズして新しい期間に適応できることを示しています。

具体的には、この論文では、言語モデルを新しい期間に適応させる簡単な方法である時間ベクトルの概念を提案しています。この論文は発表されるとすぐに何人かの研究者の注目を集めた。シンガポールを拠点とする海洋情報会社グレイウィングの共同創設者兼最高技術責任者（CTO）のフリシ・オリケル氏は、この論文を今年読んだ中で最も優れた論文の一つだと称賛した。

彼はこの記事の核となるステップを次のように要約しました。

Twitter とニュースのデータを取得し、年と月で並べ替えます。
LLM を選択し、そのコピーを毎月または毎年微調整してモデルの重みを更新します。
微調整されたモデルの重みを元の LLM の重みから減算して、「時間ベクトル」を取得します。

重量の差をベクトルとして使用して、この期間中にモデルが何を学習したかを調べることができます。では、このベクトルを使って具体的に何ができるのでしょうか?

まず、微調整が効果的かどうかを確認できます。結果から、微調整は確かに効果的であることがわかります。モデルの難しさおよび F1 スコアは、入力データが微調整後の時間と一致すると、タスクのパフォーマンスがそれに応じて向上することを強く示しています。

また、トレーニングデータの古さが増すにつれて、モデルのパフォーマンスが直線的に低下することも興味深い点です。これは、月単位と年単位の両方に当てはまります。同時に、特定の月にトレーニングされたモデルは、同じ年の他の月でも比較的良好なパフォーマンスを発揮します (下の図の斜めの縞模様で示すように)。

Hrishi Olickel 氏は、これはモデルによって生成された深い理解によるものではなく、意味上の類似性 (同じ月の名前) によるものだと仮説を立てています。そして、異なるモデルの対応するレイヤー間の違いがどの程度大きいかを調べることができれば、おそらくこの効果がいかに大きいかを理解できるでしょう。ベクトルの構成方法も興味深いです。

Hrishi Olickel 氏は、内部時間が存在するモデルを提案できることは非常に驚くべきことだと考えています。人間は脳内で時間がどのように機能するかをまだ理解していませんが、私たちが言語主導の学習者（LLM など）であり、「意識」が心の中でループを開始する「プロセス」である場合、人間と LLM には類似点がある可能性があります。

さらに興味深いのは、これらのベクトルを取得したら、それらの間を補間して、微調整が行われなかった年でも優れたパフォーマンスを得ることができることです。ベクトル間の補間は、係数の加算という単純な算術演算です。

以前のタスクベースのトレーニングによって取得されたモデル重みベクトルと同様に、この補間方法は、真の転移学習を見つける前に実行可能なトレーニング方法の 1 つである可能性があります。微調整から補間できる場合は、モデル出力を細かく低コストで制御できるため、微調整のコストと時間を削減できます。

これに基づいて、Hrishi Olickel はいくつかの推測を提案しました。

この作業は、標準の事前トレーニング済みモデル (3 つのサイズの T5) で実行されます。このアプローチは、モデルを最初にトレーニングするときにいくつかの制約が設定され、潜在空間での概念と時間のクラスタリングが改善された場合、より強力な結果につながる可能性が高くなります。
もう一つの興味深い調査は、モデルのアクティベーションを見て、それがどの期間に対応するかを確認することです。
この論文は、プロンプトから時間と概念を「見つけて」、正しい部分をアクティブにするモデルに依存しています。いくつかのモジュールを追加すると、MoE スタイルのルーティングなど、予期しない効果が発生する可能性があります。ルータがトレーニングされると、同じモデルの異なる微調整バージョン間でトークン間の変換を実行できるようになります。

Hrishi Olickel はこの章を非常に興味深いと感じました。このテキストからは、重みを交換するときに補間のみを交換することを意味しているかどうかは明らかではありませんが、もしそうで、それが機能するのであれば、それは素晴らしいことです。

Hrishi Olickel 氏は、AI (少なくとも言語モデルに基づく AI) に関する新たな理解は、これらのモデルの重みをリアルタイムで編集して活用する能力から生まれると述べ、これらの能力の一部が人間の脳を理解するのに役立つと強く疑っている (または期待している)。

論文の具体的な内容は以下のとおりです。

論文概要

時間的変化は言語の基本的な特徴です。この記事の第 3 章で述べたように、時間の変化は言語モデル開発において時間的な不整合として現れ、トレーニングデータとテストデータの時間的な偏差により、期間が異なる場合にモデルのパフォーマンスが大幅に低下します。これには、必要に応じて特定の期間に合わせてモデルを調整するための適応型技術の使用が必要です。しかし、時間スケールが多数あり、対象期間のデータが利用できない可能性があるため、このような手法を設計することは困難です。

最近の研究では、モデルパラメータ間の閉形式の補間を微調整することでニューラルネットワークの動作を編集できることが示されています。この論文では、重み空間での補間を使用して言語モデルを安価に編集し、異なるエポックで動作するモデルを作成できることを実証しています。

第 4 章では、タスクベクトルの拡張として時間ベクトルを紹介しています (「タスク演算によるモデルの編集」の論文を参照)。つまり、事前トレーニング済みの言語モデルを単一期間のテキストに対して微調整した後、元の事前トレーニング済みモデルの重みを減算して新しいベクトルを取得します。このベクトルは重み空間内の移動方向を表し、対象期間内のテキストを処理する際のモデルのパフォーマンスを向上させることができます。

第 2 章では、時間順に整理されたデータセットを使用して、言語モデル、分類、要約のための時間ベクトルの構造を分析します。結果は、時間ベクトルが多様体上に直感的に分布していることを一貫して示しており、時間的に近い年または月によって生成された時間ベクトルは、重み空間でも近くなります。同様に、セクション 4.2 では、年間および月間スケールでの時間的劣化の問題が時間ベクトル間の角度と密接に関連していることを示します。

この論文では、この時間ベクトル構造を使用してモデルをガイドし、新しい期間のデータをより適切にカバーできるようにします。 2 つの時間ベクトルを補間することで新しいベクトルを生成でき、これを事前トレーニング済みのモデルに適用すると、介在する数か月または数年間のモデルのパフォーマンスを向上させることができます (セクション 4.3)。この構造は、ラベルなしデータに特化した同様の時間ベクトルを使用して、タスク固有のモデルを期間にわたって一般化するためにも使用できます (セクション 4.4)。

私たちの結果は、微調整されたモデルの重み空間が時間的変化をある程度エンコードし、重み補間が言語モデルを新しい期間に合わせて調整するのに役立つことを示唆しています。この記事の著者らは、論文のコード、データ、および特定の期間に合わせて微調整された 500 を超えるモデルをオープンソース化しました。

複数の時間スケールにおける時間的ずれ

モデルのパフォーマンスの線形劣化は年単位で表されます

時間のずれに関するこれまでの研究では、モデルは時間の経過とともに劣化することが示されています。

これらの結果を確認するために、各データセットの各年セグメントで T5-small、T5-large、および T5-3b を微調整します。これらの調整されたモデルは、テストデータの他のすべての時間セグメントで評価されます。

図 2 は、年ごとの時間的ずれのヒートマップと、年間平均と比較した困惑度のパーセンテージ変化を示しています (年ごとのパフォーマンスの固有の違いを回避します)。以前の調査結果と一致して、モデルのサイズに関係なく、すべてのタスクで線形劣化が観察されます (詳細については表 4 を参照)。以前の調査結果と同様に、一部のタスク（政党の分類など）では他のタスクよりもパフォーマンスの低下が顕著です。これらの違いは、元の論文の付録の §A.2 で定量化されています。

数か月間のモデルの非線形パフォーマンス低下

次に、月を基準とした時間のずれの問題を紹介します。この質問はまだ検討されていません。論文の著者らは、2012年から2016年までのWMTデータセットを月ごとに分割し、T5-smallをトレーニングして、月別に分類された58のモデルを作成しました。次に、これらの複数のモデルに対して、月ごとに分割された合計 3,364 件の検証実験が実施されました。

図 3 に示すように、WMT データセットの特定の月についてモデルを微調整して評価すると、各年の月間サイクルに対応する時間的ずれの非線形パターンが明らかになります。このパターンは、12 か月ごとに対角線と平行に表示される縞模様によって表され、特定の月のモデルが他の年の同じ月よりもパフォーマンスが優れている傾向があることを示しています。この論文では、付録の図 12 でこれらの困惑度の違いを定量化しています。 §A.4では、オンライントレーニング設定におけるモデルの劣化パターンについてもまとめています。

時間ベクトルに基づく時間適応

時間ベクトルの類似性と時間劣化の相関関係

図 4 では、UMAP を使用して時間ベクトルを視覚化しています。これは、重み空間で近い時間ベクトルは時間的にも近いことを示しています。この仮説を検証するために、異なる期間にトレーニングされた時間ベクトルの各ペアのモデル重み間のコサイン類似度を測定します（付録セクション A.1 を参照）。

私たちの結果は、この類似性メトリックとパフォーマンス (図 11) が時間の経過とともに同様に低下することを示しています。

表 1 は、コサイン類似度と年ごとの相対的なパフォーマンスの変化との相関が WMT 言語モデリングで最も高いことを示しています。同時に、この相関関係は、異なるサイズのT5でも基本的に同様です。WMT LMでは、T5-smallのスコアはT5-largeやT5-3bよりも高く、絶対値は0.6以上です。

この関係は月単位にも及びます。 2 か月ごとの WMT 時間ベクトルのコサイン類似度に周期的な縞模様が見られます (図 9 を参照)。平均値（図3）およびコサイン類似度マトリックス（図9）と比較すると、月ごとのパフォーマンスの低下は負の相関関係にあった（ピアソンr = -0.667、p < 10-16）。付録 A.5 では、オンライントレーニングプロセス全体を通じて、1 年間の時間ベクトルのコサイン類似度を分析します。

これらの結果は、時間ベクトルの構成方法によって、対応する期間のパフォーマンスを予測できることを示唆しています。ここでは、時間ベクトル間の補間によってこの構造を活用し、新しい期間のパフォーマンスを向上させる方法について説明します。

中間時間を補間する

アーカイブの問題や低いサンプリングレートにより、データセットの最新の例と最も古い例の間にギャップが生じる可能性があります。データがない場合、時間的な不整合により、これらの「ギャップ」時間でモデルのパフォーマンスが低下することが予想されます。このセクションでは、最新および最古の期間のモデルを微調整することで、モデルをこれらの期間により適切に適応させることができることがわかります。

方法

2つの時間ベクトル τ_j 、 τ_k について、それらの補間を計算します。このセクションでは、最も早い年の時間ベクトルτ_0と最も遅い年の時間ベクトルτ_nの間を補間し、α∈[0.1, 0.2, ..., 1.0]の各時間t_0、...、t_nについてそれを検証します。

結果

図 5 に示すように、WMT LM タスクと PoliAff タスクの両方で、開始年と終了年の微調整モデル間の補間により、中間の年のパフォーマンスが向上します。一般的に、改善は中期（WMT LM の場合は 2014 年、PoliAff の場合は 2017 年）に最も大きく、開始と終了に近づくにつれて改善は減少します。異なる設定での改善パターンも異なります。WMT LM と比較すると、PoliAff のパフォーマンスは α = 1.0 と 0.0 付近でより緩やかに変化しますが、異なる α 間での NewsSum の改善は、検証年間のパフォーマンスの違いと比較するとごくわずかです。表 2 はこれらの変化を定量化し、補間法によって時間整合モデルと不整合モデル間のギャップが狭まることを示しています。この改善は特に PoliAff にとって顕著で、平均だけでもマクロ F1 パーセンテージポイントが 8 ポイント近く増加しました。

図 6 は、これらの結果が月ごとの WMT LM にまで及ぶことを示しています。つまり、その年の 1 月と 12 月に決定された時間ベクトル間を補間して、これらの月のモデルパフォーマンスを向上させることが可能です。各月の最適な補間は直感的なパターンに従い、1 月のモデルの割合が高いほど、それ以前の月のパフォーマンスが向上し、その逆も同様です。

未来の時間モデルを生成する

注釈付きデータセットは過去に作成されたため、微調整のために監督に依存する言語モデルはすぐに時代遅れになります。これらのモデルを更新するにはコストがかかり、追加の微調整と、より新しいテキストからの注釈付きデータセットの作成が必要になります。このセクションでは、タスク類推アルゴリズムを使用して、ソース期間 j で微調整されたタスクモデルをターゲット期間 k に更新し、j のラベルなしデータのみを含める新しい手法を紹介します。

方法

期間 j と k のラベルなしテキストに対して重み θ_j が微調整された言語モデルと、期間 j のラベル付きデータに対して重み θ_j が微調整されたタスク固有のモデルがある場合、ベクトルは次のように操作されます。

α_1 ∈ [0.6, 0.8, . . 2.2]、α_2、α_3 ∈ [0.1, . . 0.6]のすべての組み合わせを走査して、各ターゲット時間 t_k で推定された θ_k を検証し、元のモデル θ_j と比較して最良の結果を報告します。このセクションでは、WMT LM と Twitter LM 時間ベクトルを使用して、NewsSum モデルを 2012 年から 2013 ～ 2016 年に、PoliAff モデルを 2015 年から 2016 ～ 2020 年にそれぞれ更新します。

結果

タスク類推アルゴリズムにより、今後数年間で PoliAff タスクと NewsSum タスクのパフォーマンスが向上します。図 7 は、目標年と開始年のずれが大きくなるにつれて、開始年の微調整に比べて改善が大きくなることを示しています。モデルサイズもパフォーマンスに影響し、T5-large と T5-3b ではより大きな改善が見られます。 PoliAff では、T5-small はベースラインに対して改善が見られませんが、T5-large タスクの類推は 2016 年と 2017 年にベースラインよりもパフォーマンスが低下し、2019 年と 2020 年にのみ改善されます。興味深いことに、著者らは、α_1 を単純にスケーリングすると、数年後のタスクにおけるモデルのパフォーマンスも向上することを発見しました。 α 削減と他の 2 つの分類タスクの結果は付録 A.6 に報告されています。研究者たちはこれらのタスク全体でほとんど同様の結果を観察しましたが、タスクごとに異なる矛盾も見られました。

詳細については、元の論文を参照してください。

<<: 大型モデルの欠点を補うことに特化したRAGでは、どのような新たな進歩があったのでしょうか？このレビューでは明らかに

>>: モデルA: おかげさまで0点にならずに済みました。モデルB: 私も同じです。