リバースエンジニアリングの後、Transformer は数学的なフレームワークに「変換」します | 25 人の学者が記事を執筆しました

Transformer は、2017 年 6 月に Google チームによって提案された古典的な NLP 作業であり、Ashish Vaswani らによって論文「Attention Is All You Need」で提案されました。 Transformer の登場以来、NLP、CV、音声、生物学、化学などの分野で多くの進歩をもたらしてきました。

Transformerは現実世界でますます使用されるようになっています。たとえば、GPT-3、LaMDA、CodexなどはすべてTransformerアーキテクチャに基づいて構築されています。ただし、Transformer ベースのモデルが拡張されるにつれて、そのオープン性と大容量により、予期しない、さらには有害な動作が発生する余地が増えます。大規模なモデルがトレーニングされてから何年も経った後でも、作成者やユーザーは、これまで見たことのないモデルの問題を発見することがよくあります。

これらの問題に対処する 1 つのアプローチは、機械的な解釈可能性です。これは、トランスフォーマーの計算プロセスをリバースエンジニアリングするものであり、プログラマーが複雑なバイナリファイルを人間が読めるソースコードにリバースエンジニアリングしようとする方法に似ています。

リバースエンジニアリングが可能であれば、現在のモデルのセキュリティ上の問題をより体系的に説明し、問題を特定し、さらにはまだ構築されていない将来のモデルのセキュリティ上の問題を予見することもできるでしょう。これは、Transformer のブラックボックス操作を逆にして、プロセスを明確に可視化するようなものです。以前、研究者らは Distill Circuits スレッドプロジェクトを開発し、ビジュアルモデルのリバースエンジニアリングを試みましたが、これまでのところ、トランスフォーマーモデルや言語モデルに関する同等のリバースエンジニアリング研究は行われていません。

25 人の研究者によって書かれたこの論文では、最も原始的な手順を使用して変圧器を逆転させることを試みています。この論文は、Anthropic AIセキュリティ・研究会社に勤務し、主にニューラルネットワークのリバースエンジニアリングに携わっているクリス・オラー氏によって執筆された。その後、ニール・ナンダ氏が論文の初稿に大幅な修正を加えました。ナンダ氏は現在、DeepMind で研究エンジニアリングのインターンとして働いています。元 Stripe Technologies の Nelson Elhage 氏が、各章の明瞭性を高めるために論文を詳細に編集しました。

[[442646]]

左: ニール・ナンダ、右: クリストファー・オラー

言語モデルの高い複雑性と大規模性を考慮すると、最も単純なモデルから始めてトランスフォーマーを逆変換することが最も効果的であることが研究で判明しました。この研究の目的は、単純なアルゴリズムのパターン、テーマ（モチーフ）、またはフレームワークを発見し、それをより複雑で大規模なモデルに適用することです。具体的には、その範囲には、アテンションブロックのみを持つ 2 層以下のトランスフォーマーモデルのみが含まれます。これは、最大 96 層を持つ GPT-3 などのトランスフォーマーモデルとはまったく対照的です。

論文アドレス: https://transformer-circuits.pub/2021/framework/index.html#acknowledgments

この研究では、変圧器の動作を新しいが数学的には同等の方法で概念化することで、これらの小さなモデルを理解し、その内部の仕組みについての洞察を得ることができることがわかりました。特に、私たちが誘導ヘッドと呼ぶ特定の注意ヘッドがこれらの小さなモデルにおける文脈学習を説明できること、そしてこれらの注意ヘッドは少なくとも 2 つの注意層を持つモデルでのみ開発されることが分かりました。さらに、この研究では、特定のデータに対して動作するこれらの注意ヘッドの例をいくつか示しています。

章の概要

トランスフォーマーのリバースエンジニアリングの課題を探るために、研究者たちは、注意力のみのおもちゃのモデルをいくつかリバースエンジニアリングしました。

まず、ゼロ層トランスフォーマーモデルのバイナリ統計です。研究者たちは、重みを通じてバイナリテーブルに直接アクセスできることを発見しました。

より複雑なモデルについて説明する前に、ゼロ層変圧器について検討すると役立ちます。このタイプのモデルは、トークンを取得して埋め込み、その後埋め込みを解除してロジットを生成し、次のトークンを予測します。

このようなモデルは他のトークンから情報を転送できないため、現在のトークンから次のトークンを予測することしかできません。これは、W_UW_E の最適な動作が二変量対数尤度を近似することを意味します。

ゼロ層の注意のみのトランスフォーマーモデル。

第二に、単層注意のみのトランスフォーマーは、バイグラムモデルとスキップトリプレットモデルの集合体です。ゼロ層トランスフォーマーと同様に、モデルを実行せずに重みを介してバイナリとスキップトリプルに直接アクセスできます。これらのスキップトリプルは驚くほど表現力豊かで、非常にシンプルな形式の文脈内学習を可能にします。

単層アテンションのみのトランスフォーマーモデルのパス拡張手法にはどのようなものがありますか?研究者らがいくつか提供した。

下の図に示すように、注意のみのトランスフォーマーの単一レイヤーは、トークンの埋め込み、それに続く注意レイヤー (注意ヘッドを個別に適用)、そして最後にディスエンベディングで構成されます。

研究者は、先ほど得たテンソル表記とアテンションヘッドの代替表現を使用して、次の図に示すように、トランスフォーマーを 3 つの項の積として表すことができます。

研究者が採用した中心的なトリックは、単純に積を展開すること、つまり積（各項がレイヤーに対応）を合計に変換することであり、各項はエンドツーエンドのパスに対応します。これらは、エンドツーエンドのパスの各項目が理解しやすく、独立して推論でき、組み合わせて追加することでモデルの動作を作成できることを示しています。

最後に、 2 層の注意のみのトランスフォーマーモデルは、注意ヘッドの組み合わせを使用して、はるかに複雑なアルゴリズムを実装できます。これらの組み合わせアルゴリズムは、重みを通じて直接検出することもできます。 2 層モデルでは、アテンションヘッドの組み合わせを適応させて「誘導ヘッド」を作成します。これは、非常に一般的なコンテキスト内学習アルゴリズムです。

具体的には、注意ヘッドに次の 3 つの組み合わせから選択する場合です。

Q - 組み合わせ: W_Q は前のヘッドの影響を受けるサブスペースで読み取られます。
K - 組み合わせ: W_K は前のヘッドの影響を受けたサブスペースで読み取られます。
V - 組み合わせ: W_V は、前のヘッドの影響を受けるサブスペースで読み取られます。

研究者らは、Q と K の組み合わせは V の組み合わせとは異なると述べている。最初の 2 つは注意パターンに影響を与え、注意ヘッドがより複雑なパターンを表現できるようにします。 V の組み合わせは、注意の頭が特定の位置に焦点を合わせたときに伝達される情報に影響を与えます。その結果、V 字型の組み合わせヘッドは単一のユニットのように動作し、追加の「仮想注意ヘッド」を作成すると考えることができます。

トランスフォーマーに関する最も基本的な質問は、「ロジットをどのように計算するか」ということです。単層モデルと同じアプローチを使用して、各項がモデル内のレイヤーである積を記述し、それを展開して、各項がモデル内のエンドツーエンドのパスである合計を作成します。

直接パス項と単一ヘッド項は、単層モデルの場合と同じです。最後の「仮想注意ヘッド」という用語は、V の組み合わせに対応します。仮想注意ヘッドは概念的には興味深いものですが、実際には小さな 2 層モデルではうまく機能しないことがよくあります。

さらに、これらの各用語は、モデルがより複雑な注意パターンを実装できる方法に対応しています。理論的には、それらについて推論することは困難です。しかし、一般化について議論するときは、すぐに具体的な例でそれを使用します。

<<: 中国の教授が犯罪認識率97%の人工知能「検察官」を開発、現在テスト中