人間の脳に似た新しい注意メカニズムである Meta により、大規模なモデルはタスクに関係のない情報を自動的にブロックできるようになり、精度が 27% 向上します。

Meta は、大規模モデルの注目メカニズムに関する新たな研究を実施しました。

新しいメカニズムは、モデルの注意を調整し、無関係な情報からの干渉をブロックすることで、大規模モデルの精度をさらに向上させます。

さらに、このメカニズムは微調整やトレーニングを必要としません。Prompt だけで、大規模なモデルの精度を 27% 向上させることができます。

著者はこの注意メカニズムを「システム 2 注意」(S2A) と名付けました。これは、2002 年のノーベル経済学賞受賞者であるダニエルカーネマンのベストセラー書籍「ファスト＆スロー」に記載されている心理学的概念、つまり二重システム思考モデルの「システム 2」に由来しています。

いわゆるシステム 2 は、単純な無意識の直感であるシステム 1 とは対照的に、複雑な意識的な推論を指します。

S2A はプロンプトワードを通じて Transformer の注意メカニズムを「調整」し、モデルの全体的な思考をシステム 2 に近づけます。

一部のネットユーザーは、このメカニズムは AI に「ゴーグル」の層を追加するものだと説明しました。

さらに、著者は論文のタイトルの中で、大きなモデルだけでなく、人間自身もこのような思考モードを学ぶ必要があるかもしれないとも述べています。

では、この方法は具体的にどのように実装されるのでしょうか?

大きなモデルが「誤解」されるのを避ける

従来の大規模モデルで一般的に使用されている Transformer アーキテクチャは、各単語 (トークン) に 0 ～ 1 のアテンション値を割り当てるソフトアテンションメカニズムを使用します。

対応する概念はハードアテンションメカニズムであり、入力シーケンスの 1 つまたは一部のサブセットのみに焦点を当て、画像処理でより一般的に使用されます。

S2A メカニズムは、2 つのモードの組み合わせとして理解できます。コアは依然としてソフトアテンションですが、それに「ハード」スクリーニングプロセスが追加されています。

具体的な操作としては、S2A ではモデル自体を調整する必要はなく、プロンプトワードを使用することで、モデルが「注意を払う必要のないコンテンツ」を削除してから問題を解くことができます。

このようにして、主観的または無関係な情報を含むプロンプトワードを処理するときに大規模なモデルが誤解される可能性を減らすことができ、それによってモデルの推論能力と実際のアプリケーション価値が向上します。

大規模モデルによって生成される回答はプロンプトワードに大きく影響されることがわかっており、S2A は干渉を引き起こす可能性のある情報を削除することで精度を向上させます。

たとえば、大きなモデルに次のような質問をするとします。

A 市は X 州の都市で、山々と多くの公園に囲まれています。優秀な人々が集まる場所であり、多くの有名人が A 市で生まれました。

X 州 B 市の Y 市長はどこで生まれましたか?

この時点で、GPTとLlamaの回答はどちらも質問にあるA市ですが、実際のYさんの出身地はC市です。

直接質問すると、モデルは都市 C を正確に答えることができましたが、プロンプト語に都市 A が繰り返し登場したため、モデルの「注意」が引かれ、答えは A になりました。

もう一つの状況は、人々が質問をするときに「可能な答え」を思いつく場合です。

バンドMに歌手で俳優もやっている人はいますか？Aだと思うのですが、よくわかりません。

その結果、大きなモデルがユーザーを喜ばせ始めます。あなたは正しいです、A は正解です。しかし、実はこの人はBです。

同様に、この人物が誰であるかを直接尋ねると、モデルは正しい答えを返すことができます。

この機能により、著者は新しい S2A メカニズムを考案し、ユーザー入力を絞り込むためのプロンプトワードのセットを設計しました。

検査前と検査後の効果を詳しく見てみましょう。

Q: メアリーはミーガンの3倍のキャンディーを持っています。メアリーはさらに10個のキャンディーを取りました。マックスはメアリーより 1,000 冊多く本を所有しています。メーガンがキャンディーを 5 個持っている場合、メアリーは合計でキャンディーをいくつ持っていますか?

A: マックスはメアリーより 1000 冊多く本を持っているので、マックスは 1000+x+10 個のキャンディーを持っています。次の式を書くことができます。
1000+3x+10=3(5)+10
…

S2A 処理後の問題は次のようになります。

Q: メアリーはミーガンの3倍のキャンディーを持っています。メアリーはさらに10個のキャンディーを取りました。メーガンがキャンディーを 5 個持っている場合、メアリーは合計でキャンディーをいくつ持っていますか?
質問 (ここでは質問がプロンプトに直接書かれています): メアリーはキャンディーを全部でいくつ持っていますか?

A: メーガンは5ドル持っていて、メアリーはメーガンの3倍の15ドルを持っていて、そこから10ドル取ったので、合計は25ドルです。

テスト結果によると、一般的な質問と比較して、最適化後の S2A の精度と客観性が大幅に向上し、精度率は手動で設計された簡潔なプロンプトの精度に近いことがわかりました。

具体的には、S2A は、修正された TriviaQA データセット上で Llama 2-70B の精度を 62.8% から 80.3% に向上させ、27.9% の向上を達成しました。また、客観性も 2.23 ポイント (5 点満点) から 3.82 に向上し、手動で調整されたプロンプト単語を上回りました。

堅牢性に関して、テスト結果では、「干渉情報」が正しいか間違っているか、肯定的か否定的かに関係なく、S2A によってモデルがより正確で客観的な回答を得られることが示されています。

さらなる実験結果から、モデルに無効な情報を無視するように指示するだけでは精度が大幅に向上しない（低下する場合もある）ため、干渉情報を除去するには S2A メソッドが必要であることがわかります。

逆に言えば、元の干渉情報が分離されている限り、S2A に対するその他の調整によってその有効性が大幅に低下することはありません。