人間の脳に似た新しい注意メカニズムである Meta により、大規模なモデルはタスクに関係のない情報を自動的にブロックできるようになり、精度が 27% 向上します。

Meta は、大規模モデルの注目メカニズムに関する新たな研究を実施しました。

新しいメカニズムは、モデルの注意を調整し、無関係な情報からの干渉をブロックすることで、大規模モデルの精度をさらに向上させます。

さらに、このメカニズムは微調整やトレーニングを必要としません。Prompt だけで、大規模なモデルの精度を 27% 向上させることができます。

著者はこの注意メカニズムを「システム 2 注意」(S2A) と名付けました。これは、2002 年のノーベル経済学賞受賞者であるダニエルカーネマンのベストセラー書籍「ファスト＆スロー」に記載されている心理学的概念、つまり二重システム思考モデルの「システム 2」に由来しています。

いわゆるシステム 2 は、単純な無意識の直感であるシステム 1 とは対照的に、複雑な意識的な推論を指します。

S2A はプロンプトワードを通じて Transformer の注意メカニズムを「調整」し、モデルの全体的な思考をシステム 2 に近づけます。

一部のネットユーザーは、このメカニズムは AI に「ゴーグル」の層を追加するものだと説明しました。

さらに、著者は論文のタイトルの中で、大きなモデルだけでなく、人間自身もこのような思考モードを学ぶ必要があるかもしれないとも述べています。

では、この方法は具体的にどのように実装されるのでしょうか?

大きなモデルが「誤解」されるのを避ける

従来の大規模モデルで一般的に使用されている Transformer アーキテクチャは、各単語 (トークン) に 0 ～ 1 のアテンション値を割り当てるソフトアテンションメカニズムを使用します。

対応する概念はハードアテンションメカニズムであり、入力シーケンスの 1 つまたは一部のサブセットのみに焦点を当て、画像処理でより一般的に使用されます。

S2A メカニズムは、2 つのモードの組み合わせとして理解できます。コアは依然としてソフトアテンションですが、それに「ハード」スクリーニングプロセスが追加されています。

具体的な操作としては、S2A ではモデル自体を調整する必要はなく、プロンプトワードを使用することで、モデルが「注意を払う必要のないコンテンツ」を削除してから問題を解くことができます。

このようにして、主観的または無関係な情報を含むプロンプトワードを処理するときに大規模なモデルが誤解される可能性を減らすことができ、それによってモデルの推論能力と実際のアプリケーション価値が向上します。

大規模モデルによって生成される回答はプロンプトワードに大きく影響されることがわかっており、S2A は干渉を引き起こす可能性のある情報を削除することで精度を向上させます。

たとえば、大きなモデルに次のような質問をするとします。

A 市は X 州の都市で、山々と多くの公園に囲まれています。優秀な人々が集まる場所であり、多くの有名人が A 市で生まれました。

X 州 B 市の Y 市長はどこで生まれましたか?

この時点で、GPTとLlamaの回答はどちらも質問にあるA市ですが、実際のYさんの出身地はC市です。

直接質問すると、モデルは都市 C を正確に答えることができましたが、プロンプト語に都市 A が繰り返し登場したため、モデルの「注意」が引かれ、答えは A になりました。

もう一つの状況は、人々が質問をするときに「可能な答え」を思いつく場合です。

バンドMに歌手で俳優もやっている人はいますか？Aだと思うのですが、よくわかりません。

その結果、大きなモデルがユーザーを喜ばせ始めます。あなたは正しいです、A は正解です。しかし、実はこの人はBです。

同様に、この人物が誰であるかを直接尋ねると、モデルは正しい答えを返すことができます。

この機能により、著者は新しい S2A メカニズムを考案し、ユーザー入力を絞り込むためのプロンプトワードのセットを設計しました。

検査前と検査後の効果を詳しく見てみましょう。

Q: メアリーはミーガンの3倍のキャンディーを持っています。メアリーはさらに10個のキャンディーを取りました。マックスはメアリーより 1,000 冊多く本を所有しています。メーガンがキャンディーを 5 個持っている場合、メアリーは合計でキャンディーをいくつ持っていますか?

A: マックスはメアリーより 1000 冊多く本を持っているので、マックスは 1000+x+10 個のキャンディーを持っています。次の式を書くことができます。
1000+3x+10=3(5)+10
…

S2A 処理後の問題は次のようになります。

Q: メアリーはミーガンの3倍のキャンディーを持っています。メアリーはさらに10個のキャンディーを取りました。メーガンがキャンディーを 5 個持っている場合、メアリーは合計でキャンディーをいくつ持っていますか?
質問 (ここでは質問がプロンプトに直接書かれています): メアリーはキャンディーを全部でいくつ持っていますか?

A: メーガンは5ドル持っていて、メアリーはメーガンの3倍の15ドルを持っていて、そこから10ドル取ったので、合計は25ドルです。

テスト結果によると、一般的な質問と比較して、最適化後の S2A の精度と客観性が大幅に向上し、精度率は手動で設計された簡潔なプロンプトの精度に近いことがわかりました。

具体的には、S2A は、修正された TriviaQA データセット上で Llama 2-70B の精度を 62.8% から 80.3% に向上させ、27.9% の向上を達成しました。また、客観性も 2.23 ポイント (5 点満点) から 3.82 に向上し、手動で調整されたプロンプト単語を上回りました。

堅牢性に関して、テスト結果では、「干渉情報」が正しいか間違っているか、肯定的か否定的かに関係なく、S2A によってモデルがより正確で客観的な回答を得られることが示されています。

さらなる実験結果から、モデルに無効な情報を無視するように指示するだけでは精度が大幅に向上しない（低下する場合もある）ため、干渉情報を除去するには S2A メソッドが必要であることがわかります。

逆に言えば、元の干渉情報が分離されている限り、S2A に対するその他の調整によってその有効性が大幅に低下することはありません。

もう一つ

実際、注意メカニズムを調整することでモデルのパフォーマンスを向上させることは、学術界では常にホットな話題となっています。

たとえば、少し前にリリースされた「最強の 7B オープンソースモデル」である Mistral は、新しいグループクエリアテンションモードを使用します。

Google の研究チームは、長いテキスト処理の複雑さの問題を解決するために、HyperAttention メカニズムも提案しました。

…

Meta が採用した「システム 2」注意モデルについては、AI のゴッドファーザーである Bengio 氏は次のように指摘しました。

システム 1 からシステム 2 への移行が AGI への唯一の方法です。

論文アドレス: https://arxiv.org/abs/2311.11829

<<: すごい...正義のために親族を殺す？ Google AI、米国の月面着陸写真は偽物だと判定

>>: Google: LLM は推論エラーを見つけることはできないが、修正することはできる

人間の脳に似た新しい注意メカニズムである Meta により、大規模なモデルはタスクに関係のない情報を自動的にブロックできるようになり、精度が 27% 向上します。

大きなモデルが「誤解」されるのを避ける

もう一つ

新しいアルゴリズムによりクラウドデータベースのパフォーマンスが向上

ブラックテクノロジーのバッテリー寿命を向上！太陽電池を使えば、この電子皮膚は脳コンピューターインターフェースや電気自動車に使用できる。

ディープラーニングによる物体検出モデルの包括的なレビュー: 高速 R-CNN、R-FCN、SSD

スノーフレークアルゴリズムでは、どのような状況で ID の競合が発生しますか?

単一のGPUで毎秒30フレームの4Kを実現し、リアルタイムのビデオカットアウトとアップグレードにより髪の毛のディテールを完全に再現します。

AIが光子の時間を3D画像に変換し、時間の経過による世界を視覚化する

IoTとAI: この強力な組み合わせの5つの興味深い応用

AIを使ってAIを攻撃する？敵対的機械学習に対する脅威と防御

推薦する

ボーダーライン上の質問：テクノロジー企業はAIアルゴリズムを使って従業員の採用と解雇を行っている

ポストパンデミックの時代に、伝統的なオフィスビルは時代遅れになるのでしょうか？

データが足りない場合はどうなりますか?コンピュータビジョンデータ拡張手法の概要

あなたの外見が AI に気に入られなければ、面接に失敗するでしょうか?世界中の何百万人もの求職者がAIによる「顔読み」面接を経験した

北京大学のチームは、ChatGPTにとって頭痛の種であったアルゴリズムの最適化を解決し、普通のラップトップでも実行できるようにした。

新たなAIスタントがあなたの人生と私の人生への影響を加速させる

米メディア予測：2021年の人工知能の4大トレンド

GPT-4は97回の対話で世界の諸問題を探り、P≠NPという結論を導き出した。

PyTorch は、大規模モデル用の「アクセラレーションパッケージ」を作成し、1,000 行未満のコードで 10 倍の速度を実現します。 NVIDIA Scientist: minGPT 以来の最高のチュートリアルリポジトリの 1 つ

2021 年の自動化には何が期待できるでしょうか?