ChatGPTが危険にさらされています! 「Attention Formula」の8年前の謎のバグが初めて暴露、Transformerモデルに大きな影響が出る可能性

「注目の式」に8年間存在していたバグが外国人によって発見された？

一瞬にして、この話題はインターネット上で爆発的に広まりました。

GPT-4、Lalma 2、PaLM など、Transformer に基づく現在の主流モデルが影響を受けます。

スタートアップ企業Eppoのエンジニアであるエヴァン・ミラー氏は、本日のブログ投稿でこの発見を発表し、次のように述べた。

研究者は先月このバグを特定しましたが、簡単な修正方法を見逃していました。なぜ LLM 設計者は Softmax の使用をやめるべきなのでしょうか?

写真

では、どのようなバグが 8 年間も隠れたままでいられるのでしょうか?

ブログ投稿で、著者はウィトゲンシュタインの意味深な一文を引用した。「言葉で表現できないことについては、沈黙しなければならない。」

写真

注意が1つずれている

このブログ投稿のタイトルは「Attention is Off By One」です。

写真

この数式に 1 つずれたエラーがあることがわかりますか?

写真

ご存知のとおり、注意の公式は現代の人工知能の中核となる方程式ですが、その中にバグがあり、先週、著者のエヴァン・ミラー氏を激怒させました。

そこでミラー氏は、脆弱性についてブログ記事を書き、修正方法を提案することにしました。

その中で、彼は、現在の世代の AI モデルが重要な場所でオフバイワンエラーに悩まされており、それがすべての Transformer モデルの圧縮と展開を困難にしていることについて説明しています。

しかし、著者は、これは単なる意見記事であると強調しましたが、もしオンライン上で誰かがこれが正しいことを証明するために実験を行いたいのであれば、協力して検証することができます。

すべては外れ値次第

まず、オフバイワンエラーがなぜ重要なのかについて説明しましょう。 ChatGPT はうまく動作しますが、何か問題はありますか?

私が何かがおかしいことに初めて気づいたのは、自分の仕事に集中し、Mac Mini や Rasberry Pi に大きなモデルを押し込む技術や、LLM Edgers を介して家庭用サーモスタットのロックを解除する技術など、定量的な研究論文を読んでいたときでした。

AI 空間では、誰もが RAM によって制限されます。

したがって、使用する RAM が少ないほど、クラウドでもエッジデバイスでも、より優れた機能を実現できます。

LLM には数十億の重みがあり、それらの重みを縮小できれば、言語を使用する個人的な動機に応じて、より良いソネットを書いたり、より良いエッセイを盗用したり、世界の終わりを早めたりすることができます。

RAM は情報を保存しますが、これは同義語のように聞こえるかもしれません。情報は負の対数確率であり、これは物事を保存するために必要なビット数です。

数字のストリームが予測可能であれば、たとえば常に有限の範囲内であれば、必要なビット数は少なくなります。

非常に大きな数字が時々現れるなど、数字のストリームが予測できない場合は、この巨大な数字をエンコードするためにさらに多くの 2 進数が必要になります。

これが LLM で起こっていることです (現時点では理由は部分的にしか理解されていません)。

Transformer モデルにはこれらの外れ値の重みが含まれており、桁違いのアクティベーションを生成します。

しかし、誰もそれらを排除することはできません。これらのメガロドン (研究用コマンドラインツール) は、これらのモデルの実行に不可欠であるようです。

しかし、それらの存在は、優れたモデルを構築する前にニューラルネットワークについて私たちが知っていたことすべてと矛盾しています。

これらの外れ値について議論した論文は数多くあり、1 と 0 の数を減らしてエンコードするためのさまざまなビットバーニングスキームが考案されてきました。

なぜなら、現時点では、通常のスケーリングおよびバイアスされた整数量子化を使用するとパフォーマンスの低下が非常に深刻になるからです。

これらすべてを最もよく分析しているのは、Qualcomm AI Research の論文「Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing」です。

写真

論文アドレス: https://arxiv.org/pdf/2306.12929.pdf

著者らは、これらの外れ値の存在を注意メカニズムのソフトマックス関数に帰着しています。この一見無害な指数関数が、このような深刻な尖度異常を生み出す可能性があることに誰も気づいていませんでした。

そして研究者たちはこの境界エラーをほぼ発見しました。

これに対し著者は、クアルコムの研究者らはまだ彼の電子メールに返信していないが、このように国際的な学術コミュニティに訴えていく必要があると述べた。リンク先の論文を読む場合は、そのアドバイスを無視してください。

プルーニングされたソフトマックスには回転ゼロ勾配があり、ゲート付きアテンションの提案は機能しますが、増分的な障害のみに対処するために何百万もの新しいパラメータを導入します。

私には、ここには単純で明白な解決策があるように思えますが、私が読んだ限りでは、まだ誰もそれを試そうと考えていません。

次に、ソフトマックス関数について、そしてそれが注意を扱う際に最適なツールではない理由について説明します。

Softmaxの問題点

このエラーを説明するには、注意メカニズムの目的を理解する必要があります。

同様に、数値エラーのほとんどは、プログラマーが方程式を誤って実装したために発生します。

ただし、問題のあるコードではなく問題のある数学を扱っている場合は、方程式がどこから来たのか、そしてそれを修正するために何をすべきかを理解する必要があります。

このため、著者は arXiV の論文を約 50 件読んですべてを理解する必要がありました。

まず、入力文字列内の単語を表す浮動小数点ベクトルである入力埋め込みから始めます。

このベクトルは年々高くなっているようです。たとえば、Meta の最新の LLaMA 2 モデルでは、長さ 3,204 の埋め込みベクトルが使用されています。

半精度浮動小数点計算では、通常 30,000 ～ 50,000 のエントリを含む語彙内の 1 つの単語を表すだけで 6KB 以上を消費します。

さて、メモリを重視する C プログラマーであれば、これらの AI の愚か者が、2 バイトしかかからないものを表現するために 6 KB を使用しているのはなぜかと疑問に思うかもしれません。

語彙がより小さい場合、エントリを表すのに必要なのは 16 ビットだけですよね?

Transformer が実際に行っていることはまさにこれです。入力ベクトルを同じサイズの出力ベクトルに変換し、この最終的な 6 KB の出力ベクトルは、現在の単語の後に続く単語を予測するために、絶対にすべてをエンコードする必要があります。

Transformer の各レイヤーの役割は、元の単語ベクトルに実際に情報を追加することです。

これが残余 (旧称スキップ) 接続の機能です。注意メカニズムが行うことは、元の 2 バイトの情報に補足資料を追加し、より大きなコンテキストを分析して兆候を探すことだけです。

たとえば、「pupil」という単語は生徒を指し、「pupil」はあなたの生徒を指しません。注意メカニズムを何十回も繰り返すと、英語とその豊富な内容すべてを習得できます。

さて、Transformer の最後のステップは、この出力ベクトルを長方形行列で乗算し、結果として得られる語彙長ベクトルをソフトマックスに詰め込み、それらの指数出力を次の単語の確率として扱うことです。

これは理にかなっています。しかし、誰もがそれが完全に真実ではないことを知っています。

これらの出力確率が正しいと見なすモデルはないため、代わりにすべての実装と他のすべてのモデルはサンプリングメカニズムを使用して、ソフトマックスが低い確率を過剰に表しているという事実を隠します。

これはすべて順調です。

出力ステップのソフトマックスは語彙内の各単語の勾配を提供します。これは、より適切な単語が出てくるまでは合理的な選択です。

しかし、著者が主張したいのは、Transformer の出力ソフトマックスは注意メカニズムの内部ソフトマックスとは異なる目的を持っているため、後者をすべて取り除くか、少なくともその分母を便利なもので支える必要があるということです。

ではソフトマックスとは何でしょうか?

ソフトマックスはもともと統計力学で生まれ、エネルギーレベルに基づいて状態分布を予測するために使用されます。

経済学者は、人々の線形効用関数のノイズ項がたまたまガンベル分布に従う場合、誰かがアイテムを選択する確率は効用入力の指数に比例することに気づきました。

これにより、softmax は多項式論理関数でも有用になります。

ソフトマックスは、実数を合計が 1 になる確率にマッピングするチートコードであると言えます。

物理学では非常にうまく機能しますが、経済学では少し不正確ですが、機械学習の分野に入ると、離散的な選択が関係する場合は常に頼りになるもののようです。

これがソフトマックスのコアメカニズムです。粒子がエネルギー状態を選択する場合でも、消費者が車を選択する場合でも、競合する選択肢の中から選択を強制します。

つまり、ソフトマックスメカニズムがまったく選択を行わない場合は、ソフトマックスを変更する必要があります。そうしないと、実際のデータに遭遇したときにソフトマックスが歪みを生成することが予想されます。

LLM の場合の歪みの 1 つは、非意味的なトークン (コンマなど) に重みを付けすぎることです。この重みは、圧縮が困難な外れ値になります。

これに対して、Qualcomm の AI 研究者は、LLM における異常な活性化の 97% 以上が空白と句読点の位置で発生していることを発見しました。

何が問題になるのでしょうか?

次に、Attention におけるソフトマックスの使用についてさらに詳しく調べ、どこで問題が発生するかを見てみましょう。

これを分解すると、デコーダーのみのモデル（つまり、ChatGPT 以降のすべてのモデル）では、𝑄、𝐾、および𝑉はすべて同じ入力シーケンスから取得されます。

途中で異なる方法で投影されるため同一ではありませんが、各レイヤーでは同じ注釈付き（追加された）埋め込みベクトルから始まります。

現在: 𝑄𝐾^𝑇 は、異なる位置にあるトークン (埋め込み) ベクトル間の相関関係を探しています。実際には、各列と行がトークンの位置に対応する相関 (1/√𝑑 でスケーリングされたドット積) 値の正方行列を構築しています。

この正方行列の各行はソフトマックスで処理され、結果として得られる確率は𝑉行列の値ベクトルの混合関数として使用されます。確率混合𝑉行列は入力ベクトルに追加され、さらなる処理のためにニューラルネットワークに渡されます。

マルチヘッドアテンションは、各レイヤーで同時にこのプロセスを実行し、複数の処理を実行します。基本的には埋め込みベクトルを複数の部分に分割し、各ヘッドはベクトル全体の情報を使用して出力ベクトルの（重複しない）セグメントに注釈を付けます。

オリジナルの Transformer 論文の連結操作について混乱している場合は、次のような処理が行われていることを意味します。ヘッド 1 はセグメント 1 に情報を追加し、ヘッド 2 はセグメント 2 に情報を追加します。

ソフトマックスを使用する場合の問題は、出力ベクトルに追加する情報がない場合でも、各アテンションヘッドに強制的に注釈を付けなければならないことです。

離散的な選択の間でソフトマックスを使用することは問題ありませんが、オプションの注釈（つまり、追加への入力）として使用するのは、あまり良くありません。その中で、マルチヘッドアテンションは、一般ヘッドよりも専門ヘッドが「パス」を望む可能性が高いため、この問題を悪化させます。

現在、ソフトマックスは全面的に置き換えられるはずですが、アテンションヘッドが空の注釈を出力できないという 1 つの小さな問題を除けば、ほとんどの部分でかなりうまく機能します。

そこで私は、今後のインターネット上の発言の正確さを賭けて、ごく小さな調整を提案します。

この調整は非常に小さく、非常に明白であるため、注意力が発明されて以来（2014 年）、誰もが気づいていました。

Softmax1と静かな注意

改良された Softmax Super-Mod フォーミュラが登場しました!

しかし、実際には分母に「1」が追加されるだけです。

著者らは、これにより、必要に応じてベクトル全体をゼロに近づけることができるが、そうでない場合は値が少し縮小されるだけであり、これは正規化プロセスで補正されると述べています。このうち、注目されたのが正規化処理です。

重要な違いは、負の限界値にあります。この場合、𝑥 のエントリはゼロより大幅に小さくなり、モデルは注釈を完全に回避しようとします。

元のソフトマックスの制限動作を比較します。

新しく改良された softmax1 制限動作:

オリジナルの softmax は常に同じ合計重みを生成することがわかります。softmax1 は、ほとんど同じに見えますが、負の半軸に脱出ハッチがあります。

さらに、softmax1 には他の機能もいくつかあります。たとえば、その導関数は正なので、勾配は常にゼロではありません。また、その合計は 0 から 1 の間なので、出力が制御不能になることはありません。

同時に、softmax1 は次の関数プロパティも維持します。つまり、出力ベクトル内の相対値は変更されません。

オリジナルのソフトマックスでは、精度を高めてもこれらの問題を解決できません。つまり、すべてのトランスフォーマーが影響を受けます。

softmax1 は表面的には非常に普通に見えますが、著者らはそれが量子化された外れ値フィードバックループ問題を解決できることに 99.44% の自信を持っています。

著者らは、注意のヘッドを静かなままにできるため、改良されたメカニズムを QuietAttention と呼んでいます。

これに基づいて、著者はテストを素早く記述できると考えています。

「各入力コンテキストの前にゼロベクトルを付け、選択したニューラルネットワークがバイアス (位置エンコーディングを含む) を追加しないことを確かめれば、ゼロベクトルは変更されずに通過し、後続の各ソフトマックス分母にユニットが追加されます。そうすれば、勾配コードについて心配する必要がありません。」

さらに、著者らは、固定埋め込みと特殊なプレフィックストークンを使用する LLaMA モデルを使用してこれを実行できると主張しています。

ただし、モデルを再トレーニングする必要があるため、まだ Raspberry Pi でこれを試さないでください。

ちなみに、これをテストする場合は、結果を著者に送ることを忘れないでください。著者は、今後の arXiV 論文で素晴らしい表を作成したいと考えています。

著者について

この記事の著者であるエヴァン・ミラーは、実のところそれほど有名ではありません。

確かに、彼の経歴や経歴は、一部の科学界の巨人たちのそれとは比べものにならない。しかし、それはこの記事で述べたような大きな発見をする彼の能力には影響しませんでした。

ミラー氏は実際には学部、修士、博士課程でコンピューターサイエンスを専攻していませんでした。

学部生として、彼はウィリアムズ大学で物理学を学びました。その後、彼はシカゴ大学で経済学の博士号を取得しました。

写真

ミラー氏は学術的なキャリアに加えて、現在多くのウェブサイトで使用されている非常に有名なランキングアルゴリズムを作成しました。

彼が設計した統計ソフトウェアは、一流の医学雑誌でも引用されています。

現在、ミラー氏はEppoというスタートアップ企業で統計エンジニアとして働いています。

写真

ミラー氏が自身のウェブサイトで示していることから、この人物はほぼ多才な人物であることがわかる。

私は 7 つのオープンソースプロジェクトに携わりました。

写真

様々な職業のブログ、記事、論文などは数え切れないほどあります。

プログラミング、応用数学、さらにはビジネスもあります。

写真

<<: 2023 年の ICML カンファレンスが開催されます! Google DeepMindの最新研究を簡単に見てみよう

>>: Amazon クラウドテクノロジーにより、Yidiantianxia は AIGC の波の中で新しいマーケティングパラダイムを構築できるようになりました。

GPUが急成長を遂げるGenAIの時代において、AMDはNvidiaのCUDAソフトウェアの堀を超えつつある

ChatGPTが危険にさらされています! 「Attention Formula」の8年前の謎のバグが初めて暴露、Transformerモデルに大きな影響が出る可能性

注意が1つずれている

すべては外れ値次第

Softmaxの問題点

Softmax1と静かな注意

著者について

GPUが急成長を遂げるGenAIの時代において、AMDはNvidiaのCUDAソフトウェアの堀を超えつつある

2021年、AIはどんな未来を迎えるのでしょうか？

人工知能の3つの浮き沈みと、寒い冬の可能性

ImageNet-1K 圧縮 20 倍、Top-1 精度が初めて 60% を超える: 大規模データセット蒸留の転換点

AI 生成コンテンツには著作権がありますか?裁判所はこう判決した

AIはCOVID-19検査の欠陥を明らかにし、647のAIツールが臨床使用に適していないことが研究で判明

機械学習プロジェクトの 87% が失敗する 10 の理由

推薦する

人間の動作生成を再構築し、拡散モデルと検索戦略を統合した新しいパラダイム、ReMoDiffuseが登場

顔認識は3月15日に再び命名されました。データのプライバシーとセキュリティをどのように保護するのでしょうか?

デジタルヘルスと医療AIベンチャーキャピタル投資は2021年第1四半期に42億ドルに達した

2019 年の人工知能のトレンドトップ 25!一つの記事が未来を予見する

1000ステップ未満の微調整で、LLaMAコンテキストは32Kに拡張されました。これは、Tian Yuandongチームの最新の研究です。

合成データとAIの「非現実的な」世界を探る

初めて精度が人間を超えました！アリババの機械読解力が世界記録を更新

DALL·Eの超進化により、写真の品質と芸術性が大幅に向上し、写真をシームレスに修正することもできるようになりました。

没入型環境向けロボットの開発における3つの課題