「注目の式」に8年間存在していたバグが外国人によって発見された? 一瞬にして、この話題はインターネット上で爆発的に広まりました。 GPT-4、Lalma 2、PaLM など、Transformer に基づく現在の主流モデルが影響を受けます。 スタートアップ企業Eppoのエンジニアであるエヴァン・ミラー氏は、本日のブログ投稿でこの発見を発表し、次のように述べた。 研究者は先月このバグを特定しましたが、簡単な修正方法を見逃していました。なぜ LLM 設計者は Softmax の使用をやめるべきなのでしょうか? 写真 では、どのようなバグが 8 年間も隠れたままでいられるのでしょうか? ブログ投稿で、著者はウィトゲンシュタインの意味深な一文を引用した。「言葉で表現できないことについては、沈黙しなければならない。」 写真 注意が1つずれているこのブログ投稿のタイトルは「Attention is Off By One」です。 写真 この数式に 1 つずれたエラーがあることがわかりますか? 写真 ご存知のとおり、注意の公式は現代の人工知能の中核となる方程式ですが、その中にバグがあり、先週、著者のエヴァン・ミラー氏を激怒させました。 そこでミラー氏は、脆弱性についてブログ記事を書き、修正方法を提案することにしました。 その中で、彼は、現在の世代の AI モデルが重要な場所でオフバイワンエラーに悩まされており、それがすべての Transformer モデルの圧縮と展開を困難にしていることについて説明しています。 しかし、著者は、これは単なる意見記事であると強調しましたが、もしオンライン上で誰かがこれが正しいことを証明するために実験を行いたいのであれば、協力して検証することができます。 すべては外れ値次第まず、オフバイワンエラーがなぜ重要なのかについて説明しましょう。 ChatGPT はうまく動作しますが、何か問題はありますか? 私が何かがおかしいことに初めて気づいたのは、自分の仕事に集中し、Mac Mini や Rasberry Pi に大きなモデルを押し込む技術や、LLM Edgers を介して家庭用サーモスタットのロックを解除する技術など、定量的な研究論文を読んでいたときでした。 AI 空間では、誰もが RAM によって制限されます。 したがって、使用する RAM が少ないほど、クラウドでもエッジ デバイスでも、より優れた機能を実現できます。 LLM には数十億の重みがあり、それらの重みを縮小できれば、言語を使用する個人的な動機に応じて、より良いソネットを書いたり、より良いエッセイを盗用したり、世界の終わりを早めたりすることができます。 RAM は情報を保存しますが、これは同義語のように聞こえるかもしれません。情報は負の対数確率であり、これは物事を保存するために必要なビット数です。 数字のストリームが予測可能であれば、たとえば常に有限の範囲内であれば、必要なビット数は少なくなります。 非常に大きな数字が時々現れるなど、数字のストリームが予測できない場合は、この巨大な数字をエンコードするためにさらに多くの 2 進数が必要になります。 これが LLM で起こっていることです (現時点では理由は部分的にしか理解されていません)。 Transformer モデルにはこれらの外れ値の重みが含まれており、桁違いのアクティベーションを生成します。 しかし、誰もそれらを排除することはできません。これらのメガロドン (研究用コマンドライン ツール) は、これらのモデルの実行に不可欠であるようです。 しかし、それらの存在は、優れたモデルを構築する前にニューラル ネットワークについて私たちが知っていたことすべてと矛盾しています。 これらの外れ値について議論した論文は数多くあり、1 と 0 の数を減らしてエンコードするためのさまざまなビット バーニング スキームが考案されてきました。 なぜなら、現時点では、通常のスケーリングおよびバイアスされた整数量子化を使用するとパフォーマンスの低下が非常に深刻になるからです。 これらすべてを最もよく分析しているのは、Qualcomm AI Research の論文「Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing」です。 写真 論文アドレス: https://arxiv.org/pdf/2306.12929.pdf 著者らは、これらの外れ値の存在を注意メカニズムのソフトマックス関数に帰着しています。この一見無害な指数関数が、このような深刻な尖度異常を生み出す可能性があることに誰も気づいていませんでした。 そして研究者たちはこの境界エラーをほぼ発見しました。 これに対し著者は、クアルコムの研究者らはまだ彼の電子メールに返信していないが、このように国際的な学術コミュニティに訴えていく必要があると述べた。リンク先の論文を読む場合は、そのアドバイスを無視してください。 プルーニングされたソフトマックスには回転ゼロ勾配があり、ゲート付きアテンションの提案は機能しますが、増分的な障害のみに対処するために何百万もの新しいパラメータを導入します。 私には、ここには単純で明白な解決策があるように思えますが、私が読んだ限りでは、まだ誰もそれを試そうと考えていません。 次に、ソフトマックス関数について、そしてそれが注意を扱う際に最適なツールではない理由について説明します。 Softmaxの問題点このエラーを説明するには、注意メカニズムの目的を理解する必要があります。 同様に、数値エラーのほとんどは、プログラマーが方程式を誤って実装したために発生します。 ただし、問題のあるコードではなく問題のある数学を扱っている場合は、方程式がどこから来たのか、そしてそれを修正するために何をすべきかを理解する必要があります。 このため、著者は arXiV の論文を約 50 件読んですべてを理解する必要がありました。 まず、入力文字列内の単語を表す浮動小数点ベクトルである入力埋め込みから始めます。 このベクトルは年々高くなっているようです。たとえば、Meta の最新の LLaMA 2 モデルでは、長さ 3,204 の埋め込みベクトルが使用されています。 半精度浮動小数点計算では、通常 30,000 ~ 50,000 のエントリを含む語彙内の 1 つの単語を表すだけで 6KB 以上を消費します。 さて、メモリを重視する C プログラマーであれば、これらの AI の愚か者が、2 バイトしかかからないものを表現するために 6 KB を使用しているのはなぜかと疑問に思うかもしれません。 語彙が より小さい場合、エントリを表すのに必要なのは 16 ビットだけですよね? Transformer が実際に行っていることはまさにこれです。入力ベクトルを同じサイズの出力ベクトルに変換し、この最終的な 6 KB の出力ベクトルは、現在の単語の後に続く単語を予測するために、絶対にすべてをエンコードする必要があります。 Transformer の各レイヤーの役割は、元の単語ベクトルに実際に情報を追加することです。 これが残余 (旧称スキップ) 接続の機能です。注意メカニズムが行うことは、元の 2 バイトの情報に補足資料を追加し、より大きなコンテキストを分析して兆候を探すことだけです。 たとえば、「pupil」という単語は生徒を指し、「pupil」はあなたの生徒を指しません。注意メカニズムを何十回も繰り返すと、英語とその豊富な内容すべてを習得できます。 さて、Transformer の最後のステップは、この出力ベクトルを長方形行列で乗算し、結果として得られる語彙長ベクトルをソフトマックスに詰め込み、それらの指数出力を次の単語の確率として扱うことです。 これは理にかなっています。しかし、誰もがそれが完全に真実ではないことを知っています。 これらの出力確率が正しいと見なすモデルはないため、代わりにすべての実装と他のすべてのモデルはサンプリング メカニズムを使用して、ソフトマックスが低い確率を過剰に表しているという事実を隠します。 これはすべて順調です。 出力ステップのソフトマックスは語彙内の各単語の勾配を提供します。これは、より適切な単語が出てくるまでは合理的な選択です。 しかし、著者が主張したいのは、Transformer の出力ソフトマックスは注意メカニズムの内部ソフトマックスとは異なる目的を持っているため、後者をすべて取り除くか、少なくともその分母を便利なもので支える必要があるということです。 ではソフトマックスとは何でしょうか? ソフトマックスはもともと統計力学で生まれ、エネルギーレベルに基づいて状態分布を予測するために使用されます。 経済学者は、人々の線形効用関数のノイズ項がたまたまガンベル分布に従う場合、誰かがアイテムを選択する確率は効用入力の指数に比例することに気づきました。 これにより、softmax は多項式論理関数でも有用になります。 ソフトマックスは、実数を合計が 1 になる確率にマッピングするチート コードであると言えます。 物理学では非常にうまく機能しますが、経済学では少し不正確ですが、機械学習の分野に入ると、離散的な選択が関係する場合は常に頼りになるもののようです。 これがソフトマックスのコアメカニズムです。粒子がエネルギー状態を選択する場合でも、消費者が車を選択する場合でも、競合する選択肢の中から選択を強制します。 つまり、ソフトマックス メカニズムがまったく選択を行わない場合は、ソフトマックスを変更する必要があります。そうしないと、実際のデータに遭遇したときにソフトマックスが歪みを生成することが予想されます。 LLM の場合の歪みの 1 つは、非意味的なトークン (コンマなど) に重みを付けすぎることです。この重みは、圧縮が困難な外れ値になります。 これに対して、Qualcomm の AI 研究者は、LLM における異常な活性化の 97% 以上が空白と句読点の位置で発生していることを発見しました。 何が問題になるのでしょうか? 次に、Attention におけるソフトマックスの使用についてさらに詳しく調べ、どこで問題が発生するかを見てみましょう。 これを分解すると、デコーダーのみのモデル(つまり、ChatGPT 以降のすべてのモデル)では、𝑄、𝐾、および𝑉はすべて同じ入力シーケンスから取得されます。 途中で異なる方法で投影されるため同一ではありませんが、各レイヤーでは同じ注釈付き(追加された)埋め込みベクトルから始まります。 現在: 𝑄𝐾^𝑇 は、異なる位置にあるトークン (埋め込み) ベクトル間の相関関係を探しています。実際には、各列と行がトークンの位置に対応する相関 (1/√𝑑 でスケーリングされたドット積) 値の正方行列を構築しています。 この正方行列の各行はソフトマックスで処理され、結果として得られる確率は𝑉行列の値ベクトルの混合関数として使用されます。確率混合𝑉行列は入力ベクトルに追加され、さらなる処理のためにニューラル ネットワークに渡されます。 マルチヘッド アテンションは、各レイヤーで同時にこのプロセスを実行し、複数の処理を実行します。基本的には埋め込みベクトルを複数の部分に分割し、各ヘッドはベクトル全体の情報を使用して出力ベクトルの(重複しない)セグメントに注釈を付けます。 オリジナルの Transformer 論文の連結操作について混乱している場合は、次のような処理が行われていることを意味します。ヘッド 1 はセグメント 1 に情報を追加し、ヘッド 2 はセグメント 2 に情報を追加します。 ソフトマックスを使用する場合の問題は、出力ベクトルに追加する情報がない場合でも、各アテンション ヘッドに強制的に注釈を付けなければならないことです。 離散的な選択の間でソフトマックスを使用することは問題ありませんが、オプションの注釈(つまり、追加への入力)として使用するのは、あまり良くありません。その中で、マルチヘッドアテンションは、一般ヘッドよりも専門ヘッドが「パス」を望む可能性が高いため、この問題を悪化させます。 現在、ソフトマックスは全面的に置き換えられるはずですが、アテンション ヘッドが空の注釈を出力できないという 1 つの小さな問題を除けば、ほとんどの部分でかなりうまく機能します。 そこで私は、今後のインターネット上の発言の正確さを賭けて、ごく小さな調整を提案します。 この調整は非常に小さく、非常に明白であるため、注意力が発明されて以来(2014 年)、誰もが気づいていました。 Softmax1と静かな注意改良された Softmax Super-Mod フォーミュラが登場しました! しかし、実際には分母に「1」が追加されるだけです。 著者らは、これにより、必要に応じてベクトル全体をゼロに近づけることができるが、そうでない場合は値が少し縮小されるだけであり、これは正規化プロセスで補正されると述べています。このうち、注目されたのが正規化処理です。 重要な違いは、負の限界値にあります。この場合、𝑥 のエントリはゼロより大幅に小さくなり、モデルは注釈を完全に回避しようとします。 元のソフトマックスの制限動作を比較します。 新しく改良された softmax1 制限動作: オリジナルの softmax は常に同じ合計重みを生成することがわかります。softmax1 は、ほとんど同じに見えますが、負の半軸に脱出ハッチがあります。 さらに、softmax1 には他の機能もいくつかあります。たとえば、その導関数は正なので、勾配は常にゼロではありません。また、その合計は 0 から 1 の間なので、出力が制御不能になることはありません。 同時に、softmax1 は次の関数プロパティも維持します。つまり、出力ベクトル内の相対値は変更されません。 オリジナルのソフトマックスでは、精度を高めてもこれらの問題を解決できません。つまり、すべてのトランスフォーマーが影響を受けます。 softmax1 は表面的には非常に普通に見えますが、著者らはそれが量子化された外れ値フィードバック ループ問題を解決できることに 99.44% の自信を持っています。 著者らは、注意のヘッドを静かなままにできるため、改良されたメカニズムを QuietAttention と呼んでいます。 これに基づいて、著者はテストを素早く記述できると考えています。 「各入力コンテキストの前にゼロ ベクトルを付け、選択したニューラル ネットワークがバイアス (位置エンコーディングを含む) を追加しないことを確かめれば、ゼロ ベクトルは変更されずに通過し、後続の各ソフトマックス分母にユニットが追加されます。そうすれば、勾配コードについて心配する必要がありません。」 さらに、著者らは、固定埋め込みと特殊なプレフィックストークンを使用する LLaMA モデルを使用してこれを実行できると主張しています。 ただし、モデルを再トレーニングする必要があるため、まだ Raspberry Pi でこれを試さないでください。 ちなみに、これをテストする場合は、結果を著者に送ることを忘れないでください。著者は、今後の arXiV 論文で素晴らしい表を作成したいと考えています。 著者についてこの記事の著者であるエヴァン・ミラーは、実のところそれほど有名ではありません。 確かに、彼の経歴や経歴は、一部の科学界の巨人たちのそれとは比べものにならない。しかし、それはこの記事で述べたような大きな発見をする彼の能力には影響しませんでした。 ミラー氏は実際には学部、修士、博士課程でコンピューターサイエンスを専攻していませんでした。 学部生として、彼はウィリアムズ大学で物理学を学びました。その後、彼はシカゴ大学で経済学の博士号を取得しました。 写真 ミラー氏は学術的なキャリアに加えて、現在多くのウェブサイトで使用されている非常に有名なランキングアルゴリズムを作成しました。 彼が設計した統計ソフトウェアは、一流の医学雑誌でも引用されています。 現在、ミラー氏はEppoというスタートアップ企業で統計エンジニアとして働いています。 写真 ミラー氏が自身のウェブサイトで示していることから、この人物はほぼ多才な人物であることがわかる。 私は 7 つのオープン ソース プロジェクトに携わりました。 写真 様々な職業のブログ、記事、論文などは数え切れないほどあります。 プログラミング、応用数学、さらにはビジネスもあります。 写真 |
<<: 2023 年の ICML カンファレンスが開催されます! Google DeepMindの最新研究を簡単に見てみよう
>>: Amazon クラウド テクノロジーにより、Yidiantianxia は AIGC の波の中で新しいマーケティング パラダイムを構築できるようになりました。
[[348678]] 5G、人工知能、ブロックチェーンなどの新技術の継続的な進歩は、あらゆる企業の変...
分布の不一致を避けるために、強化学習のトレーニングはオンラインで環境と対話する必要がありますか? G...
世界のPC業界が年々衰退し、スマートフォン市場が飽和状態に陥る中、ビッグデータ、クラウドコンピューテ...
人工知能の基礎教育を強化することは、将来の社会の発展に備えるための避けられない選択であり、要件です。...
[[189448]]以下は、ニューラル ネットワーク モデルにおける 4 つのシーケンス デコード ...
[[433838]]先日、EMNLP 2021 アワードが発表されました!最優秀長編論文と最優秀短...
3Dバイオプリンティング技術は、3Dプリンターを使用して細胞や生物学的材料を含む「インク」を特定の形...
Indeed Recruitment Network が 2019 年の給与リストを発表したところ...
中国は最近、第14次5カ年計画の草案と2035年までの長期目標を発表し、各界から激しい議論を巻き起こ...
誰もが知っているように、昔は銀行に行って業務を処理するには長い列に並ばなければなりませんでした。業務...