10000000000!マイクロソフトはTransformerを改良し、一度に多くのトークンを記憶できるようにした

10000000000!マイクロソフトはTransformerを改良し、一度に多くのトークンを記憶できるようにした

Microsoft Research Asia の最新の調査は少々衝撃的だ。

彼らは、実際にトークンを10 億にまで拡大した Transformer のバリアントを開発しました。

写真

どんなコンセプトですか?

現在、最も強力な GPT-4 は一度に最大32,000トークンしか処理できません。これは 50 ページのテキストに相当します。

わずか1分で数万語の小説を読み終えることができるクロードは、トークンを100k (100,000)しか持っていません。

一度に 10 億に拡大し、この数は理論上は無限であるということは、次のことを意味しているのではないでしょうか。

近い将来、コーパス全体、あるいはインターネットさえもシーケンスとして考えられるようになるのでしょうか?

写真

もしこれが本当なら、想像もつきません。

どうやってやるんですか?

大規模予測モデルの時代では、シーケンスの長さを拡張することが重要な要件になっています。

しかし、既存の方法では、計算の複雑さを解決するのが困難であったり、モデルの表現力を処理できなかったりして、長さが非常に制限されてしまいます。

ここで著者は、距離が増加するにつれて注意フィールド(モデルの認識範囲)を指数関数的に拡大できる「拡張注意」と呼ばれるメカニズムを適用する Transformer のバリアントである LongNet を提案しています。

具体的には、 Dilated Attention は通常の Transformer の注意メカニズムを置き換え、その一般的な設計原則は次のとおりです。

トークン間の距離が増加するにつれて、注意の分布が指数関数的に減少するものとします。

以下の構成要素に示されているように、拡張注意は、短期的および長期的な依存関係をモデル化するための一連の注意パターンで構成されています。シーケンスの長さに応じてパターンの数を拡張できます。

写真

実験により、拡張注意によってトークン間の線形計算複雑性と対数依存性を生成できることが示され、注意リソースは限られているがすべてのトークンにアクセスできるという矛盾が解決されました。

さらに、著者らは多頭拡張注意も導入しました。下の図に示すように、位置が継続的に変化するため、異なる頭部間の注意パターンは異なります。

写真

最終的な実装では、LongNet を高密度 Transformer に変換できるため、既存の Transformer 最適化手法(カーネル融合、量子化、分散トレーニングなど) をシームレスに統合できます

LongNet は線形複雑性を利用することで、分散アルゴリズムを使用してノード間で並列トレーニングを実行し、コンピューティングとメモリの制限を打破することもできます。

下の図に示すように、LongNet はシーケンス次元を分割して 2 つの GPU 上で並列にトレーニングされます。デバイスの数が増大しても、計算コストと通信コストはほぼ一定のままです。

写真

これにより、LongNet は、ほぼ一定の実行時間で、シーケンスの長さを最大 10 億トークンまで効率的に拡張できます(短いシーケンスのパフォーマンスを犠牲にすることなく)

写真

対照的に、通常の Transformer は依然として二次複雑性の影響に悩まされています。

実験的評価

著者らは、LongNet を通常の Transformer およびスパース Transformer と比較しました。

3 つのアーキテクチャの違いは、アテンション レイヤーのみです。モデルのシーケンス長は 2K から32Kに拡張され、バッチ サイズは縮小されて各バッチのトークン数は変更されません。

LongNetの場合、著者らはセグメント長w = {2048、4096、8192、16384、32768}、拡張率r = {1、2、4、6、12}を使用し、スパースアテンションの固定パターンを実装し、実験を公平にするために、LongNetの計算フロップに合わせてスパース比を調整しました。

(計算上の制限により、LongNet は 32K のシーケンス長までしか拡張できません)。

次の表は、Stack データセットにおける上記 3 つのモデルの結果を示しています。測定指標は困惑度であり、各モデルの異なるシーケンス長がテストされています。

入力の長さがモデルでサポートされている最大長を超える場合、著者らは最先端の言語モデル推論外挿法であるBlocked Causal Attention (BCA)を使用します。

さらに、絶対位置のエンコーディングは削除されます。

写真

結果は次のことを示しています:

まず、トレーニング中にシーケンスの長さを増やすと、一般的に言語モデルが向上します。

2 番目に、シーケンスの長さ(推論時)の外挿は、長さがモデルがサポートする長さよりもはるかに大きい場合にはうまく機能しません。

最後に、LongNet はあらゆる指標で他の 2 つのベースラインを上回っており、言語モデリングにおける有効性を実証していることがわかります。

さらに、著者らは、言語モデルのコンテキスト長を拡張する場合にも LongNet がより効果的な方法であることを実証しました。

写真

ネットユーザー:Memery があれば十分

この功績を読んで、多くの人が結局「必要なのは記憶力だけ」と結論づけた(犬の頭)

写真

写真

すごいですね!本当にそれが現実で再現可能であることを願っています。

写真

しかし、論争もある。

たとえば、この実験では LongNet の長さが 32k にしか拡張されず、10 億にはまだまだ遠いと不満を言う人もいました。

写真

また、この方法はあまり革新的ではなく、実際にはスパース・アテンション・モデルに似ていると多くの人が言っています。

写真

著者について

この論文には 7 人の著者がおり、全員が Microsoft Research Asia に所属しています。

共著者2名:

Microsoft Research Asia のインターンであるJiayu Dingは、北京郵電大学でコンピューターサイエンスの学士号と修士号を取得しています。

Ma Shuming は、 Microsoft Research Asia の自然言語コンピューティング グループの研究者です。2019 年に入社し、北京大学で学士号と修士号を取得しています。

責任著者は、Microsoft Research Asia の自然言語コンピューティング グループのグローバル リサーチ パートナーであるFuru Weiです。彼は武漢大学で博士号を取得しており、以前は IBM 中国研究所の研究員および香港理工大学電子計算学部の研究助手を務めていました。

論文アドレス: https://arxiv.org/abs/2307.02486

参考リンク:
[1] https://twitter.com/arankomatsuzaki/status/1676765133362675712
[2] https://twitter.com/AlphaSignalAI/status/1677009901334192143?s=20
[3] https://www.reddit.com/r/LocalLLaMA/comments/14rym30/longnet_scaling_transformers_to_1000000000_tokens/


<<:  5400億パラメータの大規模モデル進化ツリーが大幅に更新されました!最も詳細なプロンプトスキルを備えた85ページのLLM開発履歴

>>:  ファーウェイクラウド、AIで産業を変革するPangu Big Model 3.0とN-Teng AIクラウドサービスをリリース

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

LLM評価にArthur Benchを使用する方法を学ぶ

こんにちは、皆さん。私は Luga です。今日は、人工知能 (AI) エコシステムに関連するテクノロ...

TensorFlow の動的グラフツール Eager の使い方は?これは非常に簡単なチュートリアルです

昨年 11 月、Google Brain チームは、実行によって定義される新しいインターフェースであ...

Google の覇権は崩壊するのか?支配から疑惑へ:20年間インターネットのトレンドを形作ってきたGoogle検索は謎に包まれている

Googleで最初に出てくるのは、スタンフォード大学の元学長ゲルハルト・カスパーの名前です。 199...

...

TensorFlowに関する簡単な例

[[220444]]この記事では、TensorFlowの例をいくつか見て、テンソルテンソルまた、テン...

AI、ブロックチェーン、IoT、5Gの未来は統合だ

企業は業務を最適化し、現在の誇大宣伝サイクルを活用するために AI の導入に躍起になっています。報告...

...

自動運転トラックはレベル4を達成する可能性が最も高いが、自動運転車は2022年まで待たなければならない

過去10年間、テクノロジーおよび自動車の専門家は、人間の運転手による積極的な監視や入力なしに公道を走...

フルスタックが未来です。「組み立てられたコンピュータ」人工知能コンピューティングセンターはどこまで進化できるのでしょうか?

人工知能が徐々に社会経済の発展を促進する新たな原動力となるにつれ、あらゆる階層の人々が産業知能のアッ...

人間のフィードバックなしで調整します。田元東チームの新しい研究RLCD:無害で有益なアウトラインライティングはベースラインモデルを全面的に上回る

大規模モデルがより強力になるにつれて、低コストでモデルの出力を人間の嗜好や社会の公共価値により沿った...

AIがコンテンツ業界に力を与える: 確実に勝利するのは誰か、流れを変えるのは誰か

[51CTO.comより引用] 近年、AI技術は徐々にコンテンツ業界に浸透し、さまざまなコンテンツプ...

PHPの再帰アルゴリズムについて話す

PHP はまだ比較的よく使用されているので、PHP の再帰アルゴリズムを研究し、皆さんのお役に立てれ...

人工知能を使って手作業を置き換え、コストを削減し、効率を高めることは、まさに賢いことだ

「大丈夫ですよ。」 15年間工場で働いてきた「古い」労働者として、今日は人工知能についての私の見解を...