この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 Microsoft の新しい大規模モデル アーキテクチャが正式にTransformerに挑戦します。 論文のタイトルには次のように明記されています。 Retentive Network (RetNet): 大規模モデル分野における Transformer の後継。 写真 この論文では、Attention に代わる新しい Retention メカニズムを提案しています。マイクロソフトリサーチアジアと清華大学の研究者たちは、自分たちの野望を隠さず、大胆に次のように述べました。 RetNet は、優れたスケーリング結果、並列トレーニング、低コストの展開、効率的な推論を実現します。 これらの機能により、このアーキテクチャは大規模言語モデルにおける Transformer の強力な後継となります。 実験データは、言語モデリングタスクにおいて次のことを示しています。
また、モデルのサイズが一定規模を超えると、RetNet は Transformer よりも優れたパフォーマンスを発揮します。 写真 トランスフォーマーには本当に後継機があるのでしょうか?具体的な内容を見てみましょう。 「不可能の三位一体」を解く大規模言語モデルにおける Transformer の重要性は疑う余地がありません。 OpenAI の GPT シリーズ、Google の PaLM、Meta の LLaMA など、これらはすべて Transformer 上に構築されています。 しかし、Transformer は完璧ではありません。並列処理メカニズムは非効率的な推論を犠牲にし、各ステップの複雑さは O(N) です。Transformer はメモリを大量に消費するモデルであり、シーケンスが長くなるほど、占有するメモリも多くなります。 これまで、Transformer をさらに改良することを考えていました。しかし、主な研究の方向性は焦点が定まっていないようです。 線形アテンションは推論のコストを削減できますが、パフォーマンスは低くなります。 リカレントニューラルネットワークは並列にトレーニングできません。 言い換えれば、これらのニューラル ネットワーク アーキテクチャの前には「不可能三角形」があり、3 つの角は並列トレーニング、低コストの推論、優れたスケーラビリティを表しています。 写真 RetNet の研究者がやりたいのは、不可能を可能にすることです。 具体的には、RetNet は、Transformer に基づく標準的な自己注意メカニズムの代わりに、マルチスケール保持メカニズムを使用します。 標準的な自己注意メカニズムと比較して、保持メカニズムにはいくつかの特徴があります。 ソフトマックスの代わりに位置依存の指数関数的減衰項を導入すると、前のステップの情報を減衰形式で保持しながら計算が簡素化されます。 位置情報を表現するために複素空間を導入すると、絶対位置または相対位置のエンコーディングが置き換えられ、再帰形式への変換が容易になります。 さらに、保持メカニズムは、マルチスケールの減衰率を使用してモデルの表現力を高め、GroupNorm のスケーリング不変性を活用して保持層の数値精度を向上させます。 写真 △RetNetの二重表現 各 RetNet ブロックには、マルチスケール保持(MSR)モジュールとフィードフォワード ネットワーク(FFN)モジュールの 2 つのモジュールが含まれています。 保持メカニズムは、シーケンスを表現する 3 つの形式をサポートします。
その中で、並列表現により、RetNet は Transformer のような並列トレーニングに GPU を効率的に利用できるようになります。 再帰表現により推論の複雑さがO(1)に抑えられ、メモリ使用量とレイテンシが削減されます。 ブロック再帰により、長いシーケンスをより効率的に処理できます。 このようにして、RetNet は「不可能三角形」を可能にします。以下は、RetNet と他のインフラストラクチャの比較です。 言語モデリングタスクに関する実験結果は、RetNet の有効性をさらに実証しています。 結果は、RetNet が Transformer と同様のパープレキシティ(PPL、言語モデルの品質を評価する指標、小さいほど良い)を達成できることを示しています。 同時に、モデルパラメータが70億、入力シーケンス長が8kの場合、RetNetの推論速度はTransformerの8.4倍に達し、メモリ使用量は70%削減されます。 トレーニング中、RetNet はメモリ節約と加速の点でも標準の Transformer+FlashAttention よりも優れたパフォーマンスを発揮し、それぞれ25~50%と7 倍に達しました。 RetNet の推論コストはシーケンスの長さに依存せず、推論レイテンシはバッチ サイズに影響されないため、高いスループットが可能になることは注目に値します。 写真 さらに、モデルパラメータのスケールが 20 億を超える場合、RetNet は Transformer よりも優れたパフォーマンスを発揮します。 研究チームRetNet 研究チームは、Microsoft Research Asia と清華大学から構成されています。 二人は孫宇涛と董麗です。 清華大学コンピューターサイエンス学部の学生である Sun Yutao さんは、現在 Microsoft Research Asia でインターンシップを行っています。 Dong Li は、Microsoft Research Asia の研究員です。彼はまた、大きな注目を集めた論文「10億個のトークンを記憶できるトランスフォーマー」の著者の一人でもあります。 RetNet 論文の責任著者は Wei Furu です。彼は Microsoft Research Asia のグローバル リサーチ パートナーであり、10 億トークンの Transformer も彼の研究チームから生まれました。 論文アドレス: https://arxiv.org/abs/2307.08621 |
<<: FlashAttention v2 は標準の Attention より 5 ~ 9 倍高速です。大規模なモデルで使用されます。
>>: スタンフォード大学の博士が独力で注意力を9倍に加速! FlashAttention はビデオメモリを消費し、Transformer のコンテキストの長さが劇的に増加します
顔認識技術は国民の自由に深刻な脅威を与えるほど強力になっている。それにもかかわらず、業界は繁栄し続け...
車両の電動化が徐々に進むにつれ、電子制御ユニット(ECU)が車全体を制御するようになりました。アンチ...
RPA コンサルティング サービスは、製造業者がソフトウェア ロボットを使用してさまざまな反復的なル...
[[325184]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
近年、人工知能は急速に発展し、家庭、金融、交通、医療などさまざまな分野に深く融合し、人々の生活はより...
有名アイドルプロジェクト「ラブライブ!」がAI論文を発表しました。そうです。最近、プレプリント論文プ...
人工知能の急速な発展に伴い、音声認識は多くのデバイスの標準機能になり始めています。音声認識はますます...
ディープラーニングアルゴリズムは、マシンビジョンにおける巧妙な受信機コンバーターのようなものです。柔...
[[182024]]これは Wolfgang Beyer によるブログ投稿です。この論文では、Te...
プロンプトに応じてテキスト、画像、その他のコンテンツを生成できる生成型人工知能 (AI) の企業導...
この記事では、機械学習について簡単に紹介します。この記事の目的は、機械学習の知識がない人が機械学習を...