AIサークルが爆発した！マイクロソフトがトランスフォーマーのブロックを解除、シーケンスの長さが10億以上に拡大

ビッグデータダイジェスト制作

AIサークルが爆発した！ Microsoft が立ち上げた LONGNET により、Transformer のトークン処理能力が 10 億以上に拡大されました。

写真

ご存知のとおり、Transformer は短いシーケンスを理解して生成する能力を誰もが賞賛していますが、長いシーケンスに対しては常に「無力」でした。

マイクロソフトの今回の動きは、短距離走のチャンピオンにマラソンを高速で走る能力を与えるのと同じことだ。結局のところ、長いシーケンスを処理しているときでも、短いシーケンスのタスクを処理するときに優れたパフォーマンスを維持します。

LONGNET は、短いシーケンスでも損失なく、シーケンスの長さを 10 億トークン以上に拡張できる Transformer のバリアントです。

写真

これに対してネットユーザーからは「これは革命だ！」というコメントが寄せられた。

この研究は、長いシーケンスをモデル化するための新しいアイデアと可能性を提供するため、将来的には、インターネットコーパス全体をトークンとして扱うことも可能になります。同時に、より複雑な AI の相互作用が可能になることを意味します。

LONGNET カプセル化解除シーケンスの長さ

Transformer モデルは、多くの AI システムのコアアーキテクチャです。トークンで構成された情報シーケンスを処理してテキストを理解または生成します。

注: トークンは短い単語または完全な文になります。

グローバルアテンションメカニズム

グローバルアテンションはトランスフォーマーの理解能力の鍵であり、1 つのトークンが他のすべてのトークンと「相互作用」できるようにします。シーケンスが長くなると、相互作用の数は指数関数的に増加し、計算の複雑さが大幅に増加します。

上記の段落は少し抽象的なので、説明させてください。部屋にいる各人と個別に会話をしようとしているところを想像してください。人数が少なければ、これは管理可能です。しかし、人数が増えるにつれて、すぐに耐えられなくなってしまいました。

ChatGPT は OpenAI によって Transformer に基づいて開発されました。文脈的な会話に使用すると、以前に言ったことを「忘れてしまう」ことがよくあります。

今後、LONGNET を使用すると、ChatGPT の無制限の会話機能が解除され、最初の質問が記憶されます。

LONGNETの核心：注目の力を拡大する

写真

LONGNET に関するこの研究で、Microsoft の研究者は Transformer モデルに「拡張注意」と呼ばれる新しい概念を導入し、モデルがシーケンスを処理する方法を根本的に変えました。

拡張注意の優れた点は、すべてのシーケンスが他のすべてのシーケンスと相互作用することなく、距離が増加するにつれてより多くのトークンに焦点を合わせることができることです。

群衆の中にいるとき、近くにいる人や遠くにいる人に注意を払うことはできますが、一人一人と個別に話す必要はありません。

図 1: LONGNET で使用される拡張注意の構成要素。短期および長期の依存関係をモデル化するためのさまざまな注意モードが含まれています。注意パターンの数は、シーケンスの長さに応じて調整できます。

これはスパースアテンションモデルと非常に似ていますが、セグメントツリーの考え方を借用しています。シーケンスの長さに応じて指数関数的に増加する相互作用の数を線形増加にすることができます。つまり、シーケンスが長くなるにつれて、計算量の増加がより管理しやすくなります。

注意を拡張すると、LONGNET の効率が向上するだけでなく、柔軟性も向上します。すべてのシーケンスと対話する必要がないため、タスクに応じてフォーカスを調整することもできます。これにより、短いシーケンスと長いシーケンスの両方の処理に効果的です。

LONGNET は一般的な言語タスクでも優れたパフォーマンスを発揮します。つまり、これは長いシーケンスに特化したツールであるだけでなく、多くのタスクを処理できる堅牢で柔軟なモデルでもあるということです。

図のキャプション: さまざまな方法間の計算の複雑さの比較。 N はシーケンスの長さ、d は隠れ層の次元です。

さらに、研究者らは LONGNET を従来の Transformer および Sparse Transformer と比較しました。比較のために、これらのモデルのシーケンス長を 2,000 トークン (2K) から 32,000 トークン (32K) に拡張しました。公平な比較を確実にするために、各モデルのパラメータを調整しました。ある程度の計算上の制限があるにもかかわらず、実験結果は依然として非常に印象的です。

同時に、モデルパラメータは 1 億 2000 万から 27 億に増加しました。LongNet の計算の複雑さが増すにつれて、テストセットの PPL も減少しました。これは、LongNet もスケーリング則を満たしていることを示しています。より大きな言語モデルをトレーニングすると、パフォーマンスが向上する可能性があります。

LONGNET には制限がないわけではありません。たとえば、拡張アテンションメカニズムにより計算の複雑さが標準の Transformer モデルよりも低いレベルにまで軽減されますが、10 億を超えるトークンのシーケンスを処理するには依然として多くのリソースが必要です。さらに、パフォーマンスは優れていますが、さらにテストと検証が必要になる場合があります。

Microsoft は、LONGNET の将来の研究方向として、「拡張された注意メカニズムをさらに最適化するにはどうすればよいか」も提案しました。拡張注意を補完できる他のシーケンス処理技術はありますか? LONGNET を既存の AI システム (ChatGPT など) に効果的に統合するにはどうすればよいですか?