ビッグデータダイジェスト制作 AIサークルが爆発した! Microsoft が立ち上げた LONGNET により、Transformer のトークン処理能力が 10 億以上に拡大されました。 写真 ご存知のとおり、Transformer は短いシーケンスを理解して生成する能力を誰もが賞賛していますが、長いシーケンスに対しては常に「無力」でした。 マイクロソフトの今回の動きは、短距離走のチャンピオンにマラソンを高速で走る能力を与えるのと同じことだ。結局のところ、長いシーケンスを処理しているときでも、短いシーケンスのタスクを処理するときに優れたパフォーマンスを維持します。 LONGNET は、短いシーケンスでも損失なく、シーケンスの長さを 10 億トークン以上に拡張できる Transformer のバリアントです。 写真 これに対してネットユーザーからは「これは革命だ!」というコメントが寄せられた。 この研究は、長いシーケンスをモデル化するための新しいアイデアと可能性を提供するため、将来的には、インターネットコーパス全体をトークンとして扱うことも可能になります。同時に、より複雑な AI の相互作用が可能になることを意味します。 LONGNET カプセル化解除シーケンスの長さTransformer モデルは、多くの AI システムのコア アーキテクチャです。トークンで構成された情報シーケンスを処理してテキストを理解または生成します。 注: トークンは短い単語または完全な文になります。 グローバルアテンションメカニズム グローバルアテンションはトランスフォーマーの理解能力の鍵であり、1 つのトークンが他のすべてのトークンと「相互作用」できるようにします。シーケンスが長くなると、相互作用の数は指数関数的に増加し、計算の複雑さが大幅に増加します。 上記の段落は少し抽象的なので、説明させてください。部屋にいる各人と個別に会話をしようとしているところを想像してください。人数が少なければ、これは管理可能です。しかし、人数が増えるにつれて、すぐに耐えられなくなってしまいました。 ChatGPT は OpenAI によって Transformer に基づいて開発されました。文脈的な会話に使用すると、以前に言ったことを「忘れてしまう」ことがよくあります。 今後、LONGNET を使用すると、ChatGPT の無制限の会話機能が解除され、最初の質問が記憶されます。 LONGNETの核心:注目の力を拡大する 写真 LONGNET に関するこの研究で、Microsoft の研究者は Transformer モデルに「拡張注意」と呼ばれる新しい概念を導入し、モデルがシーケンスを処理する方法を根本的に変えました。 拡張注意の優れた点は、すべてのシーケンスが他のすべてのシーケンスと相互作用することなく、距離が増加するにつれてより多くのトークンに焦点を合わせることができることです。 群衆の中にいるとき、近くにいる人や遠くにいる人に注意を払うことはできますが、一人一人と個別に話す必要はありません。 図 1: LONGNET で使用される拡張注意の構成要素。短期および長期の依存関係をモデル化するためのさまざまな注意モードが含まれています。注意パターンの数は、シーケンスの長さに応じて調整できます。 これはスパースアテンションモデルと非常に似ていますが、セグメントツリーの考え方を借用しています。シーケンスの長さに応じて指数関数的に増加する相互作用の数を線形増加にすることができます。つまり、シーケンスが長くなるにつれて、計算量の増加がより管理しやすくなります。 注意を拡張すると、LONGNET の効率が向上するだけでなく、柔軟性も向上します。すべてのシーケンスと対話する必要がないため、タスクに応じてフォーカスを調整することもできます。これにより、短いシーケンスと長いシーケンスの両方の処理に効果的です。 LONGNET は一般的な言語タスクでも優れたパフォーマンスを発揮します。つまり、これは長いシーケンスに特化したツールであるだけでなく、多くのタスクを処理できる堅牢で柔軟なモデルでもあるということです。 図のキャプション: さまざまな方法間の計算の複雑さの比較。 N はシーケンスの長さ、d は隠れ層の次元です。 さらに、研究者らは LONGNET を従来の Transformer および Sparse Transformer と比較しました。比較のために、これらのモデルのシーケンス長を 2,000 トークン (2K) から 32,000 トークン (32K) に拡張しました。公平な比較を確実にするために、各モデルのパラメータを調整しました。ある程度の計算上の制限があるにもかかわらず、実験結果は依然として非常に印象的です。 同時に、モデルパラメータは 1 億 2000 万から 27 億に増加しました。LongNet の計算の複雑さが増すにつれて、テスト セットの PPL も減少しました。これは、LongNet もスケーリング則を満たしていることを示しています。より大きな言語モデルをトレーニングすると、パフォーマンスが向上する可能性があります。 LONGNET には制限がないわけではありません。たとえば、拡張アテンション メカニズムにより計算の複雑さが標準の Transformer モデルよりも低いレベルにまで軽減されますが、10 億を超えるトークンのシーケンスを処理するには依然として多くのリソースが必要です。さらに、パフォーマンスは優れていますが、さらにテストと検証が必要になる場合があります。 Microsoft は、LONGNET の将来の研究方向として、「拡張された注意メカニズムをさらに最適化するにはどうすればよいか」も提案しました。拡張注意を補完できる他のシーケンス処理技術はありますか? LONGNET を既存の AI システム (ChatGPT など) に効果的に統合するにはどうすればよいですか? 論文の宛先:https://arxiv.org/abs/2307.02486 参考文献:https://thetechpencil.com/revolutionizing-ai-with-longnet-microsoft-breakthrough-in-handling-billion-token-sequences-59b05ef7d6e8 翻訳: https://mp.weixin.qq.com/s/Qns4Oi8-YHWb7WP3_gGZUA |
<<: 最高年収は約56万! 2023年の最新のAIGC雇用動向レポートが発表されました
>>: Google AI はすべてを食べています!すべての公開コンテンツはAIトレーニングのためにクロールされ、プライバシーポリシーが更新されました
「AI+ヘルスケア」は現在最も注目されている人工知能の応用シナリオの1つであり、人工知能技術は医療・...
[[375636]] 2020年11月下旬、イランのトップ核科学者モフセン・ファクリザデ氏がテヘラ...
人工知能は急速に発展しており、その理論と技術はますます成熟し、その応用分野は絶えず拡大しています。人...
こんにちは、みんな。今日は、ChatGPT を使用して安全ヘルメットの着用検出を開発する方法を紹介し...
[[327813]]新たな研究によると、人工知能(AI)は、自撮り写真だけに基づいて人の性格を識別す...
いくつかの指標によれば、生成的敵対的ネットワーク (GAN) の研究は過去 2 年間で大きな進歩を遂...
[[257501]] Windows 7 は 2020 年 1 月にその歴史的使命を終えるが、マイク...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
まとめクリックスルー率の推定などのオンラインリアルタイム応答システムでは、応答時間に関して非常に厳し...
[[260485]] [51CTO.com からのオリジナル記事] 哲学にさまざまな流派があるように...
背景モノのインターネット (IoT) の継続的な発展は、ここ数年にわたって現実のものとなってきました...
薬を買うとき、自動販売機のように、セルフサービス機で直接注文して、必要なときにすぐに受け取ることはで...