オープンソースのアルパカ モデル LLaMA コンテキストは、1 つの簡単な変更だけで GPT-4 と同等になります。 Meta AI が提出したばかりの論文によると、LLaMA コンテキスト ウィンドウは、2k から 32k に拡張した後、1000 ステップ未満の微調整しか必要としないことが示されています。 事前トレーニングと比較するとコストはごくわずかです。 コンテキスト ウィンドウを拡張すると、AI の「作業メモリ」容量が増加します。具体的には、次のことが可能になります。
さらに重要な意義は、LLaMA に基づくすべての大規模アルパカ モデル ファミリが低コストでこの方法を採用し、集合的に進化できることです。 Alpaca は現在、最も強力な総合機能を備えたオープンソースの基本モデルであり、完全にオープンソースの商用大規模モデルや垂直産業モデルを数多く生み出してきました。 論文の責任著者である田元東氏も、この新たな進歩を自身のWeChatモーメントで興奮気味に共有した。 RoPEに基づく大規模モデルを使用できるこの新しい方法は位置補間と呼ばれ、RoPE (回転位置エンコーディング) を使用する大規模モデルに適用できます。 RoPE は、2021 年に Zhuiyi Technology チームによって提案され、現在では大規模モデルで最も一般的な位置エンコード方法の 1 つになっています。 ただし、このアーキテクチャで外挿を直接使用してコンテキスト ウィンドウを拡張すると、自己注意メカニズムが完全に破壊されます。 具体的には、事前トレーニングのコンテキストの長さを超える部分では、モデルの困惑度がトレーニングされていないモデルと同じレベルに急上昇します。 新しい方式では、位置インデックスを線形に減らし、前後の位置インデックスと相対距離を揃える範囲を拡大するように変更されています。 両者の違いを示すには、画像を使用する方が直感的です。 実験結果によると、新しい方法は 7B から 65B の範囲の大規模な LLaMA モデルに効果的です。 長いシーケンスの言語モデリング、パスキーの取得、長いドキュメントの要約では、パフォーマンスの大幅な低下は見られません。 実験に加えて、新しい方法の詳細な証明も論文の付録に記載されています。 あと3つコンテキスト ウィンドウは、オープン ソースのビッグ モデルと商用のビッグ モデル間の重大なギャップでした。 たとえば、OpenAI の GPT-3.5 は最大 16k、GPT-4 は 32k、AnthropicAI の Claude は最大 100k をサポートします。 同時に、LLaMA や Falcon などの多くのオープンソースの大規模モデルはまだ 2k のままです。 現在、Meta AI の新たな成果により、このギャップは直接埋められています。 コンテキスト ウィンドウの拡張も、大規模モデル研究の最近の焦点の 1 つです。位置補間法に加えて、業界の注目を集めている他の多くの試みがあります。 1. 開発者の kaiokendev は、技術ブログで LLaMa コンテキスト ウィンドウを 8k に拡張する方法を検討しました。 2. データセキュリティ企業 Soveren の機械学習責任者 Galina Alperovich 氏は、コンテキスト ウィンドウを拡張するための 6 つのヒントを記事にまとめました。 3. Mila、IBM、その他の機関のチームも論文の中で、Transformer の位置エンコーディングを完全に削除しようと試みました。 必要な方は下のリンクをクリックしてご覧ください〜 メタ論文: https://arxiv.org/abs/2306.15595 コンテキストの拡張は難しい…しかし不可能ではないhttps://kaiokendev.github.io/context LLM の 100K コンテキスト ウィンドウの背後にある秘密のソース https://blog.gopenai.com/how-to-speed-up-llms-and-use-100k-context-window-all-tricks-in-one-place-ffd40577b4c 位置エンコーディングなし論文 https://arxiv.org/abs/2305.19466 |
<<: Moka、業界初となるAIネイティブHR SaaS製品「Moka Eva」をリリース、AGI時代を見据えた準備万端
[[279350]] OpenAI のロボットハンドは片手でルービックキューブを解くことを学習し、...
2050年には人類は「不死」になる!このトピックを見て驚きましたか?驚きましたか?不死は、すべての...
今年に入ってから、新型コロナウイルス感染症の継続的な感染拡大により世界的に景気が低迷し、多くの国や地...
多くの企業が AI テクノロジーの開発と導入に数十億ドルを投資しています。知的財産の問題、潜在的な規...
9月28日早朝、Meta Connect 2023において、MetaはMeta AIという新しいチャ...
[[434376]]当時、Dota 2 をプレイする OpenAI Five のトレーニングには ...
[51CTO.com からのオリジナル記事] 2020 年 5 月 5 日午前 11 時 (東部夏時...
ソフトウェア アーキテクトとして、私は人工知能 (AI) の発展とさまざまな業界でのその応用を目の当...
1. ロジスティック回帰ロジスティック回帰。まず線形回帰から始めます。線形回帰の出力は実用的な意味を...
米国計算機協会(ACM)は、2017年のチューリング賞を、チップ業界の巨匠2名、スタンフォード大学元...
一日中懸命に働いた労働者たちは、疲れた体を引きずりながら家に戻り、ついに「解放された農奴が歌う」生活...