静かに、アルパカファミリーの“最強バージョン”が登場! GPT-4と同等のコンテキスト長32,000トークンのLLaMA 2 Longが正式にリリースされました。 パフォーマンスのあらゆる面で LLaMA 2 を上回ります。 競合他社と比較して、命令微調整MMLU (5ショット)などのテストセットではChatGPTよりも優れたパフォーマンスを発揮します。 人間による評価では、 10万トークンでClaude 2を上回り、このトピックはRedditでも議論を巻き起こしました。 これらの比較バージョンのうち、LLaMA 2 Long で使用される最大のバージョンはわずか 70B であり、他の大型モデルよりもはるかに小さいことに注意してください。 こう聞くと人々はため息をつく。Meta は確かにかなり有能だ。 また、これは最近の Meta カンファレンスの最大のニュースであり、Meta バージョンの ChatGPT よりもエキサイティングだと考える人もいます。 この論文では、LLaMA 2 Long が 4000 億トークンのコーパスを使用し、位置エンコーディングの変更を実行することを紹介しています。 それで、LLaMA 2 Long はどのようにして生まれたのでしょうか? 位置エンコーディングにはごくわずかな変更が加えられただけであるLLaMA 2 と比較すると、LLaMA 2 Long には大きな変更はありません。 まず、トレーニングパラメータに関しては、最大 4000 億トークンのデータソースが使用されました。 対照的に、オリジナルの LLaMA 2 には複数のバリアントが含まれていますが、バージョンの最大数は 700 億にすぎません。 2 番目に、アーキテクチャは LLaMA 2 と同じままですが、最大 3 億 2000 万トークンのコンテキスト ウィンドウ サポートを完了するために、位置エンコーディングに非常に小さな必要な変更が加えられています。 LLaMA 2 では、位置エンコーディングに回転エンコーディング RoPE 方式が使用されます。 これは大規模モデルで最も広く使用されている相対位置エンコーディングであり、位置エンコーディングは回転行列を通じて外挿されます。 本質的に、RoPE は単語や数字などの情報を表すトークン埋め込みを 3D グラフにマッピングし、回転した場合でも他のトークンに対する相対的な位置を示します。 これにより、モデルは他の方法よりも少ない情報で正確かつ効率的な応答を生成できるため、計算ストレージの使用量が少なくなります。 ここで、Meta の研究者は、LLaMA 2 で 70 億規模の実験を実施して、LLaMA 2 における RoPE 方式の主な制限を特定しました。 つまり、アテンション モジュールが遠くのトークンから情報を収集するのを防ぎます。 この目的のために、Meta は非常にシンプルな解決策を考案しました。 各次元の回転角度を減らします。 具体的には、ハイパーパラメータ「基本周波数b」が 10,000 から 500,000 に増加しました。 この変更はすぐに効果を発揮し、リモート トークンに対する RoPE の減衰効果を軽減し、LLAMA のコンテキスト長の拡張において「位置補間」と呼ばれる同様の方法よりも優れたパフォーマンスを発揮しました(下の図に示すように、RoPE PI では減衰効果がより「暗黙的」です) 。 Ps. 図中の RoPE はベースライン方式、RoPE ABF は今回 Meta が考案した新方式、xPos はこの方式を適用した別の回転エンコード方式です。 1 つの問題は、上記の視覚化結果を通じて、Meta が RoPE が長距離領域で大きな「振動」を持っていることに気づいたことです。これは言語モデリングにとって良いニュースではない可能性があります。 しかし、長いシーケンスのパープレキシティと FIRST-SENTENCE-RETRIEVAL の 2 つのタスクに対するいくつかの方法のパフォーマンスから判断すると、大きな問題はありません。 さらに、特に後者のタスクでは、彼らが提案した RoPE ABF は、一貫してパフォーマンスを維持できる唯一のバリアントです。 付録では、Meta は RoPE ABF と RoPE PI の違いをスパイラル図として視覚化することで、非常に興味深い方法で理論的に分析しています。 その結果、RoPE PI と比較した RoPE ABF の利点は、主に、埋め込まれたベクトルをより細かい粒度で配布できるため、モデルが場所を区別しやすくなることにあります。 さらに、埋め込みベクトル間の相対距離は、RoPE PI の主要パラメータに対して線形依存性があり、RoPE ABF の主要パラメータに対して対数依存性があることも観察されました。 これが、基本周波数ハイパーパラメータを簡単に制御できる理由です。 最終的に、LLaMA 2 Long はこの変更により 32,000 コンテキスト トークンを達成し、長いコンテキストの継続的な事前トレーニングとの相乗効果により、冒頭に示した良好な結果を達成しました。 Meta は、あらゆる面で LLaMA 2 を上回り、特定のタスクでは Claude 2 や ChatGPT を上回っているだけでなく、いくつかのオープンソースの長文テキスト モデルとの比較も行っています。 結果もかなり良かったです。 もう一つこの最新バージョンは、LLaMA2 によって生成されたテキスト コンテンツを使用してトレーニングされていることに注意してください。 正式版が正式にリリースされるかどうかについてはまだ明確なニュースはなく、モデルのウェブサイトもまだ見つかっていない。 しかし、すでに興奮している人もいます。
これに先立ち、32,000 個のトークン コンテキストを実装した非公式バージョンが存在し、これもオープン ソースで市販されていました。 「 Giraffe 」は、LLaMA2 の 13B バージョンに基づいています。 研究チームは、元の RoPE エンコーディングを変換するために「切り捨て」と呼ばれる方法を提案しました。 llama-2-7b-32k-instruct も 32,000 のコンテキストをサポートでき、モデル サイズは 7B です。 論文: https://arxiv.org/pdf/2309.16039.pdf. 参考リンク: |
>>: このロボットはバッテリーなしで「自走」でき、バッテリー寿命は無制限です | ワシントン大学
本日、VRの第一人者でありOculusのCTOであるジョン・カーマック氏はFacebookにメッセー...
[[359728]] AI の向上とマシン ビジョン制御の向上を組み合わせることで、スマート製造業界...
3月4日のニュース、外国メディアの報道によると、ネイチャー誌に最近発表された研究によると、中国のエン...
今週の水曜日、OpenAI は ChatGPT のマルチモーダル機能のリリースを発表しました。さて、...
今日の社会では、ロボットはますます人間とつながるようになっています。産業用ロボットが組立ラインで忙し...
5月19日、Googleの開発者会議I/O 2021が開幕した。完全オンライン形式を採用し、Goog...
GraphSAGE は 2017 年の論文ですが、その名前に含まれる 2 つのキーワード「帰納的」と...
わずか数年で、ディープラーニングのアルゴリズムは大きな進歩を遂げました。チェスのゲームで世界最高のプ...
[51CTO.comからのオリジナル記事]クラウドコンピューティング、ビッグデータ、5G、モノのイン...
強化学習は過去 1 年間で大きな進歩を遂げ、最先端のテクノロジが 2 か月ごとにリリースされています...
マルチモーダル時代突入、大型機種でもドローンを操縦可能!視覚モジュールが開始条件を捉えれば、大型モデ...
[[438131]] COVID-19の感染拡大を抑えるための新たな戦略として、群衆の中で社会的距...