最強のLLaMAが突如降臨!ハイパーパラメータを 1 つだけ変更するだけで、32,000 個のコンテキスト トークンを達成し、複数のタスクで ChatGPT と Claude 2 を上回ることができます。

最強のLLaMAが突如降臨!ハイパーパラメータを 1 つだけ変更するだけで、32,000 個のコンテキスト トークンを達成し、複数のタスクで ChatGPT と Claude 2 を上回ることができます。

静かに、アルパカファミリーの“最強バージョン”が登場!

GPT-4と同等のコンテキスト長32,000トークンのLLaMA 2 Longが正式にリリースされました。

パフォーマンスのあらゆる面で LLaMA 2 を上回ります。

競合他社と比較して、命令微調整MMLU (5ショット)などのテストセットではChatGPTよりも優れたパフォーマンスを発揮します。

人間による評価では、 10万トークンでClaude 2を上回り、このトピックはRedditでも議論を巻き起こしました。

これらの比較バージョンのうち、LLaMA 2 Long で使用される最大のバージョンはわずか 70B であり、他の大型モデルよりもはるかに小さいことに注意してください。

こう聞くと人々はため息をつく。Meta は確かにかなり有能だ。

また、これは最近の Meta カンファレンスの最大のニュースであり、Meta バージョンの ChatGPT よりもエキサイティングだと考える人もいます。

この論文では、LLaMA 2 Long が 4000 億トークンのコーパスを使用し、位置エンコーディングの変更を実行することを紹介しています。

それで、LLaMA 2 Long はどのようにして生まれたのでしょうか?

位置エンコーディングにはごくわずかな変更が加えられただけである

LLaMA 2 と比較すると、LLaMA 2 Long には大きな変更はありません。

まず、トレーニングパラメータに関しては、最大 4000 億トークンのデータソースが使用されました。

対照的に、オリジナルの LLaMA 2 には複数のバリアントが含まれていますが、バージョンの最大数は 700 億にすぎません。

2 番目に、アーキテクチャは LLaMA 2 と同じままですが、最大 3 億 2000 万トークンのコンテキスト ウィンドウ サポートを完了するために、位置エンコーディングに非常に小さな必要な変更が加えられています。

LLaMA 2 では、位置エンコーディングに回転エンコーディング RoPE 方式が使用されます。

これは大規模モデルで最も広く使用されている相対位置エンコーディングであり、位置エンコーディングは回転行列を通じて外挿されます。

本質的に、RoPE は単語や数字などの情報を表すトークン埋め込みを 3D グラフにマッピングし、回転した場合でも他のトークンに対する相対的な位置を示します。

これにより、モデルは他の方法よりも少ない情報で正確かつ効率的な応答を生成できるため、計算ストレージの使用量が少なくなります。

ここで、Meta の研究者は、LLaMA 2 で 70 億規模の実験を実施して、LLaMA 2 における RoPE 方式の主な制限を特定しました。

つまり、アテンション モジュールが遠くのトークンから情報を収集するのを防ぎます。

この目的のために、Meta は非常にシンプルな解決策を考案しました。

各次元の回転角度を減らします。

具体的には、ハイパーパラメータ「基本周波数b」が 10,000 から 500,000 に増加しました。

この変更はすぐに効果を発揮し、リモート トークンに対する RoPE の減衰効果を軽減し、LLAMA のコンテキスト長の拡張において「位置補間」と呼ばれる同様の方法よりも優れたパフォーマンスを発揮しました(下の図に示すように、RoPE PI では減衰効果がより「暗黙的」です)

Ps. 図中の RoPE はベースライン方式、RoPE ABF は今回 Meta が考案した新方式、xPos はこの方式を適用した別の回転エンコード方式です。

1 つの問題は、上記の視覚化結果を通じて、Meta が RoPE が長距離領域で大きな「振動」を持っていることに気づいたことです。これは言語モデリングにとって良いニュースではない可能性があります。

しかし、長いシーケンスのパープレキシティと FIRST-SENTENCE-RETRIEVAL の 2 つのタスクに対するいくつかの方法のパフォーマンスから判断すると、大きな問題はありません。

さらに、特に後者のタスクでは、彼らが提案した RoPE ABF は、一貫してパフォーマンスを維持できる唯一のバリアントです。

付録では、Meta は RoPE ABF と RoPE PI の違いをスパイラル図として視覚化することで、非常に興味深い方法で理論的に分析しています。

その結果、RoPE PI と比較した RoPE ABF の利点は、主に、埋め込まれたベクトルをより細かい粒度で配布できるため、モデルが場所を区別しやすくなることにあります。

さらに、埋め込みベクトル間の相対距離は、RoPE PI の主要パラメータに対して線形依存性があり、RoPE ABF の主要パラメータに対して対数依存性があることも観察されました。

これが、基本周波数ハイパーパラメータを簡単に制御できる理由です。

最終的に、LLaMA 2 Long はこの変更により 32,000 コンテキスト トークンを達成し、長いコンテキストの継続的な事前トレーニングとの相乗効果により、冒頭に示した良好な結果を達成しました。

Meta は、あらゆる面で LLaMA 2 を上回り、特定のタスクでは Claude 2 や ChatGPT を上回っているだけでなく、いくつかのオープンソースの長文テキスト モデルとの比較も行っています。

結果もかなり良かったです。

もう一つ

この最新バージョンは、LLaMA2 によって生成されたテキスト コンテンツを使用してトレーニングされていることに注意してください。

正式版が正式にリリースされるかどうかについてはまだ明確なニュースはなく、モデルのウェブサイトもまだ見つかっていない。

しかし、すでに興奮している人もいます。

これは、商用利用のために大規模なモデルを微調整するのに非常に便利です。

これに先立ち、32,000 個のトークン コンテキストを実装した非公式バージョンが存在し、これもオープン ソースで市販されていました。

Giraffe 」は、LLaMA2 の 13B バージョンに基づいています。

研究チームは、元の RoPE エンコーディングを変換するために「切り捨て」と呼ばれる方法を提案しました。

llama-2-7b-32k-instruct も 32,000 のコンテキストをサポートでき、モデル サイズは 7B です。

論文: https://arxiv.org/pdf/2309.16039.pdf.

参考リンク:
[1] https://venturebeat.com/ai/meta-quietly-releases-llama-2-long-ai-that-outperforms-gpt-3-5-and-claude-2-on-some-tasks/.
[2] https://twitter.com/_akhaliq/status/1707569241191285207.
[3] https://www.reddit.com/r/LocalLLaMA/comments/16v0onb/meta_has_released_a_new_paper_llama_2_long_beats/.
[4]https://news.ycombinator.com/item?id=37698604.

<<: 

>>:  このロボットはバッテリーなしで「自走」でき、バッテリー寿命は無制限です | ワシントン大学

ブログ    

推薦する

意思決定インテリジェンス: 人工知能における新たな方向性

[[353168]]記者趙光麗最近、中国科学院自動化研究所(以下、自動化研究所)は、「妙算智慧」戦術...

分散コンセンサスアルゴリズム EPaxos について 1 つの記事で学ぶ

分散システムにおける中心的な問題はデータの一貫性です。 Paxos アルゴリズムは分散一貫性における...

顔認識システムはすごいですね!チケット転売業者が体調を崩して入院、警戒を呼び起こす

最近、北京同仁病院の警報システムが作動し、職員は北京天壇病院で活動していたチケット転売業者が北京同仁...

AIが世界を侵略する中、プログラマーは2040年になってもコードを書き続けることができるでしょうか?

アルファ囲碁が中国の囲碁の天才柯潔に3連勝した後、ロボット脅威論がますます広まりました。電話接客、デ...

...

適切なバランスを見つける: 人間と機械の知能を統合する

今日の急速に変化するデジタル環境において、顧客は独自のニーズや要望を満たす優れたサービスをますます期...

アルゴリズムの原理から推奨戦略まで

[[195281]]推奨アルゴリズムの紹介現在の推奨アルゴリズムは、一般的に次の 4 つのカテゴリに...

AIトレーニングの裏話を公開:専門家だけでなく、世界中の無数のオフィスワーカーもAIの進化に貢献している

要点: AI システムが学習する前に、入力されたデータにラベルを付ける作業が必要です。これは、自動運...

IBMは機械学習に大きな飛躍をもたらす量子アルゴリズムを開発したと主張している

IBMの研究者らは、量子コンピューター上で高度な機械学習を可能にする新しい量子アルゴリズムを開発した...

普通のプログラマーがAIを活用する方法

[[187452]]現在、人工知能はますます人気が高まっている分野となっています。普通のプログラマー...

人工知能技術が英語学習にどのように役立つかについての簡単な議論

人工知能技術は私たちの日常の仕事、勉強、生活に溶け込み、静かに社会生活を変えています。人工知能技術は...

2021年の中国の医療人工知能産業の展望

医療用人工知能製品は多様化しており、下流の需要は強い医療人工知能産業の上流は、主に医療データマイニン...

一枚のポートレートからビデオを生成しましょう!中国チームが3D顔動画生成モデルを提案、SOTAを達成

[[417461]]人間の顔を使って面白いビデオを生成するにはどうすればいいでしょうか? [[417...

2022 年のビジネス インテリジェンス トレンド予測

調査では、テクノロジー主導の業界を推進する 2022 年までのビジネス インテリジェンスの主要なトレ...

ディープラーニングの最適化を理解するにはどうすればよいでしょうか?勾配降下法の軌跡を分析することで

ニューラル ネットワークの最適化は本質的に非凸ですが、単純な勾配ベースの方法は常にこのような問題を解...