より強力なLlama 2はオープンソースであり、商用目的で直接使用できます。一夜にして、ビッグモデルの風景は変わりました。

一夜にして、ビッグモデルの状況は再び劇的に変化しました。

写真

Llama は常に AI コミュニティで最も強力なオープンソースモデルです。ただし、オープンソースプロトコルの問題により、無料で商用利用することはできません。

本日、Meta はついに待望の Llama 2 の無料版と商用版をリリースしました。

写真

今回MetaがリリースしたLlama 2モデルシリーズには、70億、130億、700億という3つのパラメータバリエーションが含まれています。さらに、340億のパラメータバリアントがトレーニングされましたが、これは公開されておらず、技術レポートでのみ言及されていました。

Llama 1と比較して、Llama 2はトレーニングデータが40％多く、コンテキストの長さが2倍になり、グループクエリアテンションメカニズムが採用されていると報告されています。具体的には、Llama 2 の事前トレーニング済みモデルは2 兆個のトークンでトレーニングされ、微調整された Chat モデルは100 万個の人間がラベル付けしたデータでトレーニングされます。

写真

公開された評価結果によると、Llama 2 は推論、エンコード、熟練度、知識テストなど、多くの外部ベンチマークにおいて他のオープンソース言語モデルよりも優れていることが示されています。

次に、Meta が公開した技術レポートから Llama 2 を詳しく見てみましょう。

写真

論文アドレス: https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/
プロジェクトアドレス: https://github.com/facebookresearch/llama

全体として、事前トレーニング済みで微調整された大規模言語モデル (LLM) のセットである Llama 2 モデルファミリのパラメーターサイズは 70 億から 700 億の範囲です。 Llama 2-Chat は、会話型のユースケースに特化して最適化されています。

Llama 2-Chat トレーニングパイプライン。

Llama 2 モデルファミリは、ほとんどのベンチマークでオープンソースモデルよりも優れているだけでなく、Meta による有用性と安全性の人間による評価に基づいて、クローズドソースモデルの適切な代替品となる可能性もあります。

Llama 2-Chat と他のオープンソースおよびクローズドソースモデルを比較した人間の安全性評価の結果。

Meta では、Llama 2-Chat の微調整とセキュリティ改善へのアプローチについて詳しく説明されており、コミュニティがその作業を基にして、大規模言語モデルの責任ある開発に貢献できるようになります。

事前トレーニング

新しい Llama 2 モデルファミリを作成するために、Meta は最適化された自己回帰トランスフォーマーを使用して Llama 1 の論文で説明されている事前トレーニングアプローチを基に構築し、パフォーマンスを向上させるためにいくつかの変更を加えました。

具体的には、Meta はより堅牢なデータクリーニングを実行し、混合データを更新し、トレーニングトークンの合計数を 40% 増加し、コンテキストの長さを 2 倍にします。以下の表 1 は、Llama 2 と Llama 1 の詳細データを比較したものです。

写真

Llama 2 のトレーニングコーパスには、公開されているソースからのさまざまなデータが含まれており、Meta 製品またはサービス関連のデータは含まれていません。 Llama 2 は、標準の Transformer アーキテクチャ、RMSNorm を使用した事前正規化、SwigLU アクティベーション関数、回転位置埋め込みなど、Llama 1 の事前トレーニング設定とモデルアーキテクチャのほとんどを使用します。

ハイパーパラメータに関しては、Metaはβ_1 = 0.9、β_2 = 0.95、eps = 10^−5のAdamWオプティマイザーを使用してトレーニングされます。コサイン学習率スケジュール（2000 ウォームアップステップ）が使用され、最終学習率はピーク学習率の 10% に減少しました。

下の図 5 は、これらのハイパーパラメータ設定における Llama 2 のトレーニング損失曲線を示しています。

トレーニングハードウェアに関しては、Meta は Research Super Cluster (RSC) と社内のプロダクションクラスターでモデルを事前トレーニングしました。どちらのクラスターも NVIDIA A100 を使用しました。

事前トレーニングのカーボンフットプリントに関しては、Meta は GPU デバイスの電力消費量の推定と炭素効率を使用して、以前の研究方法に基づいて Llama 2 モデルの事前トレーニングによって生成される炭素排出量を計算しました。

Llama 2 事前トレーニング済みモデルの評価

Meta は、Llama 1、Llama 2 ベースモデル、MPT (MosaicML)、Falcon などのオープンソースモデルの標準的な学術ベンチマークの結果を報告します。

以下の表 3 は、さまざまな一般的なベンチマークにおけるこれらのモデルの全体的なパフォーマンスをまとめたものであり、Llama 2 が Llama 1 よりも優れていることを示しています。

Meta は、オープンソースモデルに加えて、Llama 2 70B の結果もクローズドソースモデルと比較しました。その結果を以下の表 4 に示します。 Llama 2 70B は、MMLU と GSM8K では GPT-3.5 に近いですが、エンコードベンチマークでは大きな差があります。

また、ほぼすべてのベンチマークにおいて、Llama 2 70B の結果は Google PaLM (540B) と同等かそれ以上ですが、GPT-4 や PaLM-2-L のパフォーマンスとはまだ大きな差があります。

微調整

Llama 2-Chat は、数か月に及ぶ研究と、アライメント技術 (命令アライメントや RLHF を含む) の反復的な適用の結果であり、膨大な計算リソースと注釈リソースを必要とします。

教師あり微調整 (SFT)

サードパーティの監督による微調整データはさまざまなソースから入手できますが、Meta は、これらのデータの多くが多様性に欠け、特に LLM を会話指導と連携させるには品質が不十分であることを発見しました。そのため、彼らはまず、以下の表 5 に示すように、数千の高品質な SFT データ例を収集することに重点を置きました。

写真

微調整中、各サンプルはプロンプトと応答で構成されます。モデルシーケンスの長さが適切にパディングされるように、Meta はトレーニングセット内のすべてのプロンプトと回答を連結します。特別なトークンを使用してプロンプトと回答セグメントを分離し、自己回帰目標を利用してユーザープロンプトからのトークンの損失をゼロにすることで、回答トークンに対してのみバックプロパゲーションが実行されます。最後に、モデルは 2 回微調整されました。

RLHF

RLHF は、モデルの動作を人間の好みや指示の遵守にさらに合わせるために、微調整された言語モデルに適用されるモデルトレーニング手順です。 Meta は、人間の好みの実験的サンプリングを表すデータを収集し、人間の注釈者はそのデータから 2 つのモデル出力のどちらを好むかを選択できます。この人間からのフィードバックは、人間の注釈者の好みのパターンを学習し、好みの決定を自動的に行う報酬モデルのトレーニングに使用されます。

以下の表 6 は、Meta が長期間にわたって収集した報酬モデリングデータの統計結果を報告し、複数のオープンソースの好みデータセットと比較しています。彼らは、人間が指定した基準、つまりメタ報酬モデリングデータに基づいて、100 万を超えるバイナリ比較の大規模なデータセットを収集しました。

プロンプトと回答のトークンの数はテキストフィールドによって異なることに注意してください。要約データとオンラインフォーラムデータのプロンプトは通常長くなりますが、会話データのプロンプトは通常短くなります。既存のオープンソースデータセットと比較すると、当社の嗜好データは対話ターンが多く、平均長も長くなっています。

写真

報酬モデルは、モデル応答とそれに対応するプロンプト（前のラウンドのコンテキストを含む）を入力として受け取り、モデル生成の品質（有用性や安全性など）を表すスカラースコアを出力します。 Meta は、この応答スコアを報酬として使用して、RLHF 中に Llama 2-Chat を最適化し、人間の好みに合わせて有用性と安全性を向上させました。

報酬モデリングのための人間の好みの注釈の各バッチで、Meta はモデルを評価するためのテストセットとして 1,000 個のサンプルを取り出し、対応するテストセットのすべてのプロンプトのセットをそれぞれ「メタ有用性」と「メタ安全性」と呼びます。

精度の結果は以下の表 7 に示されています。予想通り、Meta 独自の報酬モデルは、Llama 2-Chat に基づいて収集された内部テストセットで最高のパフォーマンスを発揮しました。「有用性」報酬モデルは「メタ有用性」テストセットで最高のパフォーマンスを発揮し、同様に「安全性」報酬モデルは「メタ安全性」テストセットで最高のパフォーマンスを発揮しました。

全体的に、Meta の報酬モデルは GPT-4 を含むすべてのベースラインモデルよりも優れています。興味深いことに、GPT-4 は、この報酬モデリングタスクに直接トレーニングまたは特化されていないにもかかわらず、他の非メタ報酬モデルよりも優れています。

写真

ズームトレンド。メタ研究では、データとモデルのサイズに関して報酬モデルのスケーリング傾向を調査し、毎週収集される報酬モデルデータの量が増えるにつれて、さまざまなモデルサイズを微調整します。下の図 6 はこれらの傾向を示しており、同様の量のデータであれば、より大きなモデルの方がパフォーマンスが高くなるという予想される結果を示しています。

人間の好みの注釈のバッチが増えるにつれて、より優れた報酬モデルをトレーニングし、より多くの手がかりを収集できるようになります。そのため、Meta は RLHF モデルの連続バージョンをトレーニングしました。ここでは、これを RLHF-V1、...、RLHF-V5 と呼びます。

ここでは、RLHF を微調整するために 2 つの主要なアルゴリズムが使用されます。

近接ポリシー最適化 (PPO)
拒否サンプリングの微調整。

RLHF の結果

まず、モデルベースの評価結果です。下の図 11 は、Meta 内のセキュリティと有用性の報酬モデルによって評価された、セキュリティと有用性の観点から見たさまざまな SFT および RLHF バージョンの進捗状況を報告しています。

人間による評価結果を見てみましょう。下の図 12 に示すように、Llama 2-Chat モデルは、単一ラウンドのプロンプトと複数ラウンドのプロンプトの両方でオープンソースモデルを大幅に上回っています。特に、Llama 2-Chat 7B はプロンプトの 60% で MPT-7B-chat を上回り、Llama 2-Chat 34B は同様のサイズの Vicuna-33B および Falcon 40B と比較して 75% を超える全体的な勝率を示しました。

写真

ここで、Meta は手動評価のいくつかの限界についても指摘しています。

結果は、人間による評価の点では Llama 2-Chat が ChatGPT に匹敵することを示していますが、人間による評価にはいくつかの限界があることを指摘することが重要です。

この記事には、学術および研究基準に基づいた 4k プロンプトの大規模なコレクションが含まれています。ただし、これにはこれらのモデルの実際の使用は含まれません。実際の使用ははるかに広範囲に及ぶ可能性があります。
プロンプトの多様性も結果に影響を与えるもう 1 つの要因である可能性があります。たとえば、この論文のプロンプトセットには、エンコードや推論に関連するプロンプトは含まれていません。
この論文では、複数ラウンドの対話の最終生成のみを評価します。より興味深い評価アプローチとしては、モデルにタスクを完了するように依頼し、複数回の対話を通じてモデルの全体的な経験を評価することが考えられます。
生成モデルに対する人間による評価は、本質的に主観的かつノイズの多いものです。したがって、異なるプロンプトセットまたは異なる指示を使用して評価すると、異なる結果が生成される可能性があります。

安全

この調査では、3 つの主要な側面を対象に、3 つの共通ベンチマークを使用して Llama 2 のセキュリティを評価しました。

信頼性とは、TruthfulQA ベンチマークを使用して、言語モデルが誤った情報を生成するかどうかを指します。
毒性とは、ToxiGen ベンチマークを使用して、言語モデルが「有毒」で、失礼で、有害なコンテンツを生成するかどうかを指します。
バイアスとは、BOLD ベンチマークを使用して、言語モデルが偏ったコンテンツを生成するかどうかを指します。

事前トレーニングの安全性

まず、事前トレーニングデータはモデルにとって非常に重要です。 Meta は事前トレーニングデータのセキュリティを評価するための実験を実施しました。

この研究では、ToxiGen データセットで微調整された HateBERT 分類器を使用して、事前トレーニング済みのコーパス英語データの「毒性」を測定しました。具体的な結果を下の図 13 に示します。

バイアスの問題を分析するために、この研究では、事前トレーニングコーパス内の代名詞とアイデンティティ関連用語とその割合を統計的に分析しました。結果は、以下の表9のとおりです。

写真

また、言語分布の観点から、Llama 2コーパスでカバーされている言語とその割合は以下の表10に示されています。

セキュリティの微調整

具体的には、Meta はセキュアな微調整に次の手法を使用します: 1. 監督付きセキュアな微調整、2. セキュア RLHF、3. セキュアなコンテキスト蒸留。

Meta は、Llama 2-Chat の開発初期段階で、監督下での微調整中にセキュリティのデモンストレーションから学習できることに気付きました。このモデルは、詳細な安全対応の書き方、安全上の懸念への対処、トピックがなぜデリケートな可能性があるのかの説明、そしてより役立つ情報の提供をすぐに学習しました。特に、モデルが安全な応答を出力する場合、平均的な注釈者が書き込んだ応答よりも詳細になる傾向があります。そのため、わずか数千の教師付きデモンストレーションを収集した後、Meta は完全に RLHF に切り替えて、より微妙な応答の書き方をモデルに教えました。完全なチューニングに RLHF を使用するもう 1 つの利点は、モデルが脱獄の試みに対してより堅牢になることです。

Meta はまず、人間の安全性に対する好みに関するデータを収集することによって RLHF を実施します。そこでは、注釈者が安全でない動作を引き起こすと思われるプロンプトを作成し、次にプロンプトに対する複数のモデル応答を比較して、一連のガイドラインに基づいて最も安全な応答を選択します。次に、人間の嗜好データを使用して安全報酬モデルをトレーニングし、敵対的プロンプトを再利用して、RLHF ステージでモデルからサンプリングします。

下の図 15 に示すように、Meta は安全性と有用性の観点から見たモデルのパフォーマンスの結果として平均報酬モデルスコアを使用します。 Meta は、安全なデータの割合を増やすと、リスクの高い敵対的なプロンプトに対するモデルのパフォーマンスが大幅に向上することを確認しました。

写真

最後に、Meta はコンテキスト蒸留を通じて RLHF プロセスを改善します。これには、「あなたは安全で責任あるアシスタントです」などの安全性に関する前文をプロンプトの前に付けて、より安全なモデル応答を生成し、前文のないより安全な応答に基づいてモデルを微調整することが含まれます。これにより、基本的に安全性に関する前文 (コンテキスト) がモデルに抽出されます。

Meta はターゲットを絞ったアプローチを使用して、安全報酬モデルが各サンプルに対してコンテキスト蒸留を使用するかどうかを選択できるようにします。

下の図 17 は、さまざまな LLM の全体的な違反率と安全性評価を示しています。

下の図 18 は、単一ターンおよび複数ターンの会話の違反率を示しています。モデル全体の傾向として、複数ターンの会話では安全でない応答が引き起こされる可能性が高くなります。そうは言っても、Llama 2-Chat は、特に複数ターンの会話では、ベースラインと比較して依然として優れたパフォーマンスを発揮します。

下の図 19 は、さまざまな LLM のさまざまなカテゴリにおけるセキュリティ違反の割合を示しています。

<<: 0パラメータ+0トレーニング、3D点群解析手法Point-NNは複数のSOTAを更新します

>>: グラフニューラルネットワークに基づくOPPOの検索推奨アルゴリズムと実践