Llama 2 第 2 波のハイライト: 慎重すぎるため、コード生成には改善の余地が大いにある

有用か無害か

Llama-2-chat は、セキュリティフィルターに関して過度に敏感な動作を示すことが判明しました。「チリマヨネーズの作り方」や「プロセスを強制終了する方法」などの無害な質問をした場合でも、以下に示すように、モデルはそれを実行できないと断言します。

この現象に対する一般的な理論的説明は、RLHF（人間からのフィードバックによる強化学習）手法があまりにも長い間使用されてきたというもので、これは大規模言語モデルの分野における傾向も明らかにしています。 RLHF では、トレーニング中に使用される主なパフォーマンスメトリックは、好みモデルにおける報酬の単調な増加です。これには 2 つの問題があります。a) トレーニング中に使用される報酬モデルが不完全です。 b) 中級トレーニング技術の効果的な評価を怠る。

検証セットで 65 ～ 75% の精度しか達成できない報酬モデルをトレーニングすると、RLHF が長いためにモデルが失敗します。モデルが報酬モデルに対して多くの最適化手順を実行すると、その報酬モデルが好む動作に過度に偏りが生じ、モデルをより徹底的に評価すると異なる結論に達する可能性があります。

効果的で包括的なソリューションはまだありませんが、私のチームは、RL トレーニングの各エポックで MT Bench やその他の自動 NLP 評価方法を使用する実験を行っています。現在、少なくとも会話モデルの分野では、LLM のトレーニングはユーザーの期待と大きく一致していません。

Meta の評価によると、会話モデルには 2 つの潜在的に致命的な弱点がある可能性があります。

1.このモデルは、限界的な質問の最大 27% に回答を拒否すると報告されており、これはスタートアップ企業 Anthropic の研究と密接に関連しています。 Anthropic は、まず有用な言語モデルを開発し、次にこの言語モデルを無害にする、という解決策を提案しています。この 2 つのタスクを同時に実行すると、モデルが「回避行動」を示すようになるためです。 Meta はこの問題の解決に取り組むべきです。

この有用性と無害性のトレードオフは、オープンソースコミュニティが直面している根本的な問題です。下の図（右）に示すように、モデルが「限界データセット」に関する質問に答えることを拒否する割合が急激に増加しました。

2. 報酬モデルアンサンブル法には、別の重要な問題があります。それは、場合によっては大きな不一致が生じることです。たとえば、次の図に示すように、有用性が高くセキュリティが低い場合、およびその逆の場合にどうすればよいかということです。

明らかに、この統合アプローチは素晴らしい技術革新ではあるものの、さらなる改善が必要です。

現在、人工知能の分野では「公共」という概念が極度に乱用されており、インターネット上の情報やデータは公共のものであると考えられていますが、実際はそうではありません。 Meta は、著作権違反や利用規約違反があったかどうかについては明確に述べなかったが、データやドキュメントへのアクセスに関しては、Meta に改善の余地が大いにあることは間違いない。

推論と微調整

大規模な 7b または 13b モデルを GPU 上で実行する方法があり、近いうちに iPhone でも実行できるようになります。

しかし、70b の大型モデルは少し複雑です。調査によると、70b モデルでは 4 ビット量子化でロードすると 36 ～ 38 GB の VRAM が使用されることがわかっています。量子化を 8 ビット (float16) に増やすと、メモリもそれに応じて増加すると予想されます。完全な非量子化モデルを単一の GPU で使用することは非常に困難です。

テキスト生成推論に関しては、HuggingFace は次の GPU 推奨事項を提供します。

7B モデルの場合は、「GPU [中] - 1x Nvidia A10G」を選択することをお勧めします。
13B モデルの場合は、「GPU [xlarge] - 1x Nvidia A100」を選択することをお勧めします。
70B モデルの場合は、「GPU [xxxlarge] - 8x Nvidia A100」を選択することをお勧めします。

HuggingFace コミュニティのメンバーは、HuggingFace Transformers のコードの一部を書き直し、Llama モデルのメモリ効率と速度を向上させ、RoPE メソッドを使用してコンテキストの長さを拡張できるようにしました。

具体的には、この改善により、Llama 2 70B モデルでは、シーケンス長が 4096 の場合にメモリオーバーフローが発生することなく、推論速度が約 10.5 トークン/秒になります。同時に、シーケンス長が 8192 の場合、推論速度は 8 トークン/秒となり、メモリオーバーフローは発生しません。

微調整に関しては、TRL ライブラリ (Transformer Reinforcement Learning) を使用して教師あり微調整を簡単に実行でき、T4 GPU で Llama 2 7B モデルをトレーニングしたり、単一の A100 GPU で 70B モデルをトレーニングしたりすることもできます。これは、この手法の実装がかなり簡単であり、ほとんどのコンシューマーグレードの GPU を使用してモデルの 7B または 13B バリアントを微調整できることを示しています。 RLHF メソッドでは、より多くの勾配計算をメモリに保存する必要があることに注意してください。

しかし、Open LLM リーダーボードでは、LLaMA v1 から微調整されたモデルが依然としてトップを占めています。なぜでしょうか?

一部の議論では、これはリーダーボード上の評価タイプが十分でないことが原因であるように思われる (これはすぐに変更される予定) と示唆されており、評価セットまたは同様のデータセットでモデルを微調整することで、より高いパフォーマンスを簡単に達成できます。時間の経過とともに、同じデータセットで Llama 2 を微調整すると、パフォーマンスが向上するモデルがほぼ確実に得られます。

さらに、Llama 2 には注目に値する他の側面がいくつかあります。

ツールアプリケーション: Llama 2-Chat は、ツールを使用するためのトレーニングを受けていない場合でも、セマンティクスを通じてツールアプリケーションと API パラメータを理解できます。 LLM をツールとして使用することには大きな可能性があります。開発を容易にするために、標準的な評価環境が必要です。

プロンプトの問題: プロンプトが回避行動につながる問題である可能性があります。 Llama 2 のプロンプトは、LLaMA v1 の評価結果によると、プロンプトが結果の一貫性のなさにつながる重要な要因であるため、継続的に監視する必要がある問題です。

コード生成: Llama 2 はコード生成の点では十分ではなく、ChatGPT を使用したいと言う人が多くいました。その点に関して、Yann Lecun 氏は Meta が別のバージョンをリリースする可能性があることを示唆しました。

興味深い商用ライセンス: Meta のライセンスでは、開始時に 7 億人を超えるアクティブユーザーを持つ企業はモデルを商用利用できないことが規定されています。

ゴースト注意

多くの言語モデルの問題は、最初のターンで何かを実行するように指示しても（たとえば、「海賊風に答える」など）、1 ターンか 2 ターン後にはモデルが指示したことを忘れてしまうことです。

Meta は論文の中で、このマルチラウンド命令の要件について次のように説明しています。

会話の場面では、簡潔に答えることや役割を「演じる」ことなど、いくつかの指示がすべての会話のターンに適用される必要があります。

Llama 2 が複数ラウンドの指示に効率的に従えるようにするために、Meta はコンテキスト蒸留に似た新しい方法である Ghost Attention (GAtt) を提案しました。 GAtt は必須のステップではありませんが、言語モデルが複数ターンの指示に適切に従うことを可能にします。

RLHF に関する詳細

トレーニングプロセス: Llama 2 で使用される損失関数は、実際にはそれほど明確ではありません。 Meta論文では、反復トレーニングを使用しているため、実際の結果はPPO（Proximal Policy Optimization）とそれほど変わらないと述べていますが、損失関数の詳細については説明されていません。これは少し混乱を招きます。なぜなら、この研究では、高報酬の例に対して LLM の標準的な自己回帰予測損失がほぼ確実に使用されており、それが結果に大きな影響を与えたからです。

研究チームは、サンプルの再トレーニングに拒否サンプリング (RS) を使用するとモデル機能が低下することを観察しました。この問題に対処するために、過去のバージョンから高得点のサンプルを再導入し、モデルのパフォーマンスを向上させました。これは、RLHF メソッドでよく見られる報酬モデルの過剰適合の一種です。

すべての小規模な会話モデルは、大規模なモデルのデータに基づいてトレーニングされており、ChatGPT もこの方法でトレーニングされた可能性があります。これは、テクノロジー企業が自社の最大かつ最良のモデルの優れた推論機能を活用して、優位性を拡大したいと考えているためです。

サンプリング中は、高温パラメータを使用して多様な出力を取得し、バッチサンプルの最大報酬を増やします。

温度パラメータは、モデルとバッチサイズに応じて徐々に調整する必要があります。 Llama 2 の論文では温度パラメータについて多くのことが述べられていますが、そのうちどれだけがケース固有のものであるかは明らかではありません。

Llama 2 モデルをより深く理解するには、次のプロジェクトを参照してください。

プロジェクトアドレス: https://github.com/lvwerra/trl/blob/main/examples/notebooks/best_of_n.ipynb

ＰＰＯ

Llama 2 では、PPO の実装に多くの珍しいトリックが含まれており、RLHF メソッドがさらに簡素化されています。

InstructGPT で提案されている SFT 制約項は、損失関数に追加の項を追加して、人間の注釈者が書いたテキストとモデル生成結果の間の距離を比較することにより、モデル分布を人間の書き込み例に近づけるために使用されます。
生成された結果を、設定セットのセキュリティタグを使用してセキュリティ設定モデルに渡します。この方法は今後さらに多くのモデルに適用される可能性があり、GPT-4 モデルではすでにこの方法が使用されている可能性もあります。
最終的な線形レイヤーのスコアは、トレーニングを安定させるために白色化されます。本質的に、Llama 2 の作業では、報酬モデルで勾配がより適切に動作するのに役立つ別の線形レイヤーが作成されます。これは面白いトリックです。

上記は、Nathan Lambert による Llama 2 に関する 2 番目の分析記事の主な内容です。

<<: 0 個のプロンプトワードと 1 枚の写真でビデオを生成する Gen-2 の新しいゲームプレイが画面を席巻します。ウェブ版は無料でプレイ可能

>>: 大きな模型 = 容器に入った脳？同源病院の朱松春氏のチームがAGIの主な欠陥を分析