ビッグニュース！ Meta が「次世代」の大型モデル Llama 2 をオープンソース化、Zuckerberg: 無料かつ商用利用可能!

今朝早く、私たちがまだ寝ている間に、海の向こうの Meta が大きなことをしました。Llama 2 の無料商用バージョンをリリースしたのです。

写真

Llama 2 は Llama 1 モデルの継続であり、データ品質、トレーニング手法、能力評価、安全なトレーニング、責任あるリリースにおいて大幅な技術的進歩を遂げています。

研究を共有する意欲がかつてないほど低下し、規制上の困難がかつてないほど高まっている今日の AI 時代において、Meta の動きは間違いなく、大規模モデルエコシステムに大きな進歩をもたらすでしょう。

技術レポートによると、Llama 2の基本モデルはGPT3よりも強力で、微調整されたチャットモデルはChatGPTに匹敵します。 Llama 2 は、企業がよりカスタマイズされ、コスト効率の高い製品を実現するのに役立つと信じています。

以下は、ザッカーバーグ氏がフェイスブックで公開したラマ2に関する「マニフェスト」で、同氏はこれを次世代の大型モデルと呼んでいる。

当社は、Microsoft と協力して、オープンソースの大規模言語モデルの次世代である Llama 2 をリリースします。 Llama 2 は研究者および商用ユーザーに無料で提供されます。

Meta には、主要な機械学習フレームワークである PyTorch から、Segment Anything、ImageBind、Dino などのモデル、Open Compute Project の一部である AI インフラストラクチャまで、オープンソースの取り組みの長い歴史があります。当社は業界全体で常に進歩を遂げ、より良い製品を構築しています。

オープンソースは、より多くの開発者に新しいテクノロジーを提供することでイノベーションを推進します。同時に、オープンソースソフトウェアでは、より多くの人がソフトウェアをレビューし、起こりうる問題を特定して修正できるため、セキュリティが向上します。エコシステムがよりオープンになれば、より多くの進歩が実現できると信じています。それが、Llama 2 をオープンソース化している理由です。

本日、それぞれ 70 億、130 億、700 億のパラメータを持つ事前トレーニング済みおよび微調整済みのモデル Llama 2 をリリースしました。 Llama 2 は Llama 1 よりも 40% 多くのデータで事前トレーニングされており、アーキテクチャが改善されています。モデルの微調整では、人間が注釈を付けた 100 万以上のサンプルを収集し、セキュリティと品質の面で最先端の教師あり微調整と RLHF を適用しました。

モデルを直接ダウンロードすることも、Azure および Microsoft のセキュリティおよびコンテンツツールを通じてアクセスすることもできます。ネイティブ Windows 操作をサポートする最適化バージョンも提供しています。

皆さんの革新的な成果を本当に楽しみにしています!

Llama 2の登場とリリースについて、ディープラーニングの三大巨頭の一人であるヤン・ルカン氏は、これが大規模モデルの市場環境を変えるだろうと語った。

写真

一部のネットユーザーはすぐにMetaに申請を送り、数時間以内に許可を得た。すでに申請が行われている。

写真

OpenLLM 大規模モデルリーダーボードは、「Eleuther AI 言語モデル評価ハーネス」の 4 つの主要なベンチマークに基づいて Llama 2 を評価します。

写真

その中で、Llama-2-70bは平均スコア、科学的質問ARC、常識推論HellaSwagなどの指標で1位を獲得しました。テキストマルチタスク精度MMLU指標は、Llama-30Bに基づいて微調整されたモデルPlatypus-30Bに追い抜かれ、生成された質問回答の信憑性のTruthfulQA（MC）指標は8位にランクされました。

写真

論文アドレス: https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/

プロジェクトアドレス:

https://github.com/facebookresearch/llama

Llama 2 の重要なポイントは何ですか? aw の利点は何ですか?

Meta は、7 億、13 億、34 億、70 億のパラメータを持つ Llama ベースモデルや、同じサイズの Llama バリアントなど、複数のモデルをリリースしました。 Meta は、事前トレーニングコーパスのサイズを 40% 増加し、モデルのコンテキストの長さを 2 倍にし、グループ化されたクエリアテンションを採用します。

具体的には、以下の点が重要です。

機能: 徹底的なテストの結果、これは非コーディングの点で ChatGPT のレベルに到達できる最初のオープンソースモデルであることが判明しました。

コード/数学/推論: 論文ではコードデータについてあまり議論されていませんが、いくつかの評価では 1 つのモデルが他のモデルよりも優れています。

マルチラウンドの一貫性: モデルのマルチラウンドの対話の一貫性を向上させるために、新しい方法である Ghost Attention (GAtt) が使用されます。

報酬モデル: セキュリティと有用性のトレードオフを回避するために、2 つの報酬モデルが採用されています。

RLHF プロセス: RLHF がモデル作成能力に及ぼす重要な影響を強調し、2 段階の RLHF アプローチが採用されました。

安全性/傷害評価: 徹底した安全性評価が実施され、モデルの安全性を高めるために特定の方法が採用されました。

ライセンス: このモデルは商用利用可能ですが、ユーザー数には一定の制限があります。つまり、1 日のアクティブユーザー数が 7 億人を超える製品は、別途商用ライセンスを申請する必要があります。

Llama 2の技術的詳細

Huggingfaceの科学者ネイサン・ランバート氏もブログでラマ2の技術レポートを分析した。

写真

このモデル (Llama 2) は、構造的には元の Llama に似ていますが、主な変更点はデータとトレーニングプロセスにあり、コンテキストの長さとグループ化されたクエリアテンション (GQA) が追加され、チャットの適用性と推論速度が向上しています。

トレーニングコーパスは公開ソースから取得されており、Meta の製品やサービスに関するデータは含まれていません。このモデルは、パフォーマンスの向上とエラーの削減を目的として 2 兆個のデータトークンでトレーニングされており、多くの個人情報を含むデータを削除するよう努めています。

この論文は、ベースモデルの作成ではなく、評価と微調整について主に述べています。

次に、この論文では RLHF パイプラインに従って、報酬モデルをトレーニングし、強化学習 (RL) を使用して最適化します。

写真

さらに、技術レポートでは、報酬モデルが RLHF の鍵であり、モデルの鍵でもあることも確認されています。優れた報酬モデルを得るために、Meta はオープンソースコミュニティが使用しているデータをはるかに上回る大量の設定データを収集します。

Meta は、他のより複雑なタイプのフィードバックではなく、バイナリ比較データを収集します。これは 1 ～ 8 のリッカート尺度に似ていますが、「大幅に改善、改善、やや改善、またはほぼ同じ/不明」など、より定性的なものです。

彼らは複数ラウンドの好みを使用しており、モデルの応答はモデルトレーニングのさまざまな段階から得られます。Meta は、正直さよりも有用性とセキュリティに重点を置いており、データ収集フェーズで各データプロバイダーに対して異なる指示を使用します。

さらに、データ収集プロセス中に、チームは、各ラウンドでモデルからのどの応答が安全であったかを示す追加の安全性メタデータを追加しました。モデリングの段階では、より安全な応答が人間に好まれると想定して、選択された応答が安全ではなく、他の応答が安全であるすべての事例を除外しました。

報酬モデル

研究者たちは、有益性に焦点を当てた報酬モデルと安全性に焦点を当てた報酬モデルの 2 つを訓練しました。これらのモデルは、言語モデルのヘッドを線形回帰層に置き換えることによって、言語モデルの上に構築されます。 RLHF トレーニングにおける分布の不一致を減らすために、常に最新のチャットモデルを使用します。

主な技術的詳細は次のとおりです。

開始報酬モデルはオープンソースデータでトレーニングされ、初期のサプライヤーデータを生成するために使用されます。
彼らは Anthropic のデータの一部 (自社の 90%) を無害なままにしましたが、具体的な理由は示しませんでした。
報酬モデルの過剰適合を防ぐために、1 エポックのみトレーニングします。
報酬モデルの平均精度は 65 ～ 70% の範囲ですが、「大幅に異なる」ラベルでは 80 ～ 90% の精度に達します。

その他の興味深い発見:

有益性を向上させるために、報酬モデルの損失関数にマージン項（好みの信頼度に比例）が追加されます。
モデルがトレーニングされ改善されるにつれて、データはモデルの出力とますます一致するようになります。
トレーニングされた報酬モデルは、評価において GPT-4 を使用して生成された報酬モデルプロンプトよりも優れています。

写真

グラフは、報酬モデルの精度が時間の経過とともに向上したことを示しています。 OpenAssistant の報酬モデルはあまり認知されていないかもしれませんが、報酬モデルとしての GPT-4 のパフォーマンスは他のモデルのベンチマークとなることは注目に値します。

Meta 氏は、微調整結果の議論の中で、報酬モデルの精度が Llama 2-Chat のパフォーマンスの重要な指標であると述べました。これは、RLHF が報酬モデルの知識を最大限に活用するという理解と一致しています。

RLHFと微調整

Meta は、RLHF メソッドを使用してモデルのパフォーマンスを向上させます。下の図に示すように、さまざまなモデルを最適な報酬モデルを使用して評価し、RLHF が生成されたテキストをより高い報酬に押し上げる方法を示しています。メタ反復トレーニングにより、それぞれデータ分布が改善された 5 つの RLHF バージョンがトレーニングされました。

写真

Meta は、サードパーティの SFT (教師あり微調整) データの多様性と品質が、会話型指示の LLM アライメントのニーズを満たすのに不十分な場合が多いと指摘しています。 Meta は、サードパーティのデータセットから高品質の例をフィルタリングすることで、結果を大幅に改善します。彼らはまた、再現性のために注釈付きデータの量の重要性を強調しました。

Meta は、異なる注釈プラットフォームとベンダーによってモデルのパフォーマンスに大きな違いが生じる可能性があることを観察しました。そのため、ベンダーを使用して注釈を取得する場合は、データ検査が依然として非常に重要です。彼らのアプローチは、人間による注釈とモデルによって生成されたサンプルを比較してデータの品質を検証することです。

データ品質が確立された後、Meta は強化学習 (RL) 部分に重点を置き始めました。彼らは、熟練した注釈者がいたとしても、文章のスタイルは人によって大きく異なることを発見した。 SFT アノテーションに基づいて微調整されたモデルは、この多様性を学習しますが、不適切なアノテーションも学習します。モデルのパフォーマンスは、最も熟練した注釈者のライティング能力によって制限されることを示しています。

Meta は、このプロセスには膨大なコンピューティングリソースと注釈リソースが必要であることを認識しています。 RLHF フェーズ全体を通じて、報酬モデリングデータはモデルの改善に不可欠です。

結論としては、効果的な RLHF には中規模のチームが必要であるということです。 1〜3 人のチームでも優れた指導モデルを公開できますが、RLHF を実装するには少なくとも 6〜10 人が必要になる場合があります。この数は時間の経過とともに減少しますが、このタイプの作業には外部の企業との契約や緊密な連携が必要であり、常に時間がかかります。

さらに、Meta では、これらの方法の基本的な違いと、それらをいつ使用するかを比較しています。

拒否サンプリング (RS) はより広範な検索 (キューごとにより多くのデータを生成する) を実行しますが、PPO は報酬モデルをより頻繁に更新します。
方法間の最終的な違いは有意ではありませんでした (WebGPT の結果と同様)。
RLHFV4 では、拒否サンプリングのみが使用され、最後のステップで微調整のために PPO と拒否サンプリングが使用されました (一部の評価では、PPO がわずかに有利でした)。

評価する

この論文では、彼らのモデルをいくつかの方法で評価しています。 Open LLM Leaderboard (MMLU、ARC など) の頭字語などの自動化ベンチマークでは、Llama 2 はあらゆる規模で他のオープンソースモデルよりも大幅に優れたパフォーマンスを発揮します。

モデルは、広範なデータ作業と RLHF の調整により、MMLU などのあまり目立たないベンチマークでも高いスコアを獲得しています。しかし、彼らのモデルはクローズドソースのモデルと比較するとパフォーマンスが良くありませんでした。

さらに、この論文では現在普及している評価手法についても深く研究しており、人間の注釈者とLLMを審査員とする手法は、その普遍性と可用性から人気があります。人間による評価にはある程度の限界と主観性があるかもしれませんが、結果はオープンソース分野における Meta の優位性を示しています。

写真

彼らは、批評としてのモデル手法を使用し、Elo グラフを使用して、RLHF の概念が時間の経過とともに変化する様子を示しました。これは、Anthropic の AI 作業に似ています。パフォーマンスの面では、彼らのモデルは RLHFv3 以降 ChatGPT を上回っており、図から PPO メソッドが一定の改善を提供していることがわかります。

この論文では、報酬モデルの構築を含む、その一般的な機能を実証するためにいくつかの評価を実施しています。報酬モデルのテストのハイライト:

報酬モデルのスコアは、誤差の範囲は大きいものの、人間の評価者の好みの評価に合うように調整されます。
オープンソースデータセットでトレーニングされた報酬モデルと比較し、オープンソースドメインでの実装の可能性を示します。

人間/モデル評価のハイライト:

ChatGPT と Llama-2-Chat の出力に基づいてモデルを評価し、スタイルの好みによってモデルが独自の結果を改善しないようにします。
このタスク専用に設計された統計ツールである、Gwet の AC1/2 などの評価者間信頼性尺度を活用します。
人間による評価の限界を認識します。これには、評価プロンプトの大規模なセットがすべての現実世界のアプリケーションをカバーしていないこと、エンコード/推論の評価が欠如していること、最後の会話ターンのみを評価することなどが含まれます。

最後に、Llama 2 のオンラインテストアドレスは次のとおりです。

https://huggingface.co/spaces/ysharma/Explore_llamav2_with_TGI?cnotallow=749dd0fc30bb1d0718aaa9576af51980

参考文献

https://twitter.com/i/status/1681354211328507917

https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard

https://www.interconnects.ai/p/llama-2-from-meta?utm_source=profile&utm_medium=reader2

<<: オープンソースのビッグモデルが OpenAI に大打撃を与える!ザッカーバーグはテクノロジー界に衝撃を与えたLLaMA2をリリースし、マイクロソフトやクアルコムと手を組んで市場構造に影響を与えた。

>>: Microsoft Office Family Bucket Edition GPT-4 の価格は月額 30 ドル、Azure は Llama 2 と提携