Meta は無料の商用バージョンである Llama 2 をリリースし、ネットワーク全体を席巻しました。 これまで、Llama 1 バージョンは、オープン ソース契約の問題により、無料で商用利用することはできませんでした。現在、Llama 2 のリリースにより、この制限は正式に解除されました。 Llama 2 モデルシリーズには、70 億、130 億、700 億の 3 つのモデルが含まれています。また、Meta は 340 億のパラメータバリアントもトレーニングしましたが、リリースされておらず、技術レポートでのみ言及されていました。 Llama -2-70B-Chat はリリースされるとすぐに、Hugging Face の Open LLM リーダーボードでトップになりました。 写真 Llama 2 は、データ品質、トレーニング技術、パフォーマンス評価、安全なトレーニングにおいて大幅な技術的拡張が施された Llama 1 モデルの継続モデルであると言えます。 この Meta のリリースはオープンソースにとって大きな飛躍ですが、このモデルはカスタマイズ性の向上とコストの削減を実現するため、クローズドソース プロバイダーにとっては大きな打撃となります。 誰もがLlama 2についてもっと知りたいと思うはずです。公式の技術情報に加えて、Huggingfaceの機械学習科学者であるNathan Lambert氏も、論文の内容に基づいて詳細なドキュメントをまとめており、その記事には彼自身の洞察も組み込まれています。 Llama 2 論文アドレス: https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/ Nathan Lambert 氏は、次の点からこれを紹介しました。
ネイサン・ランバート氏は、ラマ2号はおそらく数か月間トレーニングを続けており、次のバージョンも開発中であると予想している。 基本モデルLlama 2 は、アーキテクチャやその他の面でオリジナルの Llama と非常に似ていますが、Llama 2 ではコンテキストの長さが長くなり、グループ化クエリ アテンション (GQA) メカニズムが採用されています。 Llama 2 での変更のほとんどは、データとトレーニング プロセスに関するものです。コンテキストの長さを増やすと、チャットの使いやすさの要件を満たすことができ、グループ化されたクエリアテンションメカニズムによって推論速度が向上します。 Llama 2 のトレーニング コーパスには、公開されているソースからのさまざまなデータが含まれており、Meta 製品またはサービス関連のデータは含まれていません。今回、Meta は大量の個人情報が含まれるウェブサイトからデータを削除することに尽力しました。さらに、Llama 2 の事前トレーニング済みモデルは 2 兆個のトークンでトレーニングされており、パフォーマンスとコストの適切なバランスを実現できます。 Meta の公開論文の大部分は、強力な基本モデルを再現することではなく、評価と微調整に関するものです。この動きにより、オープンソースの大規模言語モデルのリーダーとしての Meta の地位が強化されると思われます。 次の図は、Llama 2-Chat のトレーニング パイプラインを示しています。 Meta は、嗜好データに基づいて報酬モデルをトレーニングし、強化学習を使用して最適化し、モデルの品質を向上させます。 写真 嗜好データネイサン・ランバート氏は、Metaが発表した論文を通じて、報酬モデルがRLHFの鍵であり、モデルの鍵であることにMetaが同意したという噂を確認したと述べた。優れた報酬モデルを実現するために、Meta は、オープンソース コミュニティで現在使用されているデータの量をはるかに超える嗜好データを収集するために多大な努力を払う必要がありました。 データに関する詳細情報は次のとおりです。
ネイサン・ランバート氏は、ベンダーが市場価格に近い価格を請求すると仮定すると、このリリースの Meta のデータコストだけで 800 万ドルを超える可能性があると予測しています。以下の表は、Meta が長期にわたって収集した報酬モデリング データをまとめ、複数のオープン ソースの設定データセットと比較したものです。 写真 報酬モデル報酬モデルについては、次の 2 つの重要な詳細があります。
まず、論文では、有用性に最適化した報酬モデル(Helpfulness RM と呼ばれる)と安全性に最適化した報酬モデル(Safety RM と呼ばれる)の 2 つの別個の報酬モデルをトレーニングしたと述べています。どちらのモデルも、標準言語モデルのヘッドを線形回帰層に置き換えることで、基本言語モデル上に構築されます。彼らは、モデルがどのチェックポイントからのものかは指定しませんでしたが、RLHF トレーニングにおける分布の不一致を最小限に抑えるために最新のチャット モデルを使用しました。 このプロセスには注目すべき技術的な詳細がいくつかあります。
次の図は、報酬モデルの精度が時間の経過とともにどのように変化するかを示しています。 写真 RLHFと微調整Meta は、RLHF を使用してモデルを有意義に改善する方法を示しました。彼らは、RLHF-V1、…、RLHF-V5 の 5 つの RLHF バージョンを繰り返しトレーニングしました。 写真 Meta は当初から、モデルにおけるデータ品質の重要性を指摘してきました。 Meta 氏は論文で次のように述べています。「必要なのは品質だけです。さまざまなソースからサードパーティの SFT (教師あり微調整) データを入手できますが、多くのデータは多様性に欠け、高品質ではないことがわかりました。特に、LLM モデルを会話指示に合わせるためのデータはそうです。サードパーティのデータセットの例は別にして、自社のサプライヤーからの少数の高品質注釈付き例を使用することで、パフォーマンスが大幅に向上しました。」 Meta は、数万の注釈を持つ SFT が高品質の結果を達成するのに十分であることを発見しました。そのため、Meta は合計 27,540 件の注釈を収集した後、SFT の注釈作業を停止しました。 Meta 氏はまた、異なる注釈プラットフォームとベンダー提供のデータによって下流のモデルのパフォーマンスに違いが生じる可能性があることを観察し、ベンダー注釈付きデータであってもフォローアップ チェックが重要であることを示唆しました。 Meta データの品質を検証するために、180 個の例を注意深く調べ、手動で提供された注釈と、人間によるレビューを通じてモデルによって生成されたサンプルを比較しました。 データの品質が確立された後、Meta は強化学習コンポーネントに重点を置き始めました。 「私たちの研究では、特にコストと時間効率を考慮すると、強化学習が非常に効果的であることがわかりました」とメタ氏は論文で述べています。「私たちの研究結果は、RLHF の成功の重要な要因は、注釈付けプロセス全体を通じて人間と LLM の相乗効果を促進することであると強調しています。」 Meta 氏の発言は、RLHF が本質的にモデル性能の上限を向上させることを明確に指摘した最初の論文であるため、非常に興味深いものです。一方、他の研究チームは、RLHF は重要であると信じながらも、それを安全ツールとしてのみ見なしています。 ネイサン・ランバートは、効果的な RLHF には少なくとも中規模のチームが必要であると考えています。 1〜3 人のチームでも優れた指導モデルを公開できますが、この RLHF には少なくとも 6〜10 人のチームが必要だと彼は考えています。時間が経つにつれて、この数は減少する可能性があります。 評価するこの論文では、彼らのモデルをさまざまな側面から評価しています。以下の図は、Llama 2-Chat モデルの人間による評価結果をオープンソース モデルおよびクローズド ソース モデルと比較したものです。結果は、Llama 2-Chat モデルがシングルターン プロンプトとマルチターン プロンプトの両方でオープンソース モデルを大幅に上回っていることを示しています。特に、Llama 2-Chat 7B モデルは、60% のキューで MPT-7B-chat モデルよりも優れたパフォーマンスを発揮します。 Llama 2-Chat 34B モデルは、同等の能力を持つ Vicuna-33B および Falcon 40B モデルとの戦闘で、総合勝率が 75% を超えました。 写真 図 11 は、セキュリティと有用性の観点から見たさまざまな SFT および RLHF バージョンの進捗状況を報告しています。 次の図は、バイアス、レッドチーム、事前トレーニング手順など、セキュリティに関するいくつかの結果を示しています。 写真 上記はNathaniel Lambert氏のブログの主な内容です。彼は現在もLlama 2の続編分析記事を準備中です。ご興味のある方はぜひご覧ください。 |
<<: 南洋理工大学の最新の視覚言語モデルの概要:事前トレーニング、転移学習、知識蒸留
>>: 12 のモダリティ、1 つの学習フレームワーク、Meta-Transformer がバックボーン ネットワークの統合を実現
実際、ChatGPTによって引き起こされたこの新しいAIの波では、世界的なテクノロジー大手、AIメー...
BAT の幹部は、先日終了した IT リーダーシップ サミットで人工知能に焦点を当てました。ロビン・...
AI が採用業務を自動化し続けるにつれて、採用担当者のスキルが変化するという共通認識が広まりつつあり...
検索エンジンは一般的に、各 Web ページに対して一連の情報フィンガープリントが計算されるという考え...
「このフォーラムは最先端の技術を採用しており、幅広いトピックをカバーしています。まったく不満のないフ...
エンジニアリング分野では、機械学習の応用は想像されているほど一般的ではありませんが、ディープラーニン...
人工知能は、機械を通じて人間の思考と意思決定をシミュレートすることに重点を置いたコンピューターサイエ...
Google LLC のクラウド コンピューティング部門は本日、オープンソースの人工知能モデルを共有...
「おはようございます、ジョーンズさん。ロンドン・ガトウィック空港からパリへの『ニューノーマル』フライ...
[[251560]] Nvidia は、従来のモデリングやグラフィック レンダリング エンジンではな...
ビッグデータダイジェスト制作出典: サイエンスデイリー編集者: ジェーン人工知能は、ビジネスから工業...
米国のエレクトロニクス業界向け戦略コンサルティング会社、インターナショナル・ビジネス・ストラテジーズ...
1. はじめにこの論文では、新しい MAGIC (iMAge-guided text Generat...