「小さいけれど優秀」な大規模言語モデル Zephyr 7B の詳細な説明

「小さいけれど優秀」な大規模言語モデル Zephyr 7B の詳細な説明

Zephyr は、Hugging Face がリリースした一連の大規模言語モデルであり、蒸留教師あり微調整 (dSFT) を使用して大規模なモデルをトレーニングし、タスクの精度を大幅に向上させます。

2023 年は Big Language Model (LLM) とオープンソースの年です。多くのスタートアップ企業や企業は、ChatGPT や Claude などの独自の LLM に対抗して、モデルと重みをオープンソース化しています。 2023 年の主な企業とモデル (オープンソース) には、次のようなものがあります。

  • メタ (Llama および LLMav2)
  • TII (ファルコン 7B、40B、180B)
  • ミストラル (ミストラル 7B およびミストラル 8x7B)

しかし、導入が比較的容易で安価な 7B モデルは、70B などのより大規模なモデルとは比較になりません。最も強力なオープンソース モデルは Mistral 7B であり、これは多くの大型モデルよりも優れた性能を発揮します。

図1. ミストラル7Bと他のモデルの比較

これらの小さなモデルでは、依然として自然な手がかりにうまく反応できず、適切な手がかりエンジニアリングが必要であることがわかります。

導入

Zephyr 7B は、ユーザーの意図に一致しながらも、大規模なモデルよりも優れたパフォーマンスを発揮する、より小型の言語モデルを作成することを主な目的として、Hugging Face H4 チームによって作成されたモデルです。

Zephyr は、主に蒸留の利点を考慮して作成された Mistral-7B の調整バージョンであり、学術的および会話的なベンチマークの点では 70B モデルと同等です。

図2. Zephyr-7Bの性能比較

主な特徴

Zephyr が優れたパフォーマンスを発揮できたのは、H4 チームがこれらの主要テクノロジーを使用したからです。

  • 自己ガイド型データ作成と DSFT (蒸留監視付き微調整)
  • フィードバック収集
  • DSFT モデルのための DDPO (蒸留直接選好最適化)

自己ガイド型データ作成と DSFT

従来、教師あり微調整 (SFT) は、大規模な言語モデルのデータを作成するための高品質の指示を通じて行われてきました。このデータの構築にはコストがかかり、人間による監督が必要です。

注目に値するアプローチの 1 つは、教師モデル (トレーニング済みの LLM) を使用して指示と応答を生成することです。この蒸留手法は Alpaca で初めて使用され、蒸留された教師あり微調整の助けを借りて、小規模モデルのパフォーマンスが大規模モデルを上回ることができることが実証されました。

図3. 自己指向パイプライン

H4 チームは Zephyr を使用して、DSFT を実行するための高品質の教師あり (指示と完了) データセットを構築しました。生成された指示/完了に基づいてモデルをトレーニングすることは、DSFT (Distilled Supervised Fine-Tuning) と呼ばれる蒸留形式です。

フィードバック収集

大規模な言語モデルは、多くの場合、人間によるフィードバックによる強化学習 (RLHF) を使用して調整されます。 Zephyr は、Ultra Feedback アプローチに従って、より優れた教師モデル (GPT-4 など) からのフィードバックを使用して、モデルの好みを調整します。

図4. スーパーフィードバック構築プロセス

仕組みとしては、SFT からの各教師ありプロンプトが 4 つのモデル (Claude、Llama、Falcon など) に渡され、1 つのプロンプトに対する 4 つの応答のそれぞれが GPT-4 を使用して採点されます。これで、入力 (x)、最も評価の高い補完 (yw)、および評価の低い補完として表されるランダムなプロンプト (yl) で構成されるデータセットが作成されました。つまり、トリプレット (x、yw、yl) が作成されました。

好みの最適化

この最後のステップの目標は、yl (最低スコアの完了) よりも yw (最高スコアの完了) に対するモデルの優先順位を最大化することです。これは、DPO (Direct Preference Optimization) を使用して行われます。 DPO の使用は通常の RLHF を使用するよりも簡単で、直感的に RLHF よりもパフォーマンスが優れています。この例の方法は、教師モデルの助けを借りて生成された蒸留データセットを使用するため、dDPO と呼ばれます。

図5. DPOとRLHF

アルゴリズム全体は次のようになります。

これは次の手順に変換できます。

  • dSFT モデルから (x, yw) と (x, yl) の確率を計算します (順方向のみ)。
  • dDPOモデルから(x, yw)と(x, yl)の確率を計算します。
  • 式 1 を計算し、バックプロパゲートして更新します。手順を繰り返します。

トレーニングの詳細

Zephyr が使用するベース モデルは、リリース当時最も先進的なオープン ソース モデルであった Mistral-7B です。微調整と調整には TRL ライブラリを使用しました。 Deep-Speed Zero 3とFlash-Attention 2を使用してトレーニングを最適化および高速化し、GPUを最大限に活用します。モデルは、重み減衰なしの AdamW オプティマイザーを使用してトレーニングされます。すべての実験は、bfloat16 精度を使用して 16 台の A100 で実行され、完了するまでに通常 2 ~ 4 時間かかりました。 Zephyr トレーニング手順の詳細については、元の論文 (https://arxiv.org/pdf/2310.16944.pdf) を参照してください。

結果

Zephyr チームは、最良の技術を組み合わせて、わずか 70 億のパラメータで 400 億のパラメータのモデルのパフォーマンスに匹敵し、700 億のパラメータのチャット モデルに匹敵する大規模な言語モデルをトレーニングしました。

表2: Zephyrと他のLLMとの比較

図6. Zephyrと他のLLMとの比較

使用

Zephyr モデルは Hugging Face から無料で入手でき、他の言語モデルと同様に使用できます。

 import torch from transformers import pipeline pipe = pipeline("text-generation", model="HuggingFaceH4/zephyr-7b-alpha", # can also use the beta model torch_dtype=torch.bfloat16, device_map="auto") # We use the tokenizer's chat template to format each message - see https://huggingface.co/docs/transformers/main/en/chat_templating messages = [ { "role": "system", "content": "You are a friendly chatbot who always responds in the style of a pirate", }, {"role": "user", "content": "How many helicopters can a human eat in one sitting?"}, ] prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True) outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95) print(outputs[0]["generated_text"])

出力:

 <|system|> You are a friendly chatbot who always responds in the style of a pirate. <|user|> How many helicopters can a human eat in one sitting? <|assistant|> Ah, me hearty matey! But yer question be a puzzler! A human cannot eat a helicopter in one sitting, as helicopters are not edible. They be made of metal, plastic, and other materials, not food!

結論は

Zephyr-7B は、小型モデルに改良された LLM の機能を実証する小型モデルです。結果として得られたモデル Zephyr-7B は Mistral-7B をベースとしており、70 億パラメータのチャット モデルとして新たな最先端記録を樹立し、MT-Bench 上の Llama2-Chat-70B をも上回りました。

参考文献:

  • Zephyr: 言語モデルのアライメントのための直接蒸留 (https://arxiv.org/abs/2310.16944)
  • HuggingFace Zephyr ブログ投稿 (https://huggingface.co/blog/Isamu136/understanding-zephyr)
  • セルフガイド: https://arxiv.org/abs/2212.10560
  • スーパーフィードバック: https://arxiv.org/abs/2310.01377

原題: Zephyr 7B の探索: 最新の大規模言語モデルの包括的なガイド、著者: Ahmad Anis

リンク: https://www.kdnuggets.com/exploring-the-zephyr-7b-a-comprehensive-guide-to-the-latest-large-language-model.

<<: 

>>:  OpenAIに勝る完璧な埋め込みモデルであるNomic Embedが、重み、データ、コードがすべてオープンソースで利用可能になりました。

ブログ    
ブログ    

推薦する

Windows Update で使用される指数アルゴリズムにより、XP マシンの速度が大幅に低下する

[[92385]] Windows XP ユーザーは、現在の XP が 2001 年にリリースされた...

Baidu PaddlePaddle EasyDL リテール版シェルフステッチングサービスのアーキテクチャとアルゴリズムの詳細な説明

日用消費財業界の商品識別需要シナリオでは、日用消費財ブランドの営業担当者は、販売のために端末店舗を訪...

...

2017 年に最も価値のある機械学習のスキルや知識は何ですか?

2017 年に最も価値のある機械学習スキルはどれでしょうか? Quora の 2 つの回答では、最...

機械故障診断における人工知能の応用方向

機械の故障診断における人工知能の応用方向を次に示します。 [[342398]] 1. 機械故障診断に...

...

顧客サービスの革命: 現代のビジネスにおける広報ロボットの役割

人工知能 (AI) の登場により、企業の運営方法は劇的に変化し、PR ボットが顧客サービスの革命にお...

アクセシブルな旅行はより安全です! ByteDanceの研究成果がCVPR2022 AVAコンペティションで優勝

最近、CVPR2022の各競技の結果が次々と発表されました。ByteDanceの知能創造AIプラット...

近年の機械学習の奇妙な状況

翻訳者注:人工知能分野の発展は学者の貢献と切り離せないものです。しかし、研究が進むにつれて、「クリッ...

ニューラルネットワークの背後にあるシンプルな数学

[[376715]] > Unsplash の Alina Grubnyak による画像ニュー...

エッジAIがスマートホームの未来である理由

今日では、エッジに接続されるデバイスがますます増えています。さらに良いことに、人工知能と機械学習のお...

AI プロジェクトの 85% が失敗します。何が悪かったのでしょうか?

[[441161]]最近のガートナー社の 2 つのレポートによると、AI および機械学習プロジェク...

エンタープライズ ナレッジ グラフが直面している機会、課題、解決策

[51CTO.com クイック翻訳]企業の業務効率と事業部門の競争力を向上させるための重要なツールと...

MIT は、思考を通じて機械にタスクを実行させるブラックテクノロジーを開発

MITのコンピュータサイエンスおよび人工知能研究所(CSAIL)の研究者らは、人間の操作者の脳波を読...

アルゴリズミア:人工知能は2021年に主流になる

1月6日、海外メディアの報道によると、新型コロナウイルス肺炎流行の影響により、企業内での人工知能技術...