Zephyr は、Hugging Face がリリースした一連の大規模言語モデルであり、蒸留教師あり微調整 (dSFT) を使用して大規模なモデルをトレーニングし、タスクの精度を大幅に向上させます。 2023 年は Big Language Model (LLM) とオープンソースの年です。多くのスタートアップ企業や企業は、ChatGPT や Claude などの独自の LLM に対抗して、モデルと重みをオープンソース化しています。 2023 年の主な企業とモデル (オープンソース) には、次のようなものがあります。
しかし、導入が比較的容易で安価な 7B モデルは、70B などのより大規模なモデルとは比較になりません。最も強力なオープンソース モデルは Mistral 7B であり、これは多くの大型モデルよりも優れた性能を発揮します。 図1. ミストラル7Bと他のモデルの比較 これらの小さなモデルでは、依然として自然な手がかりにうまく反応できず、適切な手がかりエンジニアリングが必要であることがわかります。 導入Zephyr 7B は、ユーザーの意図に一致しながらも、大規模なモデルよりも優れたパフォーマンスを発揮する、より小型の言語モデルを作成することを主な目的として、Hugging Face H4 チームによって作成されたモデルです。 Zephyr は、主に蒸留の利点を考慮して作成された Mistral-7B の調整バージョンであり、学術的および会話的なベンチマークの点では 70B モデルと同等です。 図2. Zephyr-7Bの性能比較 主な特徴Zephyr が優れたパフォーマンスを発揮できたのは、H4 チームがこれらの主要テクノロジーを使用したからです。
自己ガイド型データ作成と DSFT従来、教師あり微調整 (SFT) は、大規模な言語モデルのデータを作成するための高品質の指示を通じて行われてきました。このデータの構築にはコストがかかり、人間による監督が必要です。 注目に値するアプローチの 1 つは、教師モデル (トレーニング済みの LLM) を使用して指示と応答を生成することです。この蒸留手法は Alpaca で初めて使用され、蒸留された教師あり微調整の助けを借りて、小規模モデルのパフォーマンスが大規模モデルを上回ることができることが実証されました。 図3. 自己指向パイプライン H4 チームは Zephyr を使用して、DSFT を実行するための高品質の教師あり (指示と完了) データセットを構築しました。生成された指示/完了に基づいてモデルをトレーニングすることは、DSFT (Distilled Supervised Fine-Tuning) と呼ばれる蒸留形式です。 フィードバック収集大規模な言語モデルは、多くの場合、人間によるフィードバックによる強化学習 (RLHF) を使用して調整されます。 Zephyr は、Ultra Feedback アプローチに従って、より優れた教師モデル (GPT-4 など) からのフィードバックを使用して、モデルの好みを調整します。 図4. スーパーフィードバック構築プロセス 仕組みとしては、SFT からの各教師ありプロンプトが 4 つのモデル (Claude、Llama、Falcon など) に渡され、1 つのプロンプトに対する 4 つの応答のそれぞれが GPT-4 を使用して採点されます。これで、入力 (x)、最も評価の高い補完 (yw)、および評価の低い補完として表されるランダムなプロンプト (yl) で構成されるデータセットが作成されました。つまり、トリプレット (x、yw、yl) が作成されました。 好みの最適化この最後のステップの目標は、yl (最低スコアの完了) よりも yw (最高スコアの完了) に対するモデルの優先順位を最大化することです。これは、DPO (Direct Preference Optimization) を使用して行われます。 DPO の使用は通常の RLHF を使用するよりも簡単で、直感的に RLHF よりもパフォーマンスが優れています。この例の方法は、教師モデルの助けを借りて生成された蒸留データセットを使用するため、dDPO と呼ばれます。 図5. DPOとRLHF アルゴリズム全体は次のようになります。 これは次の手順に変換できます。
トレーニングの詳細Zephyr が使用するベース モデルは、リリース当時最も先進的なオープン ソース モデルであった Mistral-7B です。微調整と調整には TRL ライブラリを使用しました。 Deep-Speed Zero 3とFlash-Attention 2を使用してトレーニングを最適化および高速化し、GPUを最大限に活用します。モデルは、重み減衰なしの AdamW オプティマイザーを使用してトレーニングされます。すべての実験は、bfloat16 精度を使用して 16 台の A100 で実行され、完了するまでに通常 2 ~ 4 時間かかりました。 Zephyr トレーニング手順の詳細については、元の論文 (https://arxiv.org/pdf/2310.16944.pdf) を参照してください。 結果Zephyr チームは、最良の技術を組み合わせて、わずか 70 億のパラメータで 400 億のパラメータのモデルのパフォーマンスに匹敵し、700 億のパラメータのチャット モデルに匹敵する大規模な言語モデルをトレーニングしました。 表2: Zephyrと他のLLMとの比較 図6. Zephyrと他のLLMとの比較 使用Zephyr モデルは Hugging Face から無料で入手でき、他の言語モデルと同様に使用できます。 出力: 結論はZephyr-7B は、小型モデルに改良された LLM の機能を実証する小型モデルです。結果として得られたモデル Zephyr-7B は Mistral-7B をベースとしており、70 億パラメータのチャット モデルとして新たな最先端記録を樹立し、MT-Bench 上の Llama2-Chat-70B をも上回りました。 参考文献:
原題: Zephyr 7B の探索: 最新の大規模言語モデルの包括的なガイド、著者: Ahmad Anis リンク: https://www.kdnuggets.com/exploring-the-zephyr-7b-a-comprehensive-guide-to-the-latest-large-language-model. |
>>: OpenAIに勝る完璧な埋め込みモデルであるNomic Embedが、重み、データ、コードがすべてオープンソースで利用可能になりました。
[[92385]] Windows XP ユーザーは、現在の XP が 2001 年にリリースされた...
日用消費財業界の商品識別需要シナリオでは、日用消費財ブランドの営業担当者は、販売のために端末店舗を訪...
2017 年に最も価値のある機械学習スキルはどれでしょうか? Quora の 2 つの回答では、最...
機械の故障診断における人工知能の応用方向を次に示します。 [[342398]] 1. 機械故障診断に...
人工知能 (AI) の登場により、企業の運営方法は劇的に変化し、PR ボットが顧客サービスの革命にお...
最近、CVPR2022の各競技の結果が次々と発表されました。ByteDanceの知能創造AIプラット...
翻訳者注:人工知能分野の発展は学者の貢献と切り離せないものです。しかし、研究が進むにつれて、「クリッ...
[[376715]] > Unsplash の Alina Grubnyak による画像ニュー...
今日では、エッジに接続されるデバイスがますます増えています。さらに良いことに、人工知能と機械学習のお...
[[441161]]最近のガートナー社の 2 つのレポートによると、AI および機械学習プロジェク...
[51CTO.com クイック翻訳]企業の業務効率と事業部門の競争力を向上させるための重要なツールと...
MITのコンピュータサイエンスおよび人工知能研究所(CSAIL)の研究者らは、人間の操作者の脳波を読...
1月6日、海外メディアの報道によると、新型コロナウイルス肺炎流行の影響により、企業内での人工知能技術...