Zephyr は、Hugging Face がリリースした一連の大規模言語モデルであり、蒸留教師あり微調整 (dSFT) を使用して大規模なモデルをトレーニングし、タスクの精度を大幅に向上させます。 2023 年は Big Language Model (LLM) とオープンソースの年です。多くのスタートアップ企業や企業は、ChatGPT や Claude などの独自の LLM に対抗して、モデルと重みをオープンソース化しています。 2023 年の主な企業とモデル (オープンソース) には、次のようなものがあります。
しかし、導入が比較的容易で安価な 7B モデルは、70B などのより大規模なモデルとは比較になりません。最も強力なオープンソース モデルは Mistral 7B であり、これは多くの大型モデルよりも優れた性能を発揮します。 図1. ミストラル7Bと他のモデルの比較 これらの小さなモデルでは、依然として自然な手がかりにうまく反応できず、適切な手がかりエンジニアリングが必要であることがわかります。 導入Zephyr 7B は、ユーザーの意図に一致しながらも、大規模なモデルよりも優れたパフォーマンスを発揮する、より小型の言語モデルを作成することを主な目的として、Hugging Face H4 チームによって作成されたモデルです。 Zephyr は、主に蒸留の利点を考慮して作成された Mistral-7B の調整バージョンであり、学術的および会話的なベンチマークの点では 70B モデルと同等です。 図2. Zephyr-7Bの性能比較 主な特徴Zephyr が優れたパフォーマンスを発揮できたのは、H4 チームがこれらの主要テクノロジーを使用したからです。
自己ガイド型データ作成と DSFT従来、教師あり微調整 (SFT) は、大規模な言語モデルのデータを作成するための高品質の指示を通じて行われてきました。このデータの構築にはコストがかかり、人間による監督が必要です。 注目に値するアプローチの 1 つは、教師モデル (トレーニング済みの LLM) を使用して指示と応答を生成することです。この蒸留手法は Alpaca で初めて使用され、蒸留された教師あり微調整の助けを借りて、小規模モデルのパフォーマンスが大規模モデルを上回ることができることが実証されました。 図3. 自己指向パイプライン H4 チームは Zephyr を使用して、DSFT を実行するための高品質の教師あり (指示と完了) データセットを構築しました。生成された指示/完了に基づいてモデルをトレーニングすることは、DSFT (Distilled Supervised Fine-Tuning) と呼ばれる蒸留形式です。 フィードバック収集大規模な言語モデルは、多くの場合、人間によるフィードバックによる強化学習 (RLHF) を使用して調整されます。 Zephyr は、Ultra Feedback アプローチに従って、より優れた教師モデル (GPT-4 など) からのフィードバックを使用して、モデルの好みを調整します。 図4. スーパーフィードバック構築プロセス 仕組みとしては、SFT からの各教師ありプロンプトが 4 つのモデル (Claude、Llama、Falcon など) に渡され、1 つのプロンプトに対する 4 つの応答のそれぞれが GPT-4 を使用して採点されます。これで、入力 (x)、最も評価の高い補完 (yw)、および評価の低い補完として表されるランダムなプロンプト (yl) で構成されるデータセットが作成されました。つまり、トリプレット (x、yw、yl) が作成されました。 好みの最適化この最後のステップの目標は、yl (最低スコアの完了) よりも yw (最高スコアの完了) に対するモデルの優先順位を最大化することです。これは、DPO (Direct Preference Optimization) を使用して行われます。 DPO の使用は通常の RLHF を使用するよりも簡単で、直感的に RLHF よりもパフォーマンスが優れています。この例の方法は、教師モデルの助けを借りて生成された蒸留データセットを使用するため、dDPO と呼ばれます。 図5. DPOとRLHF アルゴリズム全体は次のようになります。 これは次の手順に変換できます。
トレーニングの詳細Zephyr が使用するベース モデルは、リリース当時最も先進的なオープン ソース モデルであった Mistral-7B です。微調整と調整には TRL ライブラリを使用しました。 Deep-Speed Zero 3とFlash-Attention 2を使用してトレーニングを最適化および高速化し、GPUを最大限に活用します。モデルは、重み減衰なしの AdamW オプティマイザーを使用してトレーニングされます。すべての実験は、bfloat16 精度を使用して 16 台の A100 で実行され、完了するまでに通常 2 ~ 4 時間かかりました。 Zephyr トレーニング手順の詳細については、元の論文 (https://arxiv.org/pdf/2310.16944.pdf) を参照してください。 結果Zephyr チームは、最良の技術を組み合わせて、わずか 70 億のパラメータで 400 億のパラメータのモデルのパフォーマンスに匹敵し、700 億のパラメータのチャット モデルに匹敵する大規模な言語モデルをトレーニングしました。 表2: Zephyrと他のLLMとの比較 図6. Zephyrと他のLLMとの比較 使用Zephyr モデルは Hugging Face から無料で入手でき、他の言語モデルと同様に使用できます。 出力: 結論はZephyr-7B は、小型モデルに改良された LLM の機能を実証する小型モデルです。結果として得られたモデル Zephyr-7B は Mistral-7B をベースとしており、70 億パラメータのチャット モデルとして新たな最先端記録を樹立し、MT-Bench 上の Llama2-Chat-70B をも上回りました。 参考文献:
原題: Zephyr 7B の探索: 最新の大規模言語モデルの包括的なガイド、著者: Ahmad Anis リンク: https://www.kdnuggets.com/exploring-the-zephyr-7b-a-comprehensive-guide-to-the-latest-large-language-model. |
>>: OpenAIに勝る完璧な埋め込みモデルであるNomic Embedが、重み、データ、コードがすべてオープンソースで利用可能になりました。
かつて人々は AI の美しいビジョンを思い描いていましたが、現状は満足できるものではありません。 A...
[[236355]]職場で機械が人間の労働に取って代わるにつれ、その恩恵を受けるためには私たち全員が...
AI は驚異的な進歩を遂げていますが、多くの分野ではまだ限界があります。たとえば、コンピューター ゲ...
AI の恩恵を受ける業界はどれでしょうか?人工知能と機械学習はすでにさまざまな業界に導入されており...
7月24日、Appleは社内で従業員の業務を支援するためにチャットボットを使用しており、将来的には顧...
現在、人工知能、ビッグデータ、顔認識技術、クラウドコンピューティングなどの新技術が急速に発展し、産業...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
翻訳者 | 崔昊レビュー | ChonglouまとめGoogle Research の研究科学者であ...
編集:王昊、千山企画丨張傑新型コロナウイルス感染症の世界的大流行の発生と拡大により、過去2年間にわた...
今日のスマートフォンやノートパソコンに搭載されている顔認識機能のおかげで、顔認識テクノロジーの概念は...
4時間以上の対局の末、柯潔はAlphaGoに0.25ポイント差で負けた。対局後、アルファ碁の指導に参...