7Bモデルがまた手に入ると最高ですね！ 700億のLLaMA2を突破、Appleのコンピュータは

「調整」に 500 ドルかかる 70 億パラメータのモデルは、700 億パラメータの Llama 2 に勝ります。

さらに、ラップトップでも簡単に実行でき、パフォーマンスは ChatGPT に匹敵します。

重要なポイント:無料、お金は必要ありません。

HuggingFace H4 チームが作成したオープンソースモデルZephyr-7Bはサメを熱狂させました。

その基礎となるモデルは、しばらく前に人気が出たオープンソースの大規模モデルMistral-7Bであり、「欧州 OpenAI」として知られる Mistral AI によって作成されました。

ご存知のとおり、Mistral-7B のリリースから 2 週間も経たないうちに、Llama が最初にリリースされたときにさまざまな「アルパカ」が急速に登場したのと同じように、さまざまな微調整バージョンが次々と登場しました。

すべてのバリエーションの中で Zephyr が成功した鍵は、チームが Mistral に基づく直接選好最適化 (DPO) を使用して、公開データセット上でモデルを微調整したことです。

チームはまた、データセットの組み込みアライメントを削除すると、 MT Bench のパフォーマンスがさらに向上する可能性があることも発見しました。第 1 世代のZephyr-7B-alphaの平均 MT-Bench スコアは 7.09 で、Llama2-70B-Chat を上回りました。

△MT-Benchは、複数ラウンドの対話を処理するモデルの能力を評価するためのベンチマークテストです。質問セットは、ライティング、ロールプレイング、抽出などを含む8つのカテゴリをカバーしています。

重要なのは、その後再びアップグレードされたことです。

H4チームは第2世代のZephyr-7B-betaを打ち上げました。さらに、GPT-4とClaude 2からアライメントを抽出して小規模モデルに注入するというアイデアを検討し、小規模モデル向けに蒸留直接選好最適化（dDPO）を使用する手法を開発したと付け加えた。

第2世代Zephyrでは、平均MT-Benchスコアが7.34に向上しました。

AlpacaEval では、Zephyr の勝率は 90.6% で、ChatGPT (3.5) よりも優れています。

集まったネットユーザーは全員、Zephyr を絶賛しました。lmsys チームは、Zephyr-7b-beta の Elo スコアも明らかにしました。スコアは非常に高くなっています。

内部のArenaチャートは13Bモデルを超えました。

中にはこう言う人もいました。

DPO メソッドが実際のアプリケーションで優れたパフォーマンスを発揮するのを見るのは、おそらく今年の大規模言語モデルの開発で最もエキサイティングなことです。

より多くのネットユーザーが Zephyr のテストを開始しており、その結果は驚くほど良好です。

フランス語で「ミストラル」は乾燥した冷たい強い風を意味し、「ゼファー」は穏やかで心地よい西風を意味します。

ラマの向こうにあるのは動物園で、こちらは間違いなく気象局です。

最高の7Bモデルが再び手を変える

まず、Zephyr を実行するためのコンピューターの構成要件について説明します。実際に試してみたところ、ネットユーザーからは「タイパンツはホット」という声が上がっています！、ノートパソコン（Apple M1 Pro）で十分であり、「結果は非常に良好です。」

有効性に関しては、Llama Index (旧称 GPT Index) チームもテストを実施しました。

現在、Zephyr は、高レベルの RAG/エージェントタスクで優れたパフォーマンスを発揮する唯一のオープンソース 7B モデルであることがわかりました。

データは、Zephyr の高度な RAG タスクパフォーマンスが GPT-3.5 や Claude 2 と競合できることも示しています。

さらに、Zephyr は RAG で優れたパフォーマンスを発揮するだけでなく、ルーティング、クエリプランニング、複雑な SQL ステートメントの取得、構造化データの抽出でも優れたパフォーマンスを発揮すると付け加えました。

担当者はテスト結果も発表した。MT-Benchでは、Zephyr-7B-betaはLlama2-Chat-70Bなどの大型モデルと比較して優れたパフォーマンスを示した。

しかし、コーディングや数学などのより複雑なタスクでは、Zephyr-7B-beta は独自のモデルに遅れをとっており、その差を埋めるにはさらなる研究が必要です。

強化学習の放棄

誰もが Zephyr の有効性をテストしていますが、開発者は、最も興味深いのはさまざまな指標ではなく、モデルのトレーニング方法であると述べています。

ハイライトは次のようにまとめられます。

最高の小規模オープンソース事前トレーニング済みモデルの微調整: Mistral 7B
大規模嗜好データセットの利用: UltraFeedback
強化学習の代わりに直接選好最適化（DPO）を使用する
予想外に、優先データセットに過剰適合すると、より良い結果が得られます

詳しく言うと、冒頭で述べたように、Zephyr の効果が 70B の Llama 2 を上回ることができる理由は、主に特殊な微調整方法を使用しているためです。

従来のPPO強化学習法とは異なり、研究チームはスタンフォード大学とCZバイオハブが最近提案したDPO法を使用しました。

研究者らは次のように述べた。

DPO は PPO よりもはるかに安定しています。

DPO は次のように簡単に説明できます。

モデルの出力を人間の好みにより近づけるために、従来の方法では常に報酬モデルを使用してターゲットモデルを微調整してきました。良い成果に対しては報酬があり、悪い成果に対しては報酬はありません。

DPO メソッドはモデリング報酬関数をバイパスします。これは、好みデータに基づいてモデルを直接最適化することと同じです。

一般的に、DPO は強化学習の困難さとトレーニングコストの高さという問題を、人間によるフィードバックによって解決します。

特に Zephyr のトレーニングでは、研究チームは最初に、ChatGPT によって生成された 160 万件の会話 (合理化後は約 20 万件が残っています) を含む UltraChat データセットの合理化されたバリアントで Zephyr-7B-alpha を微調整しました。

(フィルタリングを簡素化した理由は、チームが Zephyr が「こんにちは。お元気ですか?」のように大文字表記を間違えたり、「私には個人的な X がありません」で応答を始めたりすることがあることを発見したためです。)

その後、TRL の DPO トレーナーメソッドを使用して、公開されている openbmb/UltraFeedback データセットを使用してモデルをさらに調整しました。

データセットには、さまざまなモデルからの 64,000 個のプロンプトと応答のペアが含まれています。各応答は、有用性などの基準に基づいて GPT-4 によってランク付けされ、スコアが割り当てられ、そこからAI の好みが推測されます。

興味深い発見は、DPO メソッドを使用する場合、トレーニング時間が長くなるにつれて、オーバーフィッティング後の効果が実際に向上することです。研究者たちは、これが SFT における過剰適合に似ていると考えています。

研究チームが、この方法を使用してモデルを微調整するコストはわずか 500 ドルであり、これは 16 台の A100 で 8 時間実行することを意味すると紹介したことも特筆に値します。

Zephyr をベータ版にアップグレードする際、チームは自分たちのアプローチについて説明を続けました。

彼らは、大規模なモデルに対して蒸留教師あり微調整 (dSFT) を検討しましたが、このアプローチではモデルが調整されず、ユーザーの意図によく一致する出力を生成できませんでした。

そこでチームは、AI フィードバック (AIF) からの嗜好データを使用して「教師モデル」で出力をランク付けし、データセットを形成し、その後、蒸留直接嗜好最適化 (dDPO) を適用して、微調整中に追加のサンプリングを必要とせずにユーザーの意図に沿ったモデルをトレーニングしようとしました。

研究者らは SFT なしでも効果をテストし、パフォーマンスが大幅に低下したことを発見しました。これは、dSFT ステップが重要であることを示しています。

このモデルはオープンソースで市販されているだけでなく、試用できるデモも用意されています。それでは見てみましょう。

デモ体験

まず、それをテストするために「遅れている」という質問を持ち出す必要があります。

「両親が結婚するときに私を連れて行ってくれない」という質問に対して、ゼファーの答えは全体的に非常に正確でした。

ChatGPT はこの質問には本当に勝てません。

テスト中に、Zephyr が OpenAI の GPT-4 のリリースなどの最近のイベントも認識していることもわかりました。

これは実際には基礎となるモデルに関係しています。ミストラルの関係者はトレーニングデータの期限を指定しませんでした。

しかし、一部のネットユーザーは以前にもこれをテストしており、今年3月に何が起こったかも知っている。

対照的に、Llama 2 の事前トレーニングデータは 2022 年 9 月まで有効であり、微調整データは最大で 2023 年 6 月まで有効です。

さらに、Zephyr は非常に高速に応答するため、コードを書いたりストーリーを作ったりするのが簡単になります。 :

Zephyr は英語での質問への回答が優れていること、また「幻覚」という一般的なモデルの問題も抱えていることは特筆に値します。

研究者らは幻覚の問題にも言及しており、入力ボックスの下にはモデルによって生成されたコンテンツが不正確または間違っている可能性があることを示す小さなテキストの行があります。

重要なのは、Zephyr が人間の好みに合わせるために人間のフィードバック強化学習などの方法を使用せず、ChatGPT の応答フィルタリング方法も採用していないことです。

えーっと、魚と熊の手のどちらかを選ばなければなりません。

Zephyr はわずか 700 億のパラメータでこのような結果を達成できます。これは「100 ページの機械学習ブック」の著者である Andriy Burkov 氏を驚かせ、次のようにも述べています。

Zephyr-7B は、8k トークンのコンテキストウィンドウを持つ Mistral-7B モデルを使用して、Llama 2-70B に勝利しました。理論上、その注目範囲は 128K トークンまで高くなる可能性があります。

もしゼファーが70Bモデルだったらどうなるでしょうか？ GPT-4 を上回るパフォーマンスを発揮しますか?ありそうです。

Zephyr-7Bに興味がある方は、huggingfaceで試してみることができます。

https://huggingface.co/spaces/HuggingFaceH4/zephyr-chat

論文リンク: https://arxiv.org/abs/2310.16944

<<: エージェントは迅速なエンジニアリングに使用されます

>>: 北京大学チーム：大規模なモデルで「幻覚」を誘発するために必要なのは、文字化けしたコードの文字列だけです！大きなアルパカも小さなアルパカもすべて影響を受けた

会話型AIの本当の限界は人間の忍耐力だ

ブログ

AIによる顔の改造の一般的な手法の詳細な説明

ブログ

7Bモデルがまた手に入ると最高ですね！ 700億のLLaMA2を突破、Appleのコンピュータは

△MT-Benchは、複数ラウンドの対話を処理するモデルの能力を評価するためのベンチマークテストです。質問セットは、ライティング、ロールプレイング、抽出などを含む8つのカテゴリをカバーしています。

最高の7Bモデルが再び手を変える

強化学習の放棄

デモ体験

会話型AIの本当の限界は人間の忍耐力だ

AIによる顔の改造の一般的な手法の詳細な説明

スマート充電インフラ: 電気自動車の充電における人工知能の貢献

機械学習に効果的なデータを取得する方法小さなデータを扱うための 7 つのヒント (一読の価値あり)

視覚的なプロンプトを使用してください。シュム氏は、トレーニングや微調整なしですぐに使用できるIDEAリサーチインスティテュートの新しいモデルを実演します。

AIとIoTがサプライチェーンにもたらす効果

IDC が製造業の予測を発表。AI によるリスク意思決定がリストに含まれているのはなぜですか?

推薦する

ディープラーニングアルゴリズムの全貌：その正しさを理論的に証明する

2026年までに、AIを活用したARアプリケーションのユーザー数は2億人を超える

2018 年 4 月の最も人気のある AI 機械学習プロジェクトトップ 5

米裁判所、人工知能コンピューターは発明を特許できないと判決

大規模なモデルをグローバルに微調整できないわけではなく、LoRA の方がコスト効率が高いだけです。チュートリアルは準備完了です。

マスク氏は5年以内に人間の言語を無意味にするだろうと言っているが、今回は狂気ではないかもしれない

Weilingsi チームは、グラフ同型性の下での同変性と高い計算効率を備えた「自然グラフネットワーク」メッセージパッシングメソッドを提案しました。

GPT-4 は人間よりも資金調達を理解しています。 AIビジネスプランがベンチャーキャピタルを熱狂させる

インテリジェントAIのサポートにより、Xiaomi YoupinはYESOUL Wild Beast高反発腹筋ホイールをクラウドファンディング

人工知能はソフトウェア開発のパラダイムを変えている

「機械」が他より賢く、「技術」が他より劣っているという観察と思考

エア入力方式！浙江大学の最新研究：空中で指を動かすことでスマートウォッチにテキストを入力できる

テンセントクラウドが7つの新製品をリリース、AIアプリケーションは洗練へ向かう