7Bモデルがまた手に入ると最高ですね! 700億のLLaMA2を突破、Appleのコンピュータは

7Bモデルがまた手に入ると最高ですね! 700億のLLaMA2を突破、Appleのコンピュータは

「調整」に 500 ドルかかる 70 億パラメータのモデルは、700 億パラメータの Llama 2 に勝ります。

さらに、ラップトップでも簡単に実行でき、パフォーマンスは ChatGPT に匹敵します。

重要なポイント:無料、お金は必要ありません

HuggingFace H4 チームが作成したオープンソース モデルZephyr-7Bはサメを熱狂させました。

その基礎となるモデルは、しばらく前に人気が出たオープンソースの大規模モデルMistral-7Bであり、「欧州 OpenAI」として知られる Mistral AI によって作成されました。

ご存知のとおり、Mistral-7B のリリースから 2 週間も経たないうちに、Llama が最初にリリースされたときにさまざまな「アルパカ」が急速に登場したのと同じように、さまざまな微調整バージョンが次々と登場しました。

すべてのバリエーションの中で Zephyr が成功した鍵は、チームが Mistral に基づく直接選好最適化 (DPO) を使用して、公開データセット上でモデルを微調整したことです。

チームはまた、データセットの組み込みアライメントを削除すると、 MT Bench のパフォーマンスがさらに向上する可能性があることも発見しました。第 1 世代のZephyr-7B-alphaの平均 MT-Bench スコアは 7.09 で、Llama2-70B-Chat を上回りました。

△MT-Benchは、複数ラウンドの対話を処理するモデルの能力を評価するためのベンチマークテストです。質問セットは、ライティング、ロールプレイング、抽出などを含む8つのカテゴリをカバーしています。

重要なのは、その後再びアップグレードされたことです。

H4チームは第2世代のZephyr-7B-betaを打ち上げました。さらに、GPT-4とClaude 2からアライメントを抽出して小規模モデルに注入するというアイデアを検討し、小規模モデル向けに蒸留直接選好最適化(dDPO)を使用する手法を開発したと付け加えた。

第2世代Zephyrでは、平均MT-Benchスコアが7.34に向上しました。

AlpacaEval では、Zephyr の勝率は 90.6% で、ChatGPT (3.5) よりも優れています。

集まったネットユーザーは全員、Zephyr を絶賛しました。lmsys チームは、Zephyr-7b-beta の Elo スコアも明らかにしました。スコアは非常に高くなっています。

内部のArenaチャートは13Bモデルを超えました。

中にはこう言う人もいました。

DPO メソッドが実際のアプリケーションで優れたパフォーマンスを発揮するのを見るのは、おそらく今年の大規模言語モデルの開発で最もエキサイティングなことです。

より多くのネットユーザーが Zephyr のテストを開始しており、その結果は驚くほど良好です。

フランス語で「ミストラル」は乾燥した冷たい強い風を意味し、「ゼファー」は穏やかで心地よい西風を意味します。

ラマの向こうにあるのは動物園で、こちらは間違いなく気象局です。

最高の7Bモデルが再び手を変える

まず、Zephyr を実行するためのコンピューターの構成要件について説明します。実際に試してみたところ、ネットユーザーからは「タイパンツはホット」という声が上がっています! 、ノートパソコン(Apple M1 Pro)で十分であり、「結果は非常に良好です。」

有効性に関しては、Llama Index (旧称 GPT Index) チームもテストを実施しました。

現在、Zephyr は、高レベルの RAG/エージェント タスクで優れたパフォーマンスを発揮する唯一のオープン ソース 7B モデルであることがわかりました。

データは、Zephyr の高度な RAG タスク パフォーマンスが GPT-3.5 や Claude 2 と競合できることも示しています。

さらに、Zephyr は RAG で優れたパフォーマンスを発揮するだけでなく、ルーティング、クエリ プランニング、複雑な SQL ステートメントの取得、構造化データの抽出でも優れたパフォーマンスを発揮すると付け加えました。

担当者はテスト結果も発表した。MT-Benchでは、Zephyr-7B-betaはLlama2-Chat-70Bなどの大型モデルと比較して優れたパフォーマンスを示した。

しかし、コーディングや数学などのより複雑なタスクでは、Zephyr-7B-beta は独自のモデルに遅れをとっており、その差を埋めるにはさらなる研究が必要です。

強化学習の放棄

誰もが Zephyr の有効性をテストしていますが、開発者は、最も興味深いのはさまざまな指標ではなく、モデルのトレーニング方法であると述べています。

ハイライトは次のようにまとめられます。

  • 最高の小規模オープンソース事前トレーニング済みモデルの微調整: Mistral 7B
  • 大規模嗜好データセットの利用: UltraFeedback
  • 強化学習の代わりに直接選好最適化(DPO)を使用する
  • 予想外に、優先データセットに過剰適合すると、より良い結果が得られます

詳しく言うと、冒頭で述べたように、Zephyr の効果が 70B の Llama 2 を上回ることができる理由は、主に特殊な微調整方法を使用しているためです。

従来のPPO強化学習法とは異なり、研究チームはスタンフォード大学とCZバイオハブが最近提案したDPO法を使用しました。

研究者らは次のように述べた。

DPO は PPO よりもはるかに安定しています。

DPO は次のように簡単に説明できます。

モデルの出力を人間の好みにより近づけるために、従来の方法では常に報酬モデルを使用してターゲット モデルを微調整してきました。良い成果に対しては報酬があり、悪い成果に対しては報酬はありません。

DPO メソッドはモデリング報酬関数をバイパスします。これは、好みデータに基づいてモデルを直接最適化することと同じです。

一般的に、DPO は強化学習の困難さとトレーニング コストの高さという問題を、人間によるフィードバックによって解決します。

特に Zephyr のトレーニングでは、研究チームは最初に、ChatGPT によって生成された 160 万件の会話 (合理化後は約 20 万件が残っています) を含む UltraChat データセットの合理化されたバリアントで Zephyr-7B-alpha を微調整しました。

(フィルタリングを簡素化した理由は、チームが Zephyr が「こんにちは。お元気ですか?」のように大文字表記を間違えたり、「私には個人的な X がありません」で応答を始めたりすることがあることを発見したためです。)

その後、TRL の DPO トレーナー メソッドを使用して、公開されている openbmb/UltraFeedback データセットを使用してモデルをさらに調整しました。

データセットには、さまざまなモデルからの 64,000 個のプロンプトと応答のペアが含まれています。各応答は、有用性などの基準に基づいて GPT-4 によってランク付けされ、スコアが割り当てられ、そこからAI の好みが推測されます。

興味深い発見は、DPO メソッドを使用する場合、トレーニング時間が長くなるにつれて、オーバーフィッティング後の効果が実際に向上することです。研究者たちは、これが SFT における過剰適合に似ていると考えています。

研究チームが、この方法を使用してモデルを微調整するコストはわずか 500 ドルであり、これは 16 台の A100 で 8 時間実行することを意味すると紹介したことも特筆に値します。

Zephyr をベータ版にアップグレードする際、チームは自分たちのアプローチについて説明を続けました。

彼らは、大規模なモデルに対して蒸留教師あり微調整 (dSFT) を検討しましたが、このアプローチではモデルが調整されず、ユーザーの意図によく一致する出力を生成できませんでした。

そこでチームは、AI フィードバック (AIF) からの嗜好データを使用して「教師モデル」で出力をランク付けし、データセットを形成し、その後、蒸留直接嗜好最適化 (dDPO) を適用して、微調整中に追加のサンプリングを必要とせずにユーザーの意図に沿ったモデルをトレーニングしようとしました。

研究者らは SFT なしでも効果をテストし、パフォーマンスが大幅に低下したことを発見しました。これは、dSFT ステップが重要であることを示しています。

このモデルはオープンソースで市販されているだけでなく、試用できるデモも用意されています。それでは見てみましょう。

デモ体験

まず、それをテストするために「遅れている」という質問を持ち出す必要があります。

「両親が結婚するときに私を連れて行ってくれない」という質問に対して、ゼファーの答えは全体的に非常に正確でした。

ChatGPT はこの質問には本当に勝てません。

テスト中に、Zephyr が OpenAI の GPT-4 のリリースなどの最近のイベントも認識していることもわかりました。

これは実際には基礎となるモデルに関係しています。ミストラルの関係者はトレーニングデータの期限を指定しませんでした。

しかし、一部のネットユーザーは以前にもこれをテストしており、今年3月に何が起こったかも知っている。

対照的に、Llama 2 の事前トレーニング データは 2022 年 9 月まで有効であり、微調整データは最大で 2023 年 6 月まで有効です。

さらに、Zephyr は非常に高速に応答するため、コードを書いたりストーリーを作ったりするのが簡単になります。 :

Zephyr は英語での質問への回答が優れていること、また「幻覚」という一般的なモデルの問題も抱えていることは特筆に値します。

研究者らは幻覚の問題にも言及しており、入力ボックスの下にはモデルによって生成されたコンテンツが不正確または間違っている可能性があることを示す小さなテキストの行があります。

重要なのは、Zephyr が人間の好みに合わせるために人間のフィードバック強化学習などの方法を使用せず、ChatGPT の応答フィルタリング方法も採用していないことです。

えーっと、魚と熊の手のどちらかを選ばなければなりません。

Zephyr はわずか 700 億のパラメータでこのような結果を達成できます。これは「100 ページの機械学習ブック」の著者である Andriy Burkov 氏を驚かせ、次のようにも述べています。

Zephyr-7B は、8k トークンのコンテキスト ウィンドウを持つ Mistral-7B モデルを使用して、Llama 2-70B に勝利しました。理論上、その注目範囲は 128K トークンまで高くなる可能性があります。

もしゼファーが70Bモデルだったらどうなるでしょうか? GPT-4 を上回るパフォーマンスを発揮しますか?ありそうです。

Zephyr-7Bに興味がある方は、huggingfaceで試してみることができます。

https://huggingface.co/spaces/HuggingFaceH4/zephyr-chat

論文リンク: https://arxiv.org/abs/2310.16944

<<:  エージェントは迅速なエンジニアリングに使用されます

>>:  北京大学チーム:大規模なモデルで「幻覚」を誘発するために必要なのは、文字化けしたコードの文字列だけです!大きなアルパカも小さなアルパカもすべて影響を受けた

ブログ    
ブログ    

推薦する

スケッチが本物の顔に変わる? AI: はい、草はいくらでも大丈夫です。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

よく使われるソートアルゴリズムの比較と分析

1. よく使われるソートアルゴリズムの簡単な説明以下では、主にソートアルゴリズムの基本的な概念と原則...

コンピューティングパワーのコストが急激に上昇したため、AIスタートアップがGoogleやMicrosoftなどの大手に挑戦することが難しくなった。

2月20日のニュースによると、コンピューティングコストが急騰しているため、人工知能業界の新興企業は...

MIT: この AI ソックスはあなたの行動を明らかにします | Nature サブジャーナル

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

20年間のAIベテランの告白

[[256514]] EyeSight Technologyの創設者兼CEO、周俊氏。彼は20年以上...

AI Coreの「正体」を1つの記事で理解する

[[251095]] 2018年の初めから年末にかけて、携帯電話業界では人工知能がキーワードとなって...

数時間のビデオを視聴するだけで人間のチャットを真似できますか? Facebookのロボットは表情が豊か

ヒューマノイドロボットの類似性は人間の好感度に比例するわけではありません。 1970年に日本のロボッ...

海外AI界が騒然! Googleの黒人女性AI倫理研究者が「退職」し騒動を引き起こす

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

企業は2024年に台頭するテクノロジーの波にどのように対応すべきでしょうか?

2023年は科学技術にとって重要な年と言えます。AI、モノのインターネット、ビッグデータ、クラウド...

...

ブロックチェーンにおける主流のコンセンサスアルゴリズムの簡単な分析

プルーフ・オブ・ワーク最も一般的なブロックチェーンのコンセンサス アルゴリズムは、ビットコインのプル...

情報の流れの中のゲーム:「易典子心」の探求と思考

[51CTO.comより引用] 「易典子訓」アプリを開くと、オープニング画面に「良質なコンテンツ、価...

人工知能技術が伝染病の予防と制御に役立つ

[[318426]]現在、人工知能技術は急速に発展しており、特に医療保健の分野では、生活の各分野で広...

Android はなぜ弱い暗号化を使用するのでしょうか?

Android 2.2.1 で使用されるデフォルトの暗号化アルゴリズムは AES 256-SHA1...