7Bモデルがまた手に入ると最高ですね! 700億のLLaMA2を突破、Appleのコンピュータは

7Bモデルがまた手に入ると最高ですね! 700億のLLaMA2を突破、Appleのコンピュータは

「調整」に 500 ドルかかる 70 億パラメータのモデルは、700 億パラメータの Llama 2 に勝ります。

さらに、ラップトップでも簡単に実行でき、パフォーマンスは ChatGPT に匹敵します。

重要なポイント:無料、お金は必要ありません

HuggingFace H4 チームが作成したオープンソース モデルZephyr-7Bはサメを熱狂させました。

その基礎となるモデルは、しばらく前に人気が出たオープンソースの大規模モデルMistral-7Bであり、「欧州 OpenAI」として知られる Mistral AI によって作成されました。

ご存知のとおり、Mistral-7B のリリースから 2 週間も経たないうちに、Llama が最初にリリースされたときにさまざまな「アルパカ」が急速に登場したのと同じように、さまざまな微調整バージョンが次々と登場しました。

すべてのバリエーションの中で Zephyr が成功した鍵は、チームが Mistral に基づく直接選好最適化 (DPO) を使用して、公開データセット上でモデルを微調整したことです。

チームはまた、データセットの組み込みアライメントを削除すると、 MT Bench のパフォーマンスがさらに向上する可能性があることも発見しました。第 1 世代のZephyr-7B-alphaの平均 MT-Bench スコアは 7.09 で、Llama2-70B-Chat を上回りました。

△MT-Benchは、複数ラウンドの対話を処理するモデルの能力を評価するためのベンチマークテストです。質問セットは、ライティング、ロールプレイング、抽出などを含む8つのカテゴリをカバーしています。

重要なのは、その後再びアップグレードされたことです。

H4チームは第2世代のZephyr-7B-betaを打ち上げました。さらに、GPT-4とClaude 2からアライメントを抽出して小規模モデルに注入するというアイデアを検討し、小規模モデル向けに蒸留直接選好最適化(dDPO)を使用する手法を開発したと付け加えた。

第2世代Zephyrでは、平均MT-Benchスコアが7.34に向上しました。

AlpacaEval では、Zephyr の勝率は 90.6% で、ChatGPT (3.5) よりも優れています。

集まったネットユーザーは全員、Zephyr を絶賛しました。lmsys チームは、Zephyr-7b-beta の Elo スコアも明らかにしました。スコアは非常に高くなっています。

内部のArenaチャートは13Bモデルを超えました。

中にはこう言う人もいました。

DPO メソッドが実際のアプリケーションで優れたパフォーマンスを発揮するのを見るのは、おそらく今年の大規模言語モデルの開発で最もエキサイティングなことです。

より多くのネットユーザーが Zephyr のテストを開始しており、その結果は驚くほど良好です。

フランス語で「ミストラル」は乾燥した冷たい強い風を意味し、「ゼファー」は穏やかで心地よい西風を意味します。

ラマの向こうにあるのは動物園で、こちらは間違いなく気象局です。

最高の7Bモデルが再び手を変える

まず、Zephyr を実行するためのコンピューターの構成要件について説明します。実際に試してみたところ、ネットユーザーからは「タイパンツはホット」という声が上がっています! 、ノートパソコン(Apple M1 Pro)で十分であり、「結果は非常に良好です。」

有効性に関しては、Llama Index (旧称 GPT Index) チームもテストを実施しました。

現在、Zephyr は、高レベルの RAG/エージェント タスクで優れたパフォーマンスを発揮する唯一のオープン ソース 7B モデルであることがわかりました。

データは、Zephyr の高度な RAG タスク パフォーマンスが GPT-3.5 や Claude 2 と競合できることも示しています。

さらに、Zephyr は RAG で優れたパフォーマンスを発揮するだけでなく、ルーティング、クエリ プランニング、複雑な SQL ステートメントの取得、構造化データの抽出でも優れたパフォーマンスを発揮すると付け加えました。

担当者はテスト結果も発表した。MT-Benchでは、Zephyr-7B-betaはLlama2-Chat-70Bなどの大型モデルと比較して優れたパフォーマンスを示した。

しかし、コーディングや数学などのより複雑なタスクでは、Zephyr-7B-beta は独自のモデルに遅れをとっており、その差を埋めるにはさらなる研究が必要です。

強化学習の放棄

誰もが Zephyr の有効性をテストしていますが、開発者は、最も興味深いのはさまざまな指標ではなく、モデルのトレーニング方法であると述べています。

ハイライトは次のようにまとめられます。

  • 最高の小規模オープンソース事前トレーニング済みモデルの微調整: Mistral 7B
  • 大規模嗜好データセットの利用: UltraFeedback
  • 強化学習の代わりに直接選好最適化(DPO)を使用する
  • 予想外に、優先データセットに過剰適合すると、より良い結果が得られます

詳しく言うと、冒頭で述べたように、Zephyr の効果が 70B の Llama 2 を上回ることができる理由は、主に特殊な微調整方法を使用しているためです。

従来のPPO強化学習法とは異なり、研究チームはスタンフォード大学とCZバイオハブが最近提案したDPO法を使用しました。

研究者らは次のように述べた。

DPO は PPO よりもはるかに安定しています。

DPO は次のように簡単に説明できます。

モデルの出力を人間の好みにより近づけるために、従来の方法では常に報酬モデルを使用してターゲット モデルを微調整してきました。良い成果に対しては報酬があり、悪い成果に対しては報酬はありません。

DPO メソッドはモデリング報酬関数をバイパスします。これは、好みデータに基づいてモデルを直接最適化することと同じです。

一般的に、DPO は強化学習の困難さとトレーニング コストの高さという問題を、人間によるフィードバックによって解決します。

特に Zephyr のトレーニングでは、研究チームは最初に、ChatGPT によって生成された 160 万件の会話 (合理化後は約 20 万件が残っています) を含む UltraChat データセットの合理化されたバリアントで Zephyr-7B-alpha を微調整しました。

(フィルタリングを簡素化した理由は、チームが Zephyr が「こんにちは。お元気ですか?」のように大文字表記を間違えたり、「私には個人的な X がありません」で応答を始めたりすることがあることを発見したためです。)

その後、TRL の DPO トレーナー メソッドを使用して、公開されている openbmb/UltraFeedback データセットを使用してモデルをさらに調整しました。

データセットには、さまざまなモデルからの 64,000 個のプロンプトと応答のペアが含まれています。各応答は、有用性などの基準に基づいて GPT-4 によってランク付けされ、スコアが割り当てられ、そこからAI の好みが推測されます。

興味深い発見は、DPO メソッドを使用する場合、トレーニング時間が長くなるにつれて、オーバーフィッティング後の効果が実際に向上することです。研究者たちは、これが SFT における過剰適合に似ていると考えています。

研究チームが、この方法を使用してモデルを微調整するコストはわずか 500 ドルであり、これは 16 台の A100 で 8 時間実行することを意味すると紹介したことも特筆に値します。

Zephyr をベータ版にアップグレードする際、チームは自分たちのアプローチについて説明を続けました。

彼らは、大規模なモデルに対して蒸留教師あり微調整 (dSFT) を検討しましたが、このアプローチではモデルが調整されず、ユーザーの意図によく一致する出力を生成できませんでした。

そこでチームは、AI フィードバック (AIF) からの嗜好データを使用して「教師モデル」で出力をランク付けし、データセットを形成し、その後、蒸留直接嗜好最適化 (dDPO) を適用して、微調整中に追加のサンプリングを必要とせずにユーザーの意図に沿ったモデルをトレーニングしようとしました。

研究者らは SFT なしでも効果をテストし、パフォーマンスが大幅に低下したことを発見しました。これは、dSFT ステップが重要であることを示しています。

このモデルはオープンソースで市販されているだけでなく、試用できるデモも用意されています。それでは見てみましょう。

デモ体験

まず、それをテストするために「遅れている」という質問を持ち出す必要があります。

「両親が結婚するときに私を連れて行ってくれない」という質問に対して、ゼファーの答えは全体的に非常に正確でした。

ChatGPT はこの質問には本当に勝てません。

テスト中に、Zephyr が OpenAI の GPT-4 のリリースなどの最近のイベントも認識していることもわかりました。

これは実際には基礎となるモデルに関係しています。ミストラルの関係者はトレーニングデータの期限を指定しませんでした。

しかし、一部のネットユーザーは以前にもこれをテストしており、今年3月に何が起こったかも知っている。

対照的に、Llama 2 の事前トレーニング データは 2022 年 9 月まで有効であり、微調整データは最大で 2023 年 6 月まで有効です。

さらに、Zephyr は非常に高速に応答するため、コードを書いたりストーリーを作ったりするのが簡単になります。 :

Zephyr は英語での質問への回答が優れていること、また「幻覚」という一般的なモデルの問題も抱えていることは特筆に値します。

研究者らは幻覚の問題にも言及しており、入力ボックスの下にはモデルによって生成されたコンテンツが不正確または間違っている可能性があることを示す小さなテキストの行があります。

重要なのは、Zephyr が人間の好みに合わせるために人間のフィードバック強化学習などの方法を使用せず、ChatGPT の応答フィルタリング方法も採用していないことです。

えーっと、魚と熊の手のどちらかを選ばなければなりません。

Zephyr はわずか 700 億のパラメータでこのような結果を達成できます。これは「100 ページの機械学習ブック」の著者である Andriy Burkov 氏を驚かせ、次のようにも述べています。

Zephyr-7B は、8k トークンのコンテキスト ウィンドウを持つ Mistral-7B モデルを使用して、Llama 2-70B に勝利しました。理論上、その注目範囲は 128K トークンまで高くなる可能性があります。

もしゼファーが70Bモデルだったらどうなるでしょうか? GPT-4 を上回るパフォーマンスを発揮しますか?ありそうです。

Zephyr-7Bに興味がある方は、huggingfaceで試してみることができます。

https://huggingface.co/spaces/HuggingFaceH4/zephyr-chat

論文リンク: https://arxiv.org/abs/2310.16944

<<:  エージェントは迅速なエンジニアリングに使用されます

>>:  北京大学チーム:大規模なモデルで「幻覚」を誘発するために必要なのは、文字化けしたコードの文字列だけです!大きなアルパカも小さなアルパカもすべて影響を受けた

ブログ    
ブログ    
ブログ    

推薦する

2016年の音声認識の発展を技術的な観点から振り返る

ディープラーニングと人工ニューラルネットワークの発展により、音声認識は 2016 年に一連のブレーク...

「ブラックスワン」の翼の下で:情報戦場におけるAIの光と影

[51CTO.comからのオリジナル記事] 突然の流行に直面して、国民は情報の適時性、透明性、伝達効...

AIは多くの仕事を「置き換える」のでしょうか?

コンピュータが人間の囲碁の名人と対戦していたとき、コンピュータは数年連続で世界チャンピオンに勝つこと...

Sitechi スマートオペレーションプラットフォームがスマートシティの求心力を生み出す

デジタル トレントは、さまざまな新興テクノロジーが成熟し、新しいビジネスや新しいアプリケーションが出...

...

K2 K2、上海交通大学チームが70億パラメータの地球科学言語モデルを発表

地球科学は、岩石、鉱物、土地の特性を研究するだけでなく、地球の気候、海洋、大気、生態系などの現象と原...

AIのデジタルシールド:インフラのサイバーセキュリティを向上させる戦略

技術革新の時代において、人工知能 (AI) は変革の力として際立っています。パーソナライズされた推奨...

人工知能技術はCOVID-19の流行との戦いで重要な役割を果たしてきた

ハイテクである人工知能(AI)は、医療と健康の分野、特にCOVID-19の流行との闘いにおいて非常に...

AIはどんどん強くなってきていますが、人間は恐れるべきでしょうか?実は、ロボットに置き換えられるよりも大きな危機があるのです。

人工知能は急速に発展しており、多くの人が脅威を感じています。しかし実際には、取って代わられることを心...

転移学習の限界を突破せよ! Googleが新しいNLPモデル「T5」を提案、複数のベンチマークでSOTAに到達

[[316154]]過去数年間、転移学習は NLP 分野に実りある成果をもたらし、新たな発展の波を...

UiPath: 自動化とは、退化を拒否し、価値の高い仕事の創出に専念することです

【51CTO.comオリジナル記事】近年、RPAの開発はかつてないほど注目を集めています。 Mark...

世界中のコードの品質が急激に低下、その原因は AI です。 1億5300万行のコードの詳細な分析レポートが公開されました

AI が世界中のコード品質を低下させています。最近、GitClear が発表した調査レポートによると...

...

マイクロソフトのAI研究者が誤って38TBの内部データを漏洩

クラウド セキュリティのスタートアップ企業 Wiz の研究者は、SAS トークンの設定ミスが原因で、...

YOLOv6: 高速かつ正確な物体検出フレームワークがオープンソース化

著者: Chu Yi、Kai Heng 他最近、Meituan のビジュアル インテリジェンス部門は...