7Bモデルがまた手に入ると最高ですね! 700億のLLaMA2を突破、Appleのコンピュータは

7Bモデルがまた手に入ると最高ですね! 700億のLLaMA2を突破、Appleのコンピュータは

「調整」に 500 ドルかかる 70 億パラメータのモデルは、700 億パラメータの Llama 2 に勝ります。

さらに、ラップトップでも簡単に実行でき、パフォーマンスは ChatGPT に匹敵します。

重要なポイント:無料、お金は必要ありません

HuggingFace H4 チームが作成したオープンソース モデルZephyr-7Bはサメを熱狂させました。

その基礎となるモデルは、しばらく前に人気が出たオープンソースの大規模モデルMistral-7Bであり、「欧州 OpenAI」として知られる Mistral AI によって作成されました。

ご存知のとおり、Mistral-7B のリリースから 2 週間も経たないうちに、Llama が最初にリリースされたときにさまざまな「アルパカ」が急速に登場したのと同じように、さまざまな微調整バージョンが次々と登場しました。

すべてのバリエーションの中で Zephyr が成功した鍵は、チームが Mistral に基づく直接選好最適化 (DPO) を使用して、公開データセット上でモデルを微調整したことです。

チームはまた、データセットの組み込みアライメントを削除すると、 MT Bench のパフォーマンスがさらに向上する可能性があることも発見しました。第 1 世代のZephyr-7B-alphaの平均 MT-Bench スコアは 7.09 で、Llama2-70B-Chat を上回りました。

△MT-Benchは、複数ラウンドの対話を処理するモデルの能力を評価するためのベンチマークテストです。質問セットは、ライティング、ロールプレイング、抽出などを含む8つのカテゴリをカバーしています。

重要なのは、その後再びアップグレードされたことです。

H4チームは第2世代のZephyr-7B-betaを打ち上げました。さらに、GPT-4とClaude 2からアライメントを抽出して小規模モデルに注入するというアイデアを検討し、小規模モデル向けに蒸留直接選好最適化(dDPO)を使用する手法を開発したと付け加えた。

第2世代Zephyrでは、平均MT-Benchスコアが7.34に向上しました。

AlpacaEval では、Zephyr の勝率は 90.6% で、ChatGPT (3.5) よりも優れています。

集まったネットユーザーは全員、Zephyr を絶賛しました。lmsys チームは、Zephyr-7b-beta の Elo スコアも明らかにしました。スコアは非常に高くなっています。

内部のArenaチャートは13Bモデルを超えました。

中にはこう言う人もいました。

DPO メソッドが実際のアプリケーションで優れたパフォーマンスを発揮するのを見るのは、おそらく今年の大規模言語モデルの開発で最もエキサイティングなことです。

より多くのネットユーザーが Zephyr のテストを開始しており、その結果は驚くほど良好です。

フランス語で「ミストラル」は乾燥した冷たい強い風を意味し、「ゼファー」は穏やかで心地よい西風を意味します。

ラマの向こうにあるのは動物園で、こちらは間違いなく気象局です。

最高の7Bモデルが再び手を変える

まず、Zephyr を実行するためのコンピューターの構成要件について説明します。実際に試してみたところ、ネットユーザーからは「タイパンツはホット」という声が上がっています! 、ノートパソコン(Apple M1 Pro)で十分であり、「結果は非常に良好です。」

有効性に関しては、Llama Index (旧称 GPT Index) チームもテストを実施しました。

現在、Zephyr は、高レベルの RAG/エージェント タスクで優れたパフォーマンスを発揮する唯一のオープン ソース 7B モデルであることがわかりました。

データは、Zephyr の高度な RAG タスク パフォーマンスが GPT-3.5 や Claude 2 と競合できることも示しています。

さらに、Zephyr は RAG で優れたパフォーマンスを発揮するだけでなく、ルーティング、クエリ プランニング、複雑な SQL ステートメントの取得、構造化データの抽出でも優れたパフォーマンスを発揮すると付け加えました。

担当者はテスト結果も発表した。MT-Benchでは、Zephyr-7B-betaはLlama2-Chat-70Bなどの大型モデルと比較して優れたパフォーマンスを示した。

しかし、コーディングや数学などのより複雑なタスクでは、Zephyr-7B-beta は独自のモデルに遅れをとっており、その差を埋めるにはさらなる研究が必要です。

強化学習の放棄

誰もが Zephyr の有効性をテストしていますが、開発者は、最も興味深いのはさまざまな指標ではなく、モデルのトレーニング方法であると述べています。

ハイライトは次のようにまとめられます。

  • 最高の小規模オープンソース事前トレーニング済みモデルの微調整: Mistral 7B
  • 大規模嗜好データセットの利用: UltraFeedback
  • 強化学習の代わりに直接選好最適化(DPO)を使用する
  • 予想外に、優先データセットに過剰適合すると、より良い結果が得られます

詳しく言うと、冒頭で述べたように、Zephyr の効果が 70B の Llama 2 を上回ることができる理由は、主に特殊な微調整方法を使用しているためです。

従来のPPO強化学習法とは異なり、研究チームはスタンフォード大学とCZバイオハブが最近提案したDPO法を使用しました。

研究者らは次のように述べた。

DPO は PPO よりもはるかに安定しています。

DPO は次のように簡単に説明できます。

モデルの出力を人間の好みにより近づけるために、従来の方法では常に報酬モデルを使用してターゲット モデルを微調整してきました。良い成果に対しては報酬があり、悪い成果に対しては報酬はありません。

DPO メソッドはモデリング報酬関数をバイパスします。これは、好みデータに基づいてモデルを直接最適化することと同じです。

一般的に、DPO は強化学習の困難さとトレーニング コストの高さという問題を、人間によるフィードバックによって解決します。

特に Zephyr のトレーニングでは、研究チームは最初に、ChatGPT によって生成された 160 万件の会話 (合理化後は約 20 万件が残っています) を含む UltraChat データセットの合理化されたバリアントで Zephyr-7B-alpha を微調整しました。

(フィルタリングを簡素化した理由は、チームが Zephyr が「こんにちは。お元気ですか?」のように大文字表記を間違えたり、「私には個人的な X がありません」で応答を始めたりすることがあることを発見したためです。)

その後、TRL の DPO トレーナー メソッドを使用して、公開されている openbmb/UltraFeedback データセットを使用してモデルをさらに調整しました。

データセットには、さまざまなモデルからの 64,000 個のプロンプトと応答のペアが含まれています。各応答は、有用性などの基準に基づいて GPT-4 によってランク付けされ、スコアが割り当てられ、そこからAI の好みが推測されます。

興味深い発見は、DPO メソッドを使用する場合、トレーニング時間が長くなるにつれて、オーバーフィッティング後の効果が実際に向上することです。研究者たちは、これが SFT における過剰適合に似ていると考えています。

研究チームが、この方法を使用してモデルを微調整するコストはわずか 500 ドルであり、これは 16 台の A100 で 8 時間実行することを意味すると紹介したことも特筆に値します。

Zephyr をベータ版にアップグレードする際、チームは自分たちのアプローチについて説明を続けました。

彼らは、大規模なモデルに対して蒸留教師あり微調整 (dSFT) を検討しましたが、このアプローチではモデルが調整されず、ユーザーの意図によく一致する出力を生成できませんでした。

そこでチームは、AI フィードバック (AIF) からの嗜好データを使用して「教師モデル」で出力をランク付けし、データセットを形成し、その後、蒸留直接嗜好最適化 (dDPO) を適用して、微調整中に追加のサンプリングを必要とせずにユーザーの意図に沿ったモデルをトレーニングしようとしました。

研究者らは SFT なしでも効果をテストし、パフォーマンスが大幅に低下したことを発見しました。これは、dSFT ステップが重要であることを示しています。

このモデルはオープンソースで市販されているだけでなく、試用できるデモも用意されています。それでは見てみましょう。

デモ体験

まず、それをテストするために「遅れている」という質問を持ち出す必要があります。

「両親が結婚するときに私を連れて行ってくれない」という質問に対して、ゼファーの答えは全体的に非常に正確でした。

ChatGPT はこの質問には本当に勝てません。

テスト中に、Zephyr が OpenAI の GPT-4 のリリースなどの最近のイベントも認識していることもわかりました。

これは実際には基礎となるモデルに関係しています。ミストラルの関係者はトレーニングデータの期限を指定しませんでした。

しかし、一部のネットユーザーは以前にもこれをテストしており、今年3月に何が起こったかも知っている。

対照的に、Llama 2 の事前トレーニング データは 2022 年 9 月まで有効であり、微調整データは最大で 2023 年 6 月まで有効です。

さらに、Zephyr は非常に高速に応答するため、コードを書いたりストーリーを作ったりするのが簡単になります。 :

Zephyr は英語での質問への回答が優れていること、また「幻覚」という一般的なモデルの問題も抱えていることは特筆に値します。

研究者らは幻覚の問題にも言及しており、入力ボックスの下にはモデルによって生成されたコンテンツが不正確または間違っている可能性があることを示す小さなテキストの行があります。

重要なのは、Zephyr が人間の好みに合わせるために人間のフィードバック強化学習などの方法を使用せず、ChatGPT の応答フィルタリング方法も採用していないことです。

えーっと、魚と熊の手のどちらかを選ばなければなりません。

Zephyr はわずか 700 億のパラメータでこのような結果を達成できます。これは「100 ページの機械学習ブック」の著者である Andriy Burkov 氏を驚かせ、次のようにも述べています。

Zephyr-7B は、8k トークンのコンテキスト ウィンドウを持つ Mistral-7B モデルを使用して、Llama 2-70B に勝利しました。理論上、その注目範囲は 128K トークンまで高くなる可能性があります。

もしゼファーが70Bモデルだったらどうなるでしょうか? GPT-4 を上回るパフォーマンスを発揮しますか?ありそうです。

Zephyr-7Bに興味がある方は、huggingfaceで試してみることができます。

https://huggingface.co/spaces/HuggingFaceH4/zephyr-chat

論文リンク: https://arxiv.org/abs/2310.16944

<<:  エージェントは迅速なエンジニアリングに使用されます

>>:  北京大学チーム:大規模なモデルで「幻覚」を誘発するために必要なのは、文字化けしたコードの文字列だけです!大きなアルパカも小さなアルパカもすべて影響を受けた

ブログ    
ブログ    

推薦する

顔認識技術のまとめ:従来の方法からディープラーニングまで

1970 年代以来、顔認識はコンピューター ビジョンと生体認証の分野で最も研究されているトピックの ...

こんにちは、音声認識について学びましょう!

[51CTO.com からのオリジナル記事] 音声認識は自動音声認識とも呼ばれ、人間の音声に含まれ...

RNN (リカレント ニューラル ネットワーク) の背後にある数学の図解説明

導入最近では、機械学習、ディープラーニング、人工ニューラルネットワークに関する議論がますます増えてい...

顔スキャンは便利ですが、隠れた危険も伴うので、注意が必要です。

顔をスキャンするだけで支払いができます。顔をスキャンするだけでさまざまなゲートに出入りできます。顔を...

OpenAI の組み込み検索は本当に便利ですか?定量的な評価により、より深い理解が得られます。

ベクターデータベースの強力なライバルが登場するか?トラック関連のスタートアップ企業がまたもや倒産しそ...

Google UFOGen は、非常に高速なサンプリング速度で高品質の画像を生成できます。

過去1年間、Stable Diffusionに代表される一連の文化イメージ拡散モデルは、ビジュアル創...

...

...

ターミネータースカイネット?国防総省は、敵の行動を数日前に予測できるAI予測システムGIDEをリリースした

[[415649]]最近、米国防総省は、大量の情報源を分析し、数日後の敵の行動を1分以内に予測し、事...

...

分散トレーニング入門: PyTorch を使用してマルチ GPU 分散トレーニングを実装する方法

具体的には、この記事ではまず、分散コンピューティングの基本概念と、分散コンピューティングがディープラ...

現代の製造業におけるマシンビジョンと人工知能の重要な役割

競争が激化し規制が厳しくなる環境において、マシン ビジョン (MV) ソリューションは製造業者にとっ...

建設業界における人工知能の応用

研究によると、建設業界では、計画や建設のいずれの用途でも、人工知能技術の応用がますます一般的になりつ...

宜蘭グループインテリジェンスが再び認められ、認知インテリジェンスの飛躍的発展を促進

【原文は51CTO.comより】このほど、工業情報化部中国電子情報産業発展研究所が指導し、51CTO...

倉庫の自動化は人気が高い。ソフトバンクは28億ドルを投じてオートストアの40%を買収した。

ソフトバンクグループは、ノルウェーの倉庫自動化企業オートストアの株式40%を28億ドルで買収すること...