ボストン大学の「Platypus-70B」がHugging Face大型模型ランキングでトップに!効率的なデータセットと独自のLoRA微調整が鍵

ボストン大学の「Platypus-70B」がHugging Face大型模型ランキングでトップに!効率的なデータセットと独自のLoRA微調整が鍵

Hugging Faceのオープンソース大型モデルのランキングがまた更新されました。今回のランキング1位は、Platypus 2-70Bです!

オープンソースのフェイスハグリストにあるほとんどのモデルと同様に、Platypus は Llama2 をベースにボストン大学の研究者によって微調整されました。

同時に、Platypus の進歩は、これまでのすべての大規模オープンソース モデルと同様、コンピューティング リソースとデータの使用量を減らしながらパフォーマンスを向上させています。

13B Platypus モデルは、25,000 の質問を使用して単一の A100 GPU で 5 時間でトレーニングできます。

論文アドレス: https://arxiv.org/pdf/2308.07317.pdf

研究者の論文によると、Platypus 70B が強くなった主な理由は 2 つあります。

1.データセットを編集する: 類似した質問や重複した質問を削除する

2. モデルはLoRAとPEFTを使用して最適化され、非注意モジュールに重点が置かれました。

Platypus は、テスト データの漏洩やトレーニング データの汚染のチェックにも独自の貢献をしており、将来の研究にとって貴重な参考資料となります。

カモノハシはどれくらい速く、簡単で、経済的か

Platypus は主に、小規模ながら強力なデータセット Open-Platypus でパラメータ効率チューニング (PEFT) を使用し、LoRA の非注意部分を微調整することで、モデルのパフォーマンスを向上させます。

一般的に専門分野に焦点を当て、微調整に時間と費用がかかるモデルとは異なり、Platypus は全体的なモデルのパフォーマンスを向上させるだけでなく、特定の分野でも優れたパフォーマンスを発揮します。

この研究では、ドメイン固有のデータセットによって、選択されたタスク カテゴリのパフォーマンスを向上できることがわかりました。モデルのマージと組み合わせて使用​​すると、トレーニング時間を大幅に短縮できます。

オープンソースデータセット

研究チームは、Hugging Face を通じてカモノハシのデータセット Open-Platypus を一般に公開しました。

Open-Platypus は 11 個のオープンソース データセットで構成されており、そのほとんどは人間が設計した問題で構成されており、LLM によって生成された問題は全体の約 10% のみで、最小限の微調整時間とコストで強力なパフォーマンスを実現できます。 LLM の STEM と論理的能力の向上に重点を置きます。

同時に、研究チームはこれらのデータセットを最適化し、データセットを削減してデータの冗長性を最小限に抑えることに成功しました。

具体的な操作は次のとおりです。

記憶を最小限に抑えるために類似性除去によって逐語的に繰り返されるすべての指示を削除し、次にトレーニング セット内の他の指示の SentenceTransformers 埋め込みと 80% のコサイン類似性を持つ指示を削除しました。

デフォルトでは、より詳細な回答が含まれる質問と回答のペアが保持されます。回答が長くなると、より詳細な説明や段階的な解決策が必要になる可能性が高くなります。

データ汚染の解決

研究チームは、オープン LLM トレーニング セットの汚染問題を詳細に調査し、カモノハシ データのフィルタリング プロセスを導入しました。

研究チームのデータ フィルタリングに対するアプローチの核心は、テスト データの記憶によってベンチマーク結果が歪められるのを防ぐために、ベンチマーク テストの質問が誤ってトレーニング セットに漏れないようにすることです。

これを念頭に置いて、質問を重複としてマークし、トレーニング セットから削除するかどうかを決定する際には、余裕を持たせる必要があります。

クエリはさまざまな方法で表現される可能性があり、共通のドメイン知識によって質問が重複しているとみなされないようにできるため、疑わしい質問を識別する際にはある程度の柔軟性を持たせます。

この目的のために、研究チームは、ベンチマーク問題との類似性が 80% を超える Open-Platypus の質問を手動で選別するための次のヒューリスティック手法を開発しました。

研究チームは、潜在的な問題を重複、グレーゾーン、類似しているが異なるという3つのカテゴリーに分類しました。しかし、念のため、研究チームはそれらをすべてトレーニング セットから削除する予定です。

1. 繰り返し:

これらの質問は、テストセットの質問とほぼ正確に複製されていますが、単語が少し変更されていたり、配置が少し変更されていたりする場合があります。

これは、上の表の漏洩件数で示されているように、私たちが「本物」と定義する汚染のカテゴリーです。この状況の具体的な例は次のとおりです。

2. グレーゾーン

この一連の質問はグレー エリアと呼ばれ、完全に重複したものではなく常識の範疇に入る質問が含まれます。

これらの問題に関する最終的な判断はオープンソース コミュニティに委ねていますが、これらの問題には専門知識が必要になることが多いと考えています。

このカテゴリには、指示はまったく同じだが回答が同義の質問が含まれていることに注意してください。

3. 似ているが違うもの:

最後のカテゴリには、コサイン類似度スコアが高いにもかかわらず、回答が大きく異なる質問が含まれます。

これは多くの場合、質問の構造がわずかに変わることで、まったく異なる回答が得られることに起因する可能性があります。

下の図の最初の問題は、回転軸と象限の定義を変更することで最終的な答えが大幅に変わった良い例です。

モデルの微調整と統合

データセットを改良し、汚染を3回チェックした後、チームはモデルを微調整して統合しました。

主な方法は、低ランク近似 (LoRA) トレーニングとパラメータ効率の良い微調整 (PEFT) ライブラリです。

完全な微調整とは異なり、LoRA は事前トレーニング済みのモデルの重みを保持し、ランク因数分解マトリックスを変換レイヤーに組み込みます。

これにより、トレーニング可能なパラメータの数を減らし、トレーニングの時間とコストを節約できます。

たとえば、Platypus 13B モデルでは 1 台の A100 80GB を使用して 5 時間の微調整を要し、70B モデルでは 4 台の A100 80GB を使用して 22 時間の微調整を要しました。

基準として、スタンフォード大学による Alpaca-7B の完全な微調整は 8 台の A100 80GB で実行され、3 時間かかりました。

研究チームは当初、v_proj、q_proj、k_proj、o_proj などの注目モジュールを中心にモデルを微調整しました。

その後、研究者らは、gate_proj、down_proj、up_proj モジュールの微調整に着手し、注意モジュールと比較して、トレーニング可能なパラメータが合計パラメータの 0.1% 未満の場合、これらのモジュールの微調整はモデルよりも優れたパフォーマンスを発揮しました。

一貫性を保つために、研究チームはこの方法を 13B モデルと 70B モデルの両方に使用し、トレーニング可能なパラメータをそれぞれ 0.27% と 0.2% に設定しました。

唯一の違いは、これらのモデルの初期学習率です。

研究チームのモデル統合戦略は、Instruct や Beluga などの幅広いモデル、または Camel などの特殊なモデルとの統合による相乗効果を評価することを目的としています。

研究チームは、モデルを統合するとモデルの知識ベースを効果的に拡大できることを発見しましたが、どのモデルを統合するか、広範囲に統合するか集中的に統合するかを選択することが、パフォーマンスの結果を決定する上で重要な役割を果たすことがわかりました。

同時に、モデルのマージの有効性は、テストされる特定のドメインによって異なります。

パフォーマンスの向上と低下はすべての領域で均一ではないため、合併を確定させる前にドメイン固有の評価を行う必要があることが示唆されます。

カモノハシが1位

本日の Hugging Face オープンソース LLM ランキング データでは、Platypus2-70B が依然として 1 位にランクされており、そのバリアントも多くの LLM の中で上位にランクされています。

13B サイズでも、カモノハシは平均スコア 63.96 で傑出したパフォーマンスを発揮し、13B モデルのリーダーとなりました。

ハギングフェイスのオープンLLMランキング

Huggingface の Open LLM ランキングは現在、オープンソース コミュニティで最も多く使用されており、参加モデルが最も多いランキングでもあります。

Open LLM リーダーボードでは、多数の異なる評価タスクで生成言語モデルをテストするための統合フレームワークである Eleuther AI 言語モデル評価フレームワークを使用します。モデルは 4 つの主要なベンチマークで評価されます。

1. AI2: 科学的問題に関する推論テスト。合計 25 問。

2. HellaSwag: 常識的な推論テストですが、合計 10 個のテストがあり、大規模な言語モデルでは非常に難しいです。

3. MMLU: テキストモデルのマルチタスク精度を測定します。試験は初等数学、米国史、コンピューターサイエンス、法律などを含む57の課題をカバーし、合計10回テストされます。

4. TruthfulQA: インターネット上の一般的な虚偽コンテンツを複製するモデルの傾向をテストするために使用されます。

テスト フレームワーク全体はオープン ソースです。ネットユーザーはこのフレームワークを使用してモデルをローカルでテストしたり、モデルを Hugging Face に送信してオンラインでスコアリングしたりできます。

世界中のあらゆるサイズのモデルにリスト入りのチャンスがあり、見事トップに到達すれば、世界一のモデルであると宣言することができます。

韓国のチームによってトレーニングされたオープンソースモデルは、Platypus に追い抜かれる前は世界一だった。彼らはこの成果を、会社のホームページで最も目を引く場所に誇らしげに掲載しました。

Hugging Face の Open LLM ランキングは、技術者がモデルの機能を客観的に比較できるだけでなく、オープンソース コミュニティ モデルが自らを披露し、外部リソースを取得し、最終的にさらに発展する機会も提供します。

これはオープンソース コミュニティの目的とも一致しています。

高コストパフォーマンスのコンセプトを堅持し、モデルを改善するためのさまざまな試みを許可し、オープン性と共通の進歩を受け入れます...

おそらくこれがオープンソース コミュニティが活発な理由でしょう。

<<:  1月に8万人以上の従業員が解雇されました!世界のテクノロジー業界のレイオフリストが発表されました。企業が大きいほど、レイオフする人数も多くなります。X社は従業員の半数を一気にレイオフしました!

>>:  コーヒーショップの監視ビデオが流出し、何百万人もの人々が視聴していた。マスク氏は「ひどい!」と叫んだ。 AIはあなたがコーヒーをどれくらい飲んだかを正確に把握しています

ブログ    
ブログ    

推薦する

敵対的サンプルとディープニューラルネットワークの学習

概要過去 6 か月間で、人工知能の分野は科学技術分野で最も頻繁に言及される用語の 1 つになりました...

チューリング賞受賞者:人工知能を実装したものは、もはや人工知能とは呼ばれない

1956年、マッカーシーはダートマス大学で開催された会議で初めて「人工知能」の概念を提唱した。後に、...

中国の人工知能は世界の潮流をリードできるか?

[[389342]] 10年以上前であれば、おそらく多くの人が、将来中国が日本や米国と同じくらい発...

...

...

...

北京市、企業のコンピューティングパワー使用コストを削減するためのAIコンピューティングバウチャー実施計画を発表

10月11日、北京市経済情報化局は「人工知能コンピューティングパワーバウチャー実施計画(2023~2...

顔認識防止技術でプライバシー漏洩を防ぐ方法

人工知能監視システムに対する懸念から、研究者たちはそれを標的とするツールの開発に取り組んでいる。最近...

まばたきが正常かどうか判断し、フェイク動画対策にも人工知能が活用されています!

AIが生成したPS動画は本物と見分けがつかないほどに進化している。昨年、ミシェル・オバマに似せるた...

...

IoT が成功するために AI が必要な理由

モノのインターネットは膨大な量のデータを生成します。そのデータは、都市が事故や犯罪を予測するのに役立...

...

AIチップ市場で何が起こっているのか?

現在、AI チップ市場全体はディープラーニングを中心に展開しています。ディープラーニング (DL) ...

ニューラルネットワークをシンボリックAIに活用し、MITとIBMが共同でディープラーニングの問題点を解決

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

「顔認証」の時代に「顔を守る」には?代表者と議員は顔認識に関する特別立法を実施し、不正なデータ収集を是正することを提案した。

「顔認証」の時代、あなたの「顔」をどう守るか? 2021年の全国「両会」では、顔認識によって生成さ...