ボストン大学の「Platypus-70B」がHugging Face大型模型ランキングでトップに！効率的なデータセットと独自のLoRA微調整が鍵

Hugging Faceのオープンソース大型モデルのランキングがまた更新されました。今回のランキング1位は、Platypus 2-70Bです！

オープンソースのフェイスハグリストにあるほとんどのモデルと同様に、Platypus は Llama2 をベースにボストン大学の研究者によって微調整されました。

同時に、Platypus の進歩は、これまでのすべての大規模オープンソースモデルと同様、コンピューティングリソースとデータの使用量を減らしながらパフォーマンスを向上させています。

13B Platypus モデルは、25,000 の質問を使用して単一の A100 GPU で 5 時間でトレーニングできます。

論文アドレス: https://arxiv.org/pdf/2308.07317.pdf

研究者の論文によると、Platypus 70B が強くなった主な理由は 2 つあります。

1.データセットを編集する: 類似した質問や重複した質問を削除する

2. モデルはLoRAとPEFTを使用して最適化され、非注意モジュールに重点が置かれました。

Platypus は、テストデータの漏洩やトレーニングデータの汚染のチェックにも独自の貢献をしており、将来の研究にとって貴重な参考資料となります。

カモノハシはどれくらい速く、簡単で、経済的か

Platypus は主に、小規模ながら強力なデータセット Open-Platypus でパラメータ効率チューニング (PEFT) を使用し、LoRA の非注意部分を微調整することで、モデルのパフォーマンスを向上させます。

一般的に専門分野に焦点を当て、微調整に時間と費用がかかるモデルとは異なり、Platypus は全体的なモデルのパフォーマンスを向上させるだけでなく、特定の分野でも優れたパフォーマンスを発揮します。

この研究では、ドメイン固有のデータセットによって、選択されたタスクカテゴリのパフォーマンスを向上できることがわかりました。モデルのマージと組み合わせて使用すると、トレーニング時間を大幅に短縮できます。

オープンソースデータセット

研究チームは、Hugging Face を通じてカモノハシのデータセット Open-Platypus を一般に公開しました。

Open-Platypus は 11 個のオープンソースデータセットで構成されており、そのほとんどは人間が設計した問題で構成されており、LLM によって生成された問題は全体の約 10% のみで、最小限の微調整時間とコストで強力なパフォーマンスを実現できます。 LLM の STEM と論理的能力の向上に重点を置きます。

同時に、研究チームはこれらのデータセットを最適化し、データセットを削減してデータの冗長性を最小限に抑えることに成功しました。

具体的な操作は次のとおりです。

記憶を最小限に抑えるために類似性除去によって逐語的に繰り返されるすべての指示を削除し、次にトレーニングセット内の他の指示の SentenceTransformers 埋め込みと 80% のコサイン類似性を持つ指示を削除しました。

デフォルトでは、より詳細な回答が含まれる質問と回答のペアが保持されます。回答が長くなると、より詳細な説明や段階的な解決策が必要になる可能性が高くなります。

データ汚染の解決

研究チームは、オープン LLM トレーニングセットの汚染問題を詳細に調査し、カモノハシデータのフィルタリングプロセスを導入しました。

研究チームのデータフィルタリングに対するアプローチの核心は、テストデータの記憶によってベンチマーク結果が歪められるのを防ぐために、ベンチマークテストの質問が誤ってトレーニングセットに漏れないようにすることです。

これを念頭に置いて、質問を重複としてマークし、トレーニングセットから削除するかどうかを決定する際には、余裕を持たせる必要があります。

クエリはさまざまな方法で表現される可能性があり、共通のドメイン知識によって質問が重複しているとみなされないようにできるため、疑わしい質問を識別する際にはある程度の柔軟性を持たせます。

この目的のために、研究チームは、ベンチマーク問題との類似性が 80% を超える Open-Platypus の質問を手動で選別するための次のヒューリスティック手法を開発しました。

研究チームは、潜在的な問題を重複、グレーゾーン、類似しているが異なるという3つのカテゴリーに分類しました。しかし、念のため、研究チームはそれらをすべてトレーニングセットから削除する予定です。

1. 繰り返し:

これらの質問は、テストセットの質問とほぼ正確に複製されていますが、単語が少し変更されていたり、配置が少し変更されていたりする場合があります。

これは、上の表の漏洩件数で示されているように、私たちが「本物」と定義する汚染のカテゴリーです。この状況の具体的な例は次のとおりです。

2. グレーゾーン

この一連の質問はグレーエリアと呼ばれ、完全に重複したものではなく常識の範疇に入る質問が含まれます。

これらの問題に関する最終的な判断はオープンソースコミュニティに委ねていますが、これらの問題には専門知識が必要になることが多いと考えています。

このカテゴリには、指示はまったく同じだが回答が同義の質問が含まれていることに注意してください。

3. 似ているが違うもの:

最後のカテゴリには、コサイン類似度スコアが高いにもかかわらず、回答が大きく異なる質問が含まれます。

これは多くの場合、質問の構造がわずかに変わることで、まったく異なる回答が得られることに起因する可能性があります。

下の図の最初の問題は、回転軸と象限の定義を変更することで最終的な答えが大幅に変わった良い例です。

モデルの微調整と統合

データセットを改良し、汚染を3回チェックした後、チームはモデルを微調整して統合しました。

主な方法は、低ランク近似 (LoRA) トレーニングとパラメータ効率の良い微調整 (PEFT) ライブラリです。

完全な微調整とは異なり、LoRA は事前トレーニング済みのモデルの重みを保持し、ランク因数分解マトリックスを変換レイヤーに組み込みます。

これにより、トレーニング可能なパラメータの数を減らし、トレーニングの時間とコストを節約できます。

たとえば、Platypus 13B モデルでは 1 台の A100 80GB を使用して 5 時間の微調整を要し、70B モデルでは 4 台の A100 80GB を使用して 22 時間の微調整を要しました。

基準として、スタンフォード大学による Alpaca-7B の完全な微調整は 8 台の A100 80GB で実行され、3 時間かかりました。

研究チームは当初、v_proj、q_proj、k_proj、o_proj などの注目モジュールを中心にモデルを微調整しました。

その後、研究者らは、gate_proj、down_proj、up_proj モジュールの微調整に着手し、注意モジュールと比較して、トレーニング可能なパラメータが合計パラメータの 0.1% 未満の場合、これらのモジュールの微調整はモデルよりも優れたパフォーマンスを発揮しました。

一貫性を保つために、研究チームはこの方法を 13B モデルと 70B モデルの両方に使用し、トレーニング可能なパラメータをそれぞれ 0.27% と 0.2% に設定しました。

唯一の違いは、これらのモデルの初期学習率です。

研究チームのモデル統合戦略は、Instruct や Beluga などの幅広いモデル、または Camel などの特殊なモデルとの統合による相乗効果を評価することを目的としています。

研究チームは、モデルを統合するとモデルの知識ベースを効果的に拡大できることを発見しましたが、どのモデルを統合するか、広範囲に統合するか集中的に統合するかを選択することが、パフォーマンスの結果を決定する上で重要な役割を果たすことがわかりました。

同時に、モデルのマージの有効性は、テストされる特定のドメインによって異なります。

パフォーマンスの向上と低下はすべての領域で均一ではないため、合併を確定させる前にドメイン固有の評価を行う必要があることが示唆されます。

カモノハシが1位

本日の Hugging Face オープンソース LLM ランキングデータでは、Platypus2-70B が依然として 1 位にランクされており、そのバリアントも多くの LLM の中で上位にランクされています。

13B サイズでも、カモノハシは平均スコア 63.96 で傑出したパフォーマンスを発揮し、13B モデルのリーダーとなりました。

ハギングフェイスのオープンLLMランキング

Huggingface の Open LLM ランキングは現在、オープンソースコミュニティで最も多く使用されており、参加モデルが最も多いランキングでもあります。

Open LLM リーダーボードでは、多数の異なる評価タスクで生成言語モデルをテストするための統合フレームワークである Eleuther AI 言語モデル評価フレームワークを使用します。モデルは 4 つの主要なベンチマークで評価されます。

1. AI2: 科学的問題に関する推論テスト。合計 25 問。

2. HellaSwag: 常識的な推論テストですが、合計 10 個のテストがあり、大規模な言語モデルでは非常に難しいです。

3. MMLU: テキストモデルのマルチタスク精度を測定します。試験は初等数学、米国史、コンピューターサイエンス、法律などを含む57の課題をカバーし、合計10回テストされます。

4. TruthfulQA: インターネット上の一般的な虚偽コンテンツを複製するモデルの傾向をテストするために使用されます。

テストフレームワーク全体はオープンソースです。ネットユーザーはこのフレームワークを使用してモデルをローカルでテストしたり、モデルを Hugging Face に送信してオンラインでスコアリングしたりできます。

世界中のあらゆるサイズのモデルにリスト入りのチャンスがあり、見事トップに到達すれば、世界一のモデルであると宣言することができます。

韓国のチームによってトレーニングされたオープンソースモデルは、Platypus に追い抜かれる前は世界一だった。彼らはこの成果を、会社のホームページで最も目を引く場所に誇らしげに掲載しました。

Hugging Face の Open LLM ランキングは、技術者がモデルの機能を客観的に比較できるだけでなく、オープンソースコミュニティモデルが自らを披露し、外部リソースを取得し、最終的にさらに発展する機会も提供します。

これはオープンソースコミュニティの目的とも一致しています。

高コストパフォーマンスのコンセプトを堅持し、モデルを改善するためのさまざまな試みを許可し、オープン性と共通の進歩を受け入れます...

おそらくこれがオープンソースコミュニティが活発な理由でしょう。

<<: 1月に8万人以上の従業員が解雇されました！世界のテクノロジー業界のレイオフリストが発表されました。企業が大きいほど、レイオフする人数も多くなります。X社は従業員の半数を一気にレイオフしました！

>>: コーヒーショップの監視ビデオが流出し、何百万人もの人々が視聴していた。マスク氏は「ひどい！」と叫んだ。 AIはあなたがコーヒーをどれくらい飲んだかを正確に把握しています

ボストン大学の「Platypus-70B」がHugging Face大型模型ランキングでトップに！効率的なデータセットと独自のLoRA微調整が鍵

カモノハシはどれくらい速く、簡単で、経済的か

オープンソースデータセット

データ汚染の解決

モデルの微調整と統合

カモノハシが1位

ハギングフェイスのオープンLLMランキング

2017 年の Quora における機械学習の 5 つの主要な応用シナリオ

OpenAIは新しいセキュリティチームを正式に発表しました。モデルは4つの危険レベルに分かれており、取締役会はリリースするかどうかを決定する権利を持っています。

ディープラーニングに基づく教師あり音声分離

「万能AI」GPT-3の中国版を作る方法

2018年: 人工知能の世界における8つのトレンド

Huaweiの推奨システムにおけるマルチタスクとマルチシナリオの応用

ハイパーオートメーション: 2020 年のエンドツーエンド自動化のユースケーストップ 10

人工知能開発の動向

推薦する

生成 AI が流行する中、コンプライアンス計画にはどのような変化が見られるのでしょうか?

AIOps に関する 6 つの誤解とその説明

韓国の通信事業者SKT、通信業界向け大規模AIモデルの開発のためOpenAIの競合企業に1億ドルを投資

中国の人工知能都市競争で最も速いのはどの都市でしょうか？

微調整の必要はありませんか? 3つのサンプル、LLMアライメントを修正するための1つのヒント、エンジニアのヒント：すべて戻る

高精度地図のデータの問題についてお話ししましょう。地図以外の認識の落とし穴は何でしょうか?

AIと胚の融合？システム生物学者のパトリック・ミュラーは双子ネットワークを使ってゼブラフィッシュの胚を研究している

深層強化学習における敵対的攻撃と防御

フロントエンドの面接でよく聞かれるアルゴリズムに関する質問

上級幹部との対話で洞察を得る - IBM アジア太平洋地域社長ブレンダ・ハーベイ氏による変革、クラウドコンピューティング、自動化に関する講演