Open LLM リストが再び更新されました。Llama 2 よりも強力な「Duckbill Puss」が登場します。

Open LLM リストが再び更新されました。Llama 2 よりも強力な「Duckbill Puss」が登場します。

OpenAI の GPT-3.5 や GPT-4 などのクローズドソース モデルの優位性に挑戦するために、LLaMa、Falcon など一連のオープン ソース モデル勢力が台頭しています。最近、Meta AI は LLaMa-2 モデルをリリースしました。これはオープンソース分野で最も強力な大規模モデルとして高く評価されており、多くの研究者もこれをベースに独自のモデルを構築しています。たとえば、StabilityAI は Orca スタイルのデータセットを使用して Llama2 70B モデルを微調整し、StableBeluga2 を作成しました。これは Huggingface の Open LLM リーダーボードでも優れた結果を達成しました。

最近、Open LLM リストのランキングに新たな変化があり、Platypus というモデルがリストのトップに躍り出ました。

要約すると、Platypus も Llama 2 をベースに若干の調整を加えたものです。ボストン大学の著者らは、最適化のために PEFT と LoRA、およびデータセット Open-Platypus を使用しました。

論文の中で、著者らは Platypus について詳細に紹介しています。

論文アドレス: https://arxiv.org/abs/2308.07317

この論文の主な貢献は次のとおりです。

  • Open-Platypus は、公開テキスト データセットの厳選されたサブセットで構成される小規模なデータセットです。このデータセットは、STEM と LLM の論理知識の向上に重点を置いた 11 個のオープンソース データセットで構成されています。これは主に人間が作成した質問で構成されており、LLM によって生成された質問は 10% のみです。 Open-Platypus の主な利点は、その規模と品質であり、非常に短時間で非常に高いパフォーマンスを達成でき、微調整の時間とコストが低いことです。具体的には、単一の A100 GPU で 25,000 の質問を使用して 13B モデルをトレーニングするのに 5 時間しかかかりません。
  • データセットのサイズを縮小し、データの冗長性を削減するための類似性除去プロセスについて説明します。
  • オープン LLM トレーニング セットが重要な LLM テスト セットに含まれるデータで汚染されるという永続的な現象を詳細に分析し、この隠れた危険を回避するためのトレーニング データ フィルタリング プロセスを紹介しています。
  • 特別に微調整された LoRA モジュールを選択してマージするプロセスについて説明します。

オープンプラティパスデータセット

現在、著者はHugging FaceでOpen-Platypusデータセットを公開しています。


汚染問題

私たちのアプローチでは、単なる記憶による結果の偏りを避けるために、ベンチマーク問題がトレーニング セットに漏れるのを防ぐことを優先します。著者らは正確さを追求していますが、質問はさまざまな方法で尋ねられ、共通のドメイン知識によって影響を受ける可能性があるため、重複した質問をマークする際には柔軟性が必要であることも認識しています。潜在的な漏洩を管理するために、著者らは、ベンチマーク問題とのコサイン埋め込み類似性が 80% を超える Open-Platypus の質問を手動でフィルタリングするためのヒューリスティックを慎重に設計しました。彼らは潜在的な漏洩を(1)重複、(2)グレーゾーン、(3)類似しているが同一ではない、の3つのカテゴリーに分類した。そして、慎重を期すために、すべてのグループをトレーニング セットから除外しました。

繰り返す

これはテスト セットのほぼ正確なコピーですが、単語や配置に若干の変更が加えられている可能性があります。上記の表の漏洩問題の数に基づくと、これが著者が真の汚染であると考える唯一のカテゴリです。具体的な例は以下のとおりです。

グレーゾーン

以下の質問はグレーゾーンと呼ばれ、完全に重複したものではなく常識の範囲内の質問が含まれます。著者らはこれらの問題に関する最終的な判断をオープンソース コミュニティに委ねていますが、これらの問題には専門知識が必要になることが多いことを認識しています。このカテゴリには、指示は同じだが回答が同義の質問が含まれることに注意してください。

似ているが同一ではない

質問の類似性は高いのですが、質問間にわずかな違いがあるため、回答には大きな違いがあります。

微調整と統合

データセットを改良した後、著者らは、低ランク近似 (LoRA) トレーニングとパラメータ効率的な微調整 (PEFT) ライブラリという 2 つの方法に焦点を当てました。完全な微調整とは異なり、LoRA は事前トレーニング済みのモデルの重みを保持し、ランク分解マトリックスをトランスフォーマー層に組み込みます。これにより、トレーニング可能なパラメータの数が減り、トレーニングの時間とコストが節約されます。最初は、微調整は主に v_proj、q_proj、k_proj、o_proj などの注目モジュールを対象とします。その後、He らによる洞察に基づいて、gate_proj、down_proj、up_proj モジュールへの移行が行われました。トレーニング可能なパラメータが合計パラメータの 0.1% 未満の場合を除き、これらのモジュールはより良い結果を示します。著者らはこの方法を 13B モデルと 70B モデルに均一に適用し、トレーニング可能なパラメータはそれぞれ 0.27% と 0.2% になりました。唯一の違いは、これらのモデルの初期学習率です。

結果

著者らは Platypus を他の SOTA モデルと比較しました。 2023年8月10日のHugging Face Open LLMランキングデータによると、Platypus2-70Binstructバリアントは他の競合製品を上回り、平均スコア73.13でトップになりました。

注目すべきは、Stable-Platypus2-13B モデルが 130 億のパラメータ モデルの中で平均スコア 63.96 でトップになったことです。

制限

LLaMa-2 の微調整された拡張機能である Platypus は、基本モデルの制約の多くを保持し、対象を絞ったトレーニングにより特定の課題を導入します。これは LLaMa-2 の静的な知識ベースを共有しますが、これは古くなっている可能性があります。特にプロンプ​​トが不明瞭な場合は、不正確または不適切なコンテンツが生成されるリスクもあります。 Platypus は STEM と英語の論理が強化されていますが、他の言語の能力は信頼できず、一貫性がない場合があります。また、偏った内容や有害な内容のコンテンツが作成されることもあります。著者らは、これらの問題を軽減するための努力はなされてきたが、特に英語以外の言語に関しては課題が残っていると述べている。

Platypus が悪意のある活動に悪用される可能性も懸念されています。開発者は、展開前にアプリケーションのセキュリティ テストを実行する必要があります。 Platypus は主なドメイン外では制限がある可能性があるため、ユーザーは慎重に進め、最適なパフォーマンスを得るために追加の微調整を検討する必要があります。ユーザーは、Platypus のトレーニング データと他のベンチマークの間に重複がないことを確認する必要があります。著者らはデータ汚染の問題について非常に慎重であり、汚染されたデータセットでトレーニングされたモデルとのマージを避けています。クリーンアップされたトレーニング データには汚染がないことが確認されましたが、いくつかの問題が見逃された可能性も否定できません。これらの制限事項の詳細については、論文の「制限事項」セクションを参照してください。

<<: 

>>:  アレックス・グレイブス氏の新しい論文「ベイジアンフローネットワーク」は離散データ生成の問題を解決しており、論文全体が数式でいっぱいである。

ブログ    

推薦する

NeO 360: 屋外シーンのスパースビュー合成のためのニューラルフィールド

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

金融ビジネスイノベーションを実現する自社開発グラフデータベースに基づくナレッジグラフ実装

人工知能の急速な発展に伴い、ナレッジグラフの実装と商業化の可能性は継続的に強化され、社内のデータ分析...

人工知能教育の現状と動向

人工知能への熱狂が世界を席巻している。国は人工知能の分野で戦略的な配置を開始しており、人工知能の人材...

インテリジェントなクラウドネイティブアプリケーションの台頭

マーク・アンドリーセンはかつてウォール・ストリート・ジャーナルに「なぜソフトウェアが世界を席巻してい...

...

人工知能は業界の生態系を変え、銀行支店を減らし、スマートカードを活用する

多くの注意深い国民は、気づかないうちに銀行支店の数が減少していることに気づいています。予備統計による...

フォーカス | 機械学習に役立つ 7 つのクラウド コンピューティング サービス

データ分析は、多くの組織がクラウド コンピューティング プラットフォーム上で実行する主要なコンピュー...

デジタルツインの登場: 医薬品開発における今後の革命

51年前、アポロ13号が宇宙に打ち上げられました。打ち上げ直後、宇宙船は大きな爆発に遭遇した。宇宙船...

10億件の速達配送のピークを迎える中、Baidu OCRが物流企業のスピードアップにどのように貢献しているかをご覧ください。

ダブル11の大割引が戻ってきました。新規のお客様が最初に購入できる厳選商品...速達便のビジネスプロ...

MIT、新たな3Dプリント材料の発見を加速する新たなAIツールを開発

カスタマイズされた医療機器から手頃な価格の住宅まで、あらゆるものを作成するために使用される 3D プ...

AIを活用したBeike Real Estate:不動産サービス業界の新たなエコシステムの構築

[51CTO.com からのオリジナル記事] 人工知能は日常生活のあらゆる分野に大きな変化をもたらし...

大国同士が競争する中、なぜ彼らは人工知能で優位に立とうとするのでしょうか?

不確実性が人間関係を形作ります。感染症は、かつては直線的でスムーズで予測可能だった社会を予期せぬ形で...

未来を待つ必要はありません。分析と AI の災害はすでに起こっています。

データと機械学習アルゴリズムから得られる洞察は非常に貴重ですが、ミスは評判、収益、さらには命を奪う可...

ImageNetは人間の顔をぼかすことにしたが、ハスキー犬の顔の写真の認識率は急上昇した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

エッジコンピューティングの価値はデータにある

企業はビジネスニーズの変化に応じてスケールアップおよびスケールダウンできるコンピューティングおよびス...