OpenAI の GPT-3.5 や GPT-4 などのクローズドソース モデルの優位性に挑戦するために、LLaMa、Falcon など一連のオープン ソース モデル勢力が台頭しています。最近、Meta AI は LLaMa-2 モデルをリリースしました。これはオープンソース分野で最も強力な大規模モデルとして高く評価されており、多くの研究者もこれをベースに独自のモデルを構築しています。たとえば、StabilityAI は Orca スタイルのデータセットを使用して Llama2 70B モデルを微調整し、StableBeluga2 を作成しました。これは Huggingface の Open LLM リーダーボードでも優れた結果を達成しました。 最近、Open LLM リストのランキングに新たな変化があり、Platypus というモデルがリストのトップに躍り出ました。 要約すると、Platypus も Llama 2 をベースに若干の調整を加えたものです。ボストン大学の著者らは、最適化のために PEFT と LoRA、およびデータセット Open-Platypus を使用しました。 論文の中で、著者らは Platypus について詳細に紹介しています。 論文アドレス: https://arxiv.org/abs/2308.07317 この論文の主な貢献は次のとおりです。
オープンプラティパスデータセット現在、著者はHugging FaceでOpen-Platypusデータセットを公開しています。 汚染問題私たちのアプローチでは、単なる記憶による結果の偏りを避けるために、ベンチマーク問題がトレーニング セットに漏れるのを防ぐことを優先します。著者らは正確さを追求していますが、質問はさまざまな方法で尋ねられ、共通のドメイン知識によって影響を受ける可能性があるため、重複した質問をマークする際には柔軟性が必要であることも認識しています。潜在的な漏洩を管理するために、著者らは、ベンチマーク問題とのコサイン埋め込み類似性が 80% を超える Open-Platypus の質問を手動でフィルタリングするためのヒューリスティックを慎重に設計しました。彼らは潜在的な漏洩を(1)重複、(2)グレーゾーン、(3)類似しているが同一ではない、の3つのカテゴリーに分類した。そして、慎重を期すために、すべてのグループをトレーニング セットから除外しました。 繰り返す これはテスト セットのほぼ正確なコピーですが、単語や配置に若干の変更が加えられている可能性があります。上記の表の漏洩問題の数に基づくと、これが著者が真の汚染であると考える唯一のカテゴリです。具体的な例は以下のとおりです。 グレーゾーン 以下の質問はグレーゾーンと呼ばれ、完全に重複したものではなく常識の範囲内の質問が含まれます。著者らはこれらの問題に関する最終的な判断をオープンソース コミュニティに委ねていますが、これらの問題には専門知識が必要になることが多いことを認識しています。このカテゴリには、指示は同じだが回答が同義の質問が含まれることに注意してください。 似ているが同一ではない 質問の類似性は高いのですが、質問間にわずかな違いがあるため、回答には大きな違いがあります。 微調整と統合データセットを改良した後、著者らは、低ランク近似 (LoRA) トレーニングとパラメータ効率的な微調整 (PEFT) ライブラリという 2 つの方法に焦点を当てました。完全な微調整とは異なり、LoRA は事前トレーニング済みのモデルの重みを保持し、ランク分解マトリックスをトランスフォーマー層に組み込みます。これにより、トレーニング可能なパラメータの数が減り、トレーニングの時間とコストが節約されます。最初は、微調整は主に v_proj、q_proj、k_proj、o_proj などの注目モジュールを対象とします。その後、He らによる洞察に基づいて、gate_proj、down_proj、up_proj モジュールへの移行が行われました。トレーニング可能なパラメータが合計パラメータの 0.1% 未満の場合を除き、これらのモジュールはより良い結果を示します。著者らはこの方法を 13B モデルと 70B モデルに均一に適用し、トレーニング可能なパラメータはそれぞれ 0.27% と 0.2% になりました。唯一の違いは、これらのモデルの初期学習率です。 結果著者らは Platypus を他の SOTA モデルと比較しました。 2023年8月10日のHugging Face Open LLMランキングデータによると、Platypus2-70Binstructバリアントは他の競合製品を上回り、平均スコア73.13でトップになりました。 注目すべきは、Stable-Platypus2-13B モデルが 130 億のパラメータ モデルの中で平均スコア 63.96 でトップになったことです。 制限LLaMa-2 の微調整された拡張機能である Platypus は、基本モデルの制約の多くを保持し、対象を絞ったトレーニングにより特定の課題を導入します。これは LLaMa-2 の静的な知識ベースを共有しますが、これは古くなっている可能性があります。特にプロンプトが不明瞭な場合は、不正確または不適切なコンテンツが生成されるリスクもあります。 Platypus は STEM と英語の論理が強化されていますが、他の言語の能力は信頼できず、一貫性がない場合があります。また、偏った内容や有害な内容のコンテンツが作成されることもあります。著者らは、これらの問題を軽減するための努力はなされてきたが、特に英語以外の言語に関しては課題が残っていると述べている。 Platypus が悪意のある活動に悪用される可能性も懸念されています。開発者は、展開前にアプリケーションのセキュリティ テストを実行する必要があります。 Platypus は主なドメイン外では制限がある可能性があるため、ユーザーは慎重に進め、最適なパフォーマンスを得るために追加の微調整を検討する必要があります。ユーザーは、Platypus のトレーニング データと他のベンチマークの間に重複がないことを確認する必要があります。著者らはデータ汚染の問題について非常に慎重であり、汚染されたデータセットでトレーニングされたモデルとのマージを避けています。クリーンアップされたトレーニング データには汚染がないことが確認されましたが、いくつかの問題が見逃された可能性も否定できません。これらの制限事項の詳細については、論文の「制限事項」セクションを参照してください。 |
>>: アレックス・グレイブス氏の新しい論文「ベイジアンフローネットワーク」は離散データ生成の問題を解決しており、論文全体が数式でいっぱいである。
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
人工知能の急速な発展に伴い、ナレッジグラフの実装と商業化の可能性は継続的に強化され、社内のデータ分析...
人工知能への熱狂が世界を席巻している。国は人工知能の分野で戦略的な配置を開始しており、人工知能の人材...
マーク・アンドリーセンはかつてウォール・ストリート・ジャーナルに「なぜソフトウェアが世界を席巻してい...
多くの注意深い国民は、気づかないうちに銀行支店の数が減少していることに気づいています。予備統計による...
データ分析は、多くの組織がクラウド コンピューティング プラットフォーム上で実行する主要なコンピュー...
51年前、アポロ13号が宇宙に打ち上げられました。打ち上げ直後、宇宙船は大きな爆発に遭遇した。宇宙船...
ダブル11の大割引が戻ってきました。新規のお客様が最初に購入できる厳選商品...速達便のビジネスプロ...
カスタマイズされた医療機器から手頃な価格の住宅まで、あらゆるものを作成するために使用される 3D プ...
[51CTO.com からのオリジナル記事] 人工知能は日常生活のあらゆる分野に大きな変化をもたらし...
不確実性が人間関係を形作ります。感染症は、かつては直線的でスムーズで予測可能だった社会を予期せぬ形で...
データと機械学習アルゴリズムから得られる洞察は非常に貴重ですが、ミスは評判、収益、さらには命を奪う可...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
企業はビジネスニーズの変化に応じてスケールアップおよびスケールダウンできるコンピューティングおよびス...