OpenAI の GPT-3.5 や GPT-4 などのクローズドソース モデルの優位性に挑戦するために、LLaMa、Falcon など一連のオープン ソース モデル勢力が台頭しています。最近、Meta AI は LLaMa-2 モデルをリリースしました。これはオープンソース分野で最も強力な大規模モデルとして高く評価されており、多くの研究者もこれをベースに独自のモデルを構築しています。たとえば、StabilityAI は Orca スタイルのデータセットを使用して Llama2 70B モデルを微調整し、StableBeluga2 を作成しました。これは Huggingface の Open LLM リーダーボードでも優れた結果を達成しました。 最近、Open LLM リストのランキングに新たな変化があり、Platypus というモデルがリストのトップに躍り出ました。 要約すると、Platypus も Llama 2 をベースに若干の調整を加えたものです。ボストン大学の著者らは、最適化のために PEFT と LoRA、およびデータセット Open-Platypus を使用しました。 論文の中で、著者らは Platypus について詳細に紹介しています。 論文アドレス: https://arxiv.org/abs/2308.07317 この論文の主な貢献は次のとおりです。
オープンプラティパスデータセット現在、著者はHugging FaceでOpen-Platypusデータセットを公開しています。 汚染問題私たちのアプローチでは、単なる記憶による結果の偏りを避けるために、ベンチマーク問題がトレーニング セットに漏れるのを防ぐことを優先します。著者らは正確さを追求していますが、質問はさまざまな方法で尋ねられ、共通のドメイン知識によって影響を受ける可能性があるため、重複した質問をマークする際には柔軟性が必要であることも認識しています。潜在的な漏洩を管理するために、著者らは、ベンチマーク問題とのコサイン埋め込み類似性が 80% を超える Open-Platypus の質問を手動でフィルタリングするためのヒューリスティックを慎重に設計しました。彼らは潜在的な漏洩を(1)重複、(2)グレーゾーン、(3)類似しているが同一ではない、の3つのカテゴリーに分類した。そして、慎重を期すために、すべてのグループをトレーニング セットから除外しました。 繰り返す これはテスト セットのほぼ正確なコピーですが、単語や配置に若干の変更が加えられている可能性があります。上記の表の漏洩問題の数に基づくと、これが著者が真の汚染であると考える唯一のカテゴリです。具体的な例は以下のとおりです。 グレーゾーン 以下の質問はグレーゾーンと呼ばれ、完全に重複したものではなく常識の範囲内の質問が含まれます。著者らはこれらの問題に関する最終的な判断をオープンソース コミュニティに委ねていますが、これらの問題には専門知識が必要になることが多いことを認識しています。このカテゴリには、指示は同じだが回答が同義の質問が含まれることに注意してください。 似ているが同一ではない 質問の類似性は高いのですが、質問間にわずかな違いがあるため、回答には大きな違いがあります。 微調整と統合データセットを改良した後、著者らは、低ランク近似 (LoRA) トレーニングとパラメータ効率的な微調整 (PEFT) ライブラリという 2 つの方法に焦点を当てました。完全な微調整とは異なり、LoRA は事前トレーニング済みのモデルの重みを保持し、ランク分解マトリックスをトランスフォーマー層に組み込みます。これにより、トレーニング可能なパラメータの数が減り、トレーニングの時間とコストが節約されます。最初は、微調整は主に v_proj、q_proj、k_proj、o_proj などの注目モジュールを対象とします。その後、He らによる洞察に基づいて、gate_proj、down_proj、up_proj モジュールへの移行が行われました。トレーニング可能なパラメータが合計パラメータの 0.1% 未満の場合を除き、これらのモジュールはより良い結果を示します。著者らはこの方法を 13B モデルと 70B モデルに均一に適用し、トレーニング可能なパラメータはそれぞれ 0.27% と 0.2% になりました。唯一の違いは、これらのモデルの初期学習率です。 結果著者らは Platypus を他の SOTA モデルと比較しました。 2023年8月10日のHugging Face Open LLMランキングデータによると、Platypus2-70Binstructバリアントは他の競合製品を上回り、平均スコア73.13でトップになりました。 注目すべきは、Stable-Platypus2-13B モデルが 130 億のパラメータ モデルの中で平均スコア 63.96 でトップになったことです。 制限LLaMa-2 の微調整された拡張機能である Platypus は、基本モデルの制約の多くを保持し、対象を絞ったトレーニングにより特定の課題を導入します。これは LLaMa-2 の静的な知識ベースを共有しますが、これは古くなっている可能性があります。特にプロンプトが不明瞭な場合は、不正確または不適切なコンテンツが生成されるリスクもあります。 Platypus は STEM と英語の論理が強化されていますが、他の言語の能力は信頼できず、一貫性がない場合があります。また、偏った内容や有害な内容のコンテンツが作成されることもあります。著者らは、これらの問題を軽減するための努力はなされてきたが、特に英語以外の言語に関しては課題が残っていると述べている。 Platypus が悪意のある活動に悪用される可能性も懸念されています。開発者は、展開前にアプリケーションのセキュリティ テストを実行する必要があります。 Platypus は主なドメイン外では制限がある可能性があるため、ユーザーは慎重に進め、最適なパフォーマンスを得るために追加の微調整を検討する必要があります。ユーザーは、Platypus のトレーニング データと他のベンチマークの間に重複がないことを確認する必要があります。著者らはデータ汚染の問題について非常に慎重であり、汚染されたデータセットでトレーニングされたモデルとのマージを避けています。クリーンアップされたトレーニング データには汚染がないことが確認されましたが、いくつかの問題が見逃された可能性も否定できません。これらの制限事項の詳細については、論文の「制限事項」セクションを参照してください。 |
>>: アレックス・グレイブス氏の新しい論文「ベイジアンフローネットワーク」は離散データ生成の問題を解決しており、論文全体が数式でいっぱいである。
ハイテクノロジーの発展により、ロボットは映画に登場するものではなく、現実のものとなりました。人工知能...
数年間この業界に携わってきたデータ サイエンティストとして、私は LinkedIn や QuoLa ...
Bing Chat のリリースから 6 か月後の 8 月 8 日、Microsoft Bing チー...
最近、NVIDIA チームは、8T トークンでトレーニングされた 150 億のパラメータを持つ新しい...
北京時間9月14日朝のニュースによると、FacebookはSapFixと呼ばれる人工知能(AI)ツー...
Cactiパーセンタイル監視アルゴリズムcacti のテンプレート自体はハードディスクの使用サイズし...
1. 背景人工知能の時代では、さまざまなディープラーニングフレームワークが普及しており、フレームワー...
このテストでは合計20台の携帯電話が選ばれ、そのうち1台は海外製、残りの19台は国内トップ5の携帯電...
OpenAI は、ますます深刻化する GPT-4 の遅延問題に正式に対応しました。私は今でもChat...
エネルギー産業はハイテク主導の産業です。石油・ガス業界では、過酷な条件下で大型機器を使用してさまざま...
[[410767]] GitHub Copilot、DeepDev、IntelliCode、その他の...