わずか3% の計算労力と5% のコストで SOTA を達成し、1B-3B 規模の大規模オープンソース モデルを上回りました。 この成果はプリンストン大学のChen Danqi 氏のチームによるもので、 LLM-Shearing大規模モデル剪定法と呼ばれています。 アルパカ LLaMA 2 7B に基づいて、1.3B と 3B の剪定後の Sheared-LLama モデルが、指向性構造剪定によって取得されました。 下流タスク評価では、同じサイズの以前のモデルを上回ります。 第一著者の夏孟州氏は、「最初から事前トレーニングを行うよりもはるかに費用対効果が高い」と述べた。 この論文では、剪定された Sheared-LLaMA 出力の例も示されており、規模がわずか 13 億と 27 億であるにもかかわらず、一貫性があり内容が豊富な応答を生成できることを示しています。 同じ「半導体業界アナリストを演じる」タスクの場合、バージョン 2.7B の回答構造はさらに明確になります。 研究チームによると、剪定実験にはLlama 2 7Bバージョンのみが使用されたが、この方法は他のモデルアーキテクチャにも適用でき、あらゆる規模に拡張できるという。 もう 1 つの利点は、プルーニング後に、高品質のデータセットを選択して事前トレーニングを続行できることです。 ある開発者は、6 か月前には 65B 未満のモデルは実用的ではないとほぼ全員が考えていたと述べています。
プルーニングを制約付き最適化として扱うLLM-Shearing は、具体的には、大規模なモデルを指定されたターゲット構造に剪定する、指向性構造化剪定です。 以前のプルーニング方法では、一部の構造が削除され、表現力に影響を与えるため、モデルのパフォーマンスが低下する可能性があります。 新しい方法では、プルーニングを制約付き最適化問題と見なし、パフォーマンスの最大化を目指しながら、指定された構造に一致するサブネットワークを検索するためのプルーニング マスク マトリックスを学習します。 次に、プルーニングされたモデルは、プルーニングによって生じたパフォーマンスの低下をある程度回復するために、事前トレーニングを継続します。 この段階で、チームは、プルーニングされたモデルと最初からトレーニングされたモデルの損失削減率がデータセットごとに異なり、データの利用が非効率的になることを発見しました。 この目的のために、研究チームは、異なるドメインのデータに対するモデルの損失削減率に基づいて各ドメインのデータの割合を動的に調整し、データの利用効率を向上させる「ダイナミックバッチローディング」を提案しました。 実験により、剪定されたモデルは、最初は最初からトレーニングされた同じサイズのモデルよりもパフォーマンスが大幅に低下しますが、事前トレーニングを継続すると急速に改善され、最終的にはそれを上回ることがわかりました。 これは、強力なベースモデルからの剪定により、継続的な事前トレーニングのためのより優れた初期化条件を提供できることを示唆しています。 更新し続けます、一つずつ切りに来てください論文の著者は、プリンストン大学の博士課程学生である夏孟洲氏と高天宇氏、清華大学の曽志遠氏、プリンストン大学の助教授である陳丹奇氏である。 夏孟州は復旦大学で学士号を取得し、CMUで修士号を取得しました。 清華大学で学士号を取得した高天宇氏が、2019年の清華大学特別賞を受賞した。 二人とも、現在プリンストン大学の助教授であり、プリンストン NLP グループの共同リーダーである Danqi Chen 氏の教え子でした。 最近、陳丹奇氏は自身のホームページで自身の研究の方向性を更新しました。 「最近は主に大型モデルの開発に興味があります」と語り、研究しているトピックには次のようなものがあります。
Sheared-Llamaは現在Hugging Faceで販売中です。 チームはオープンソースライブラリは今後も更新され続けると述べた。 大型モデルが発売されるごとに順次カットし、高性能な小型モデルを発売していきます。 もう一つ大きなモデルは、今では本当にカールしすぎていると言わざるを得ません。 第一著者の夏孟州氏は、論文を書いた当時はまだ SOTA であったが、論文が完成した後、最新の Stable-LM-3B にすでに追い抜かれていたと訂正を発表しました。 論文アドレス: https://arxiv.org/abs/2310.06694 ハギングフェイス: https://huggingface.co/princeton-nlp プロジェクトのホームページ: https://xiamengzhou.github.io/sheared-llama/ |
<<: 光量子コンピュータ「九章3号」が発売されました!スーパーコンピューターの1000億倍の速さ、USTCのパン・ジアンウェイ氏のチームより
>>: 速報です!ヒントンがロボットスタートアップに参入、同社は9000万ドルの新規投資を受ける
人工知能 (AI) の定義は、産業オートメーションにおける生産と、研究室外の日常生活では大きく異なり...
[[186071]]今日、私は BAT のアルゴリズム エンジニアに再び拒否されました。はい、お読み...
[[248704]] 11月6日午前のニュース、第20回「21世紀のコンピューティング」学術セミナー...
概要: 現在、インターネット上の Python 機械学習リソースは非常に複雑で、初心者にとっては混乱...
最近、ロボットに特化したレストランが広州に正式にオープンしました。客の出迎えから調理まで、一連の作業...
現在、ロボット工学は科学技術分野における最先端技術となっており、先進国は、この技術面で優位に立つこと...
生体認証市場を見ると、顔認証や虹彩認証などの割合が増加しており、一般の人々のこれらの技術に対する理解...
Llama2とCode Llamaのリリース後、長い間姿を見せていなかったザッカーバーグ氏は、本日公...
2020 = 1024 + 996... 2020 はプログラマーにとってあまり「フレンドリー」に...
[51CTO.com クイック翻訳] 前回の記事「人工ニューラルネットワークをゼロから構築する(パー...
ChatGPTの出現後、人々は「すべての産業がAIによって再編され、一部の職業は置き換えられ、一部の...
2月4日の北京冬季オリンピックの開会式で、若い俳優たちが「平和の鳩」を手に持ち、彼らが動くと、足元に...