2頭のアルパカが頭と尻尾を切り落とし、それをくっつけてハギングフェイスリストのトップに

2頭のアルパカが頭と尻尾を切り落とし、それをくっつけてハギングフェイスリストのトップに

HuggingFace が再びオープンソースの大規模モデルのリストのトップに躍り出ました。

最前列は、数週間前に展示されていたさまざまな Mixtral 8x7B の微調整バージョンを除けば、すべてSOLAR 10.7B の微調整バージョンで埋め尽くされています。

SOLAR大型モデルの由来は何ですか?

関連論文が ArXiv にアップロードされました。これは韓国のUpstage AI社によるもので、新しい大規模モデル拡張法である深度アップスケーリング(DUS)を使用しています。

簡単に言うと、 7Bアルパカ2頭の頭と尻尾を切り落とし、片方の最初の8層を切り落とし、もう片方の最後の8層を切り落とします。

残りの2つの24層モデルを縫い合わせ、最初のモデルの24層目と2番目のモデルの9層目を接合して、最終的に新しい48層10.7Bの大型モデルを形成します。

この論文では、新しいアプローチは MoE などの従来のスケーリング方法よりも優れており、基盤となる大規模モデルとまったく同じインフラストラクチャで使用できると主張しています。

ゲーティングネットワークやMoEに最適化されたトレーニングフレームワークなどの追加モジュールは必要なく、高速推論のためのカスタムCUDAカーネルも不要です。高い効率性を維持しながら、既存の方法にシームレスに統合できます。

チームは7Bスケール最強の単体大型モデルであるミストラル7Bをベース素材に選び、オリジナル版やMoE版を上回る新たな手法でつなぎ合わせました。

同時に、調整されたInstructバージョンも、対応するMoE Instructバージョンを上回ります。

最後まで縫合する

この論文では、直感に基づいてこのスプライシング方法が使用される理由を説明しています。

まず、最も単純な拡張方法、つまり 32 層の基本的な大規模モデルを 2 回繰り返して 64 層にします。

これの利点は、異質性がなく、すべてのレイヤーがベースの大きなモデルから取得されるが、レイヤー 32 と 33 の間の継ぎ目にはより大きな「レイヤー距離」があることです(これはレイヤー 1 と同じです)

これまでの研究では、Transformer の異なるレイヤーはそれぞれ異なる機能を果たし、たとえば、より深いレイヤーはより抽象的な概念の処理に優れていることが示されています。

研究チームは、層の距離が大きすぎると、事前にトレーニングされた重みを効果的に活用するモデルの能力が妨げられる可能性があると考えています。

1 つの解決策として、中間層を犠牲にして継ぎ目の差を減らすことが考えられ、ここから DUS 方式が生まれました。

パフォーマンスとモデル サイズのトレードオフに基づいて、チームは各モデルから 8 つのレイヤーを削除することを選択し、シームは 1 番目のレイヤーに接続された 32 レイヤーから 9 番目のレイヤーに接続された 24 レイヤーに変更されました。

単純につなぎ合わせたモデルのパフォーマンスは、最初は元の基本モデルよりも低くなりますが、事前トレーニングを継続することですぐに回復できます。

命令の微調整フェーズでは、オープンソース データセットの使用に加えて、数学的に強化されたデータセットも作成され、アライメント フェーズでは DPO が使用されました。

最後のステップは、異なるデータ セットでトレーニングされたモデル バージョンを加重平均して、ステッチを完了することです。

一部のネットユーザーはテストデータの漏洩の可能性を疑問視した。

研究チームはこの点も考慮し、論文の付録でデータ汚染テストの結果を具体的に報告し、その結果は低いレベルを示しました。

最後に、SOLAR 10.7B ベース モデルと微調整されたモデルは両方とも、Apache 2.0 プロトコルに基づくオープン ソースです。

これを試したネットユーザーからは、JSON 形式のデータからデータを抽出するパフォーマンスが優れているとの報告がありました。

論文アドレス: https://arxiv.org/abs/2312.15166

<<: 

>>: 

ブログ    

推薦する

SMP、NUMA、MPP アーキテクチャの概要

[[198955]]現在の商用サーバーは、システムアーキテクチャの観点から、対称型マルチプロセッサ構...

爆発的なソラの背後にある技術、拡散モデルの最新の開発をレビューする記事

機械が人間の想像力を持てるようにするために、深層生成モデルは大きな進歩を遂げました。これらのモデルは...

没入型環境向けロボットの開発における3つの課題

[51CTO.com 速訳] 最近、FacebookはMessengerプラットフォーム上のチャット...

...

人工知能が将来経験する7つの段階

2030年までに、人工知能のおかげで世界のGDPは15.7兆ドル増加するでしょう。企業の 84% は...

MetaのAIディレクターは、AIスーパーインテリジェンスがすぐに実現するとは考えておらず、量子コンピューティングにも懐疑的だ。

メタの主任科学者であり、ディープラーニングの先駆者であるヤン・ルカン氏は、現在のAIシステムが、山の...

UiPath: 自動化とは、退化を拒否し、価値の高い仕事の創出に専念することです

【51CTO.comオリジナル記事】近年、RPAの開発はかつてないほど注目を集めています。 Mark...

Transformer 機械学習モデルとは何ですか?

翻訳者 | 李睿校正:孫淑娟近年、Transformer 機械学習モデルは、ディープラーニングとディ...

アリババDAMOアカデミーがAI分野の権威あるランキングトップ6を獲得:人間の学習方法で人間を超える

[[339371]] AIが人間の学習方法を模倣したら何が起こるでしょうか? 8月26日、アリババD...

ビジネスプロセス管理を使用してマイクロサービス、人、ロボットを調整する方法

DevOps チームがプロセスの自動化を計画している場合は、ビジネス プロセス管理 (BPM) エン...

ResNetは3Dモデルにも使える。清華大学の「Jitu」チームが新たな研究を開始

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

データ構造とアルゴリズム: 単調に増加する数値

[[439817]]単調に増加する数字LeetCode の問題へのリンク: https://leet...

そうだ!機械学習を使用してビリビリの株価動向を予測する

[[418764]]この記事では、主にPythonを使用してビリビリの株価を分析する方法について説明...

Google AI 面接の質問(回答と戦略付き)

おそらくすべてのプログラマーは Google への入社を考えたことがあるでしょう。しかし、「試験」に...

人工知能を始めるには

業界の専門家によると、人工知能を使用していない多くの企業がこの新興技術を急いで導入し始めている一方で...