過去2023年間で、大規模言語モデル(LLM)は潜在力と複雑さの両面で急速に成長しました。 2024 年のオープンソースと研究の進歩を見据えると、モデルのサイズを大きくすることなく、あるいはさらに小さくすることなく、モデルを改善するという、歓迎すべき新しい段階に入ろうとしているようです。 2024 年の最初の月が過ぎた今、新年の最初の月の進捗状況を振り返る時期が来ているかもしれません。最近、AI研究者のセバスチャン・ラシュカ氏が、上記の新しい段階に関連する4つの重要な論文を紹介するレポートを発表しました。彼らの研究テーマは簡単にまとめると次のようになります。 1. 重み平均化とモデル融合により、従来のアンサンブル手法によくある欠点(より高いリソース要件など)なしに、複数の LLM を 1 つのより優れたモデルに統合できます。 2. プロキシチューニング技術は、大規模モデルの重みを変更せずに 2 つの小さな LLM を使用して、既存の大規模 LLM のパフォーマンスを向上させることができます。 3. 複数の小さなモジュールを組み合わせてハイブリッド エキスパート モデルを作成することにより、結果として得られる LLM は、より大きなモジュールと同等かそれ以上の有効性と効率性を持つことができます。 4. 11 億パラメータの小規模 LLM を事前トレーニングすることで、開発および運用コストが削減され、教育および研究アプリケーションに新たな可能性が開かれます。 最後に、1月に興味深い研究をいくつかまとめました。以下は、原文の意味を変えずに、Machine Intelligenceが原文を編集・整理したものです。 1.WARM: 重み平均報酬モデルの利点について論文アドレス: https://arxiv.org/abs/2401.12187 1 月 22 日の論文「WARM: 加重平均報酬モデルの利点について」で、研究者らは LLM 報酬モデルの加重平均法を提案しました。ここでの報酬モデルは、RLHF でアライメントに使用される報酬モデルを指します。 加重平均とは何ですか? LLM の加重平均とモデル融合はおそらく 2024 年に最も興味深い研究トピックとなるため、WARM 論文に進む前にこのトピックについて説明しましょう。 モデルアンサンブルと加重平均の理解 モデル融合と加重平均は新しいアイデアではありませんが、現在最も人気のある方法です。これは、Open LLM リーダーボードで主要なテクノロジーになりました。以下では、これら 2 つの概念について簡単に説明します。 重み平均化とモデル融合はどちらも、複数のモデルまたはチェックポイント モデルを 1 つのエンティティに結合します。これの利点は何ですか?アンサンブル モデルを作成するという概念と同様に、複数のモデルを 1 つのモデルに結合するというこのアイデアにより、トレーニングの収束性が向上し、全体的なパフォーマンスが向上し、堅牢性が向上します。従来の統合方法とは異なり、モデル融合と重み平均化により、下の図に示すように、複数の個別のモデルを維持するのではなく、単一のモデルが生成されることに注意してください。 加重平均とモデル融合(左)と多数決などの従来のアンサンブル法(右) 従来、重み平均化では、トレーニング プロセスのさまざまなポイントで単一モデルの重みパラメータを平均化します。通常、これはモデルが収束に近づくトレーニングの終わり頃に実行されます。この手法の一般的な形式は、確率的加重平均 (SWA) です。このアプローチでは、最初に大きな学習率を減衰させ、学習率の減衰期間中(まだ比較的高い)に複数の反復にわたって重みが平均化されます。 確率的重み平均化 (SWA) は、トレーニング サイクルの終了時にモデルの重みを平均化します。 モデルのトレーニング軌跡は均一ではない可能性があるため、上の図に示すように、学習率が低く、トレーニングが収束に近づいているトレーニングの終わりに向かってモデルの平均を計算するという戦略がとられます。 もう 1 つの方法は指数移動平均 (EMA) です。これは、古い状態の重みを指数的に減らすことによって、重みの平滑化されたバージョンを計算します。 2022 年、Latest Weight Averaging (LaWA) により、最新の k チェックポイントの重みを平均化することで (各重みはエポックの終了時に取得されます)、損失と精度の点でトレーニング プロセスを複数のエポックで加速できることが示されました。研究により、この手法は ResNet ビジョン モデルと RoBERTa 言語モデルで効果的に使用できることが示されています。 その後、2023 年に発表された論文「早期の重み平均化と LLM 事前トレーニングでの高い学習率の一致」では、より高い学習率を使用し、トレーニング中に早い段階でチェックポイントの平均化を開始する LaWA の修正版が検討されました。研究者らは、このアプローチにより標準的な SWA および EMA 方法のパフォーマンスが大幅に向上することを発見しました。 論文「Early Weight Averaging meets High Learning Rates for LLM Pre-training」の LaWA の修正版。論文アドレス: https://arxiv.org/abs/2306.03241 重み平均化では、同じモデルの複数のチェックポイントを 1 つのモデルに結合しますが、モデル融合では、複数の異なるトレーニング済みモデルを 1 つのモデルに結合します。これらの各モデルは独立してトレーニングされ、異なるデータセットまたはタスクに基づく場合があります。 モデル融合には長い歴史がありますが、最近の影響力のある LLM 関連の論文は「モデル ラタトゥイユ: 分布外一般化のための多様なモデルのリサイクル」です。 (論文アドレス:https://arxiv.org/abs/2212.10445) モデル ラタトゥイユの背後にある考え方は、下の図に示すように、さまざまな補助タスクで微調整された同じ基本モデルを複数回繰り返して再利用することです。 モデル融合はモデル ラタトゥイユを通じて達成され、他の微調整戦略が比較されました (OOD = 分布外/一般化) 詳細には、モデルラタトゥイユ法は次のように要約できます。 モデル融合のためのモデルラタトゥイユ法 この全体的な考え方は、論文「LoraHub: 動的 LoRA 構成による効率的なクロスタスク一般化」に示されているように、LoRA アダプターにも使用できることに注意してください。 (論文アドレス:https://arxiv.org/abs/2307.13269) 加重平均報酬モデルを使用する 重み平均化とモデル融合について説明した後、最近発表された論文「WARM: 重み平均化報酬モデルの利点について」に戻りましょう。 この研究の主な目的は、LLM の RLHF アライメント手順を改善することです。具体的には、研究者らは、微調整された報酬モデルの重みを平均化することで、LLM における報酬ハッキング問題を軽減したいと考えています。 報酬ハッキングとは、LLM が実際に意図したタスクを完了したり、根本的な目標を達成したりする代わりに、報酬システムの抜け穴を操作または悪用して高いスコアや報酬を獲得することを学ぶことです。 加重平均により報酬モデリングは報酬ハッキングに対してより堅牢になる 報酬ハッキング問題を解決するために、WARM 論文では、加重平均を通じて LLM 報酬モデルを組み合わせることを提案しています。単一の報酬モデルと比較して、このプロセスを通じて得られた融合報酬モデルは 79.4% の勝率を達成しました。 WARMはどのように機能しますか?この方法は実際には非常に単純です。ランダム重み平均化と同様に、WARM は、下の図に示すように、複数のモデル (ここでは報酬モデル) の重みを平均化します。 RLHF プロセスで WARM がどのように使用されるかの概要。ここでの唯一の新しい点は、このアプローチでは単一の報酬モデルをトレーニングするのではなく、加重平均からの報酬モデルを使用することです。 これまで、いくつかの加重平均方法について説明しました。では、WARM はどのようにして重みを平均化して報酬モデルを取得するのでしょうか?ここでは、ランダム重み平均化と同様に、単純な線形平均化を使用します。ただし、違いもあります。モデルは同じ軌跡からサンプリングされているのではなく、事前トレーニング済みモデルに基づいて個別に作成されており、これはモデル ラタトゥイユに似ています。さらに、WARM は、微調整された軌道に沿ってサンプリングを可能にする、いわゆるバクラバ プロセスを使用します。次の図はこれらの違いを比較したものです。 さまざまなモデルアンサンブルと平均化方法の比較 上記の WARM プロセスに従い、10 個の報酬モデルを平均化した後、研究者は強化学習戦略を発見しました。この戦略を使用すると、下の図に示すように、WARM は単一の報酬モデルと比較して勝率が 79.4% になります。 ステップ3000では、WARMは最良の単一報酬モデルアプローチよりも優れている 要約するモデル融合は新しい技術ではありませんが、LLM 分野では比較的新しい技術です。LLM には高いコストとリソース要件があるため、特に大きな可能性を秘めています。したがって、トレーニング中に作成された複数の既存の LLM を(追加の処理なしで)活用する方法が特に魅力的です。さらに、従来の統合方法(複数のモデルを同時に実行する必要がある)と比較して、加重平均によって得られたモデルは比較的軽量であり、推論時間のコストは単一モデルのコストを超えません。 将来を見据えると、LLM モデル融合技術には大きな可能性が秘められていると思います。また、将来的には、より革新的なモデル融合の方法が登場すると期待しています。 2. プロキシによる言語モデルのチューニング論文アドレス: https://arxiv.org/abs/2401.08565 論文「プロキシによる言語モデルのチューニング」では、LLM を改善するために使用できる手法、プロキシ チューニングが提案されています。ここでは「エージェントのチューニング」と訳します。このアプローチにより、重みをある程度変更せずに LLM を微調整できます。 エージェントのチューニングは、ターゲット LLM のロジットを調整することによって実現されます。これは、デコード段階では非常に単純なプロセスです。具体的には、小さなベースモデルと微調整されたモデル間のロジットの差を計算する必要があります。この差はターゲット モデルのロジットに追加されます。ロジットは、モデルの最終層によって生成される生の出力値を指します。これらのロジットは、LLM の各可能な出力トークンの正規化されていないスコアを表し、その後、ソフトマックスなどの関数を通じて確率に変換されます。 プロキシチューニング図 この概念をより明確に説明するために、大規模なターゲット モデル M1 (Llama 2 70B など) の目的関数の結果を改善したいと仮定します。このプロセスには、Llama 2 7B などの小さなベース モデル (M2) と、Llama 2 7B Chat などの微調整されたベース モデル (M3) という 2 つの小さなモデルが関係します。 では、望む機能強化をどのように実現すればよいのでしょうか?実際、これらの小さなモデルの予測結果の差 (ロジット) がターゲット モデル M1 に使用されます。改善されたターゲットモデルM1*の出力ロジットは次のように計算されます:M1*(x) = M1 (x) + [M3 (x) - M2 (x)]。これらの出力ロジットを取得した後、それらはソフトマックス関数を使用して確率に変換されます。これらの確率は、生成されたテキストである最終出力をサンプリングするために使用されます。このプロセスでは、カーネル サンプリングやトップ k デコードなどの手法を使用できます。 プロキシチューニングは実際にどの程度効果的でしょうか? 彼らの実験は驚くほど良い結果をもたらした。研究者たちは、このアプローチを 3 つの異なるシナリオで実験しました。 1. コマンドの調整: Llama 2 70B ベース モデルを Llama 2 70B チャット モデルと同等になるように改良します。 2. ドメイン適応: CodeLlama 70B のコーディング レベルに到達することを目標に、Llama 2 70B ベース モデルのコーディング機能を改善します。 3. タスク固有の微調整: Llama 2 70B ベース モデルの能力を向上させ、TriviaQA や数学の問題などの特定のタスクを実行します。 各シナリオにおいて、新しい方法は元の基本モデルと比較して大幅な改善をもたらすことがわかります。たとえば、以下の表は、Llama 70B Base モデルと Chat モデルの比較に焦点を当てています。ただし、この論文では CodeLlama の追加ベンチマークも提供しています。 プロキシチューニングペーパーの結果チャート ご覧のとおり、上記のベンチマーク結果に基づくと、プロキシ調整された 70B Llama 2 モデルは 70B ベース モデルよりも優れており、直接微調整された Llama 70B Chat モデルとほぼ同等の性能を発揮します。 実用的な考慮事項 このアプローチは、R&D の効率を向上させるために使用できます。新しいトレーニングまたはモデル改善方法を開発し、より小さなモデルでテストしてコストを削減します。これらの方法は、大規模なモデルをトレーニングする必要なく、より大きなベースモデルを改善するために拡張されます。 ただし、実際にこれらの方法を使用する場合は、次の 3 つの異なるモデルを使用する必要があります。 1. 大規模な共通ベースモデル 2. より小型の一般モデル 3. 特定のユースケースや顧客のニーズに合わせてカスタマイズされた、小型の特殊モデル では、LoRA (Low Rank Adaptation) と呼ばれるより優れたアプローチがすでにあるのに、なぜこのアプローチを選択すべきなのでしょうか。LoRA は、より小さな一般モデルを必要とせず、複数の小さな特殊モデルを小さな LoRA マトリックスのセットで置き換えることができます。 プロキシ チューニング アプローチには、次の 2 つの潜在的な利点があります。
しかし、問題はまだ残っています。それは、小さいモデルは、大きなターゲット モデルと同じ語彙を持つ必要があるということです。 (理論的には、GPT-4 の語彙を知っていて、そのロジット出力にアクセスできる場合、このアプローチを使用して特殊な GPT-4 モデルを作成できます。) 3.専門家のミックス論文アドレス: https://arxiv.org/abs/2401.04088 Mixtral 8x7B ペーパーがついに登場しました! (Machine Heart もこの論文が発表されるとすぐに報道しました。「Mixtral 8x7B 論文がついに登場: アーキテクチャの詳細とパラメータ数が初めて明らかに」を参照してください) Mixtral 8x7B は、スパース エキスパート混合 (スパース MoE) モデルであり、現在最もパフォーマンスの高い大規模言語モデル (LLM) の 1 つであり、公開されている LLM の中でも最も人気のあるモデルです。元の論文によれば、このモデルのコードベースは Apache 2 ライセンスの下でリリースされており、学術目的および商用目的で無料で使用できるとのことです。 MoEとは何ですか? MoE は Mixture of Experts の略で、複数の小規模な「専門家」サブネットワークを組み合わせた統合モデルです。各サブネットワークは、異なるタイプのタスクの処理を担当します。 1 つの大きなネットワークの代わりに複数の小さなサブネットワークを使用することで、MoE はコンピューティング リソースをより効率的に割り当てることができます。これにより、より効率的に拡張でき、より幅広いタスクでより優れたパフォーマンスを実現できるようになります。 以下で説明する論文「Mixtral of Experts」では、研究者らが Mixtral 8x7B の構築方法について議論しました。このモデルは、はるかに大型の Llama 2 70B モデルよりも優れた性能を発揮します。 Mixtral 8x7Bは、多くのベンチマークではるかに大きなLlama 2 70Bモデルに匹敵するか、それを上回ることができます。 ミクストラルアーキテクチャ Mixtral 8x7B の重要なアイデアは、下の図に示すように、Transformer アーキテクチャ内の各フィードフォワード モジュールを 8 つのエキスパート レイヤーに置き換えることです。 トランスフォーマーアーキテクチャ、論文「Attention Is All You Need」より フィードフォワード モジュールは本質的には多層パーセプトロンです。 PyTorch 疑似コードのようなものを使用すると、次のようになります。 さらに、各トークン埋め込みを 8 つのエキスパート フィードフォワード モジュールにリダイレクトする役割を持つルーティング モジュールがあります。次に、以下の図に示すように、これら 8 つのエキスパート フィードフォワード レイヤーの出力が合計されます。 論文「Mixtral of Experts」における MoE モジュールの説明 数学的に表現すると、8 人の専門家 ({E_1、E_2、...、E_8}) がいる場合、次のように記述できます。 ここで、G はルーティング (つまり、ゲーティング ネットワーク) を表し、E_i はエキスパート モジュールの出力を表します。上記の式に従って、MoE レイヤーはエキスパート出力 E_i の加重合計を計算します。ここで、重みは各入力 x に対してゲーティング ネットワーク G (x)_i によって提供されます。 一見すると、Mixtral は、これらのエキスパート (フィードフォワード) モジュールを介して LLM に追加のパラメータを追加し、重み付けされたアンサンブル アプローチを表現しているだけのように見えます。しかし、もう 1 つひねりがあります。Mixtral はスパース MoE であり、つまり、各入力に対してこれらのエキスパートのサブセットのみが使用されます。 Mixtral 8x7B の特殊なケースでは、著者は TopK=2 を設定しました。これは、一度に使用されるエキスパートが 2 人だけであることを意味します。したがって、上記の式に基づくと、G(x) の出力は次のようになります: [0, 0, 0.63, 0, 0, 0.37, 0, 0]。これは、3 番目の専門家が出力の 63% に貢献し、6 番目の専門家が 37% 貢献したことを意味します。 モデルサイズ Mixtral 8x7B の名前の由来は何ですか?スパース MoE モデルの実際のサイズはどれくらいですか? 8x は、8 つのエキスパート サブネットワークが使用されることを意味します。 7B は、Mistral 7B モジュールと組み合わせられていることを意味します。ただし、Mixtral のサイズは 8x7B = 56B ではないことに注意することが重要です。 7B パラメータは Mistral 7B モデルの全体的なパラメータ サイズを表しますが、Mixtral 8x7B では、エキスパート レイヤーは単にフィードフォワード レイヤーを置き換えます。 合計で、Mixtral 8x7B には 47B のパラメーターがあります。これは、Mistral 7B モデルに 9B の非フィードフォワード パラメータがあることを意味します。興味深いことに、LLM のパラメータのほとんどは、アテンション メカニズムではなく、フィードフォワード モジュールに含まれています。 Mixtral 8x7B には合計 47B のパラメーターがあり、これは Llama 2 70B などのモデルよりも大幅に少なくなっています。さらに、各タイムステップでアクティブなエキスパートは 2 人だけなので、モデルは入力トークンごとに 130 億個のパラメータのみを使用します。その結果、従来の非 MoE 47B パラメータ モデルよりもはるかに効率的になります。 論文「専門家のミックストラル」より 専門家に専門性を身につけさせる 興味深い疑問が生じます。これらの専門家は、タスクまたはトークン固有のパターンを示しているのでしょうか?残念ながら、著者らは、GitHub、Arxiv、数学、Wikipedia などのデータセットなど、主題固有の専門知識を観察できませんでした。 しかし、著者らは興味深い現象を観察しました。テキスト データセット内の連続するトークンは、多くの場合、同じ専門家に割り当てられるということです。さらに、下の図に示すように、Python コード内のインデント トークンは同じエキスパートに割り当てられることがよくあります。 論文「専門家のミックストラル」より (著者は各トークンについて 2 人の専門家のどちらが色分けされているかを指定していませんが、重みが高い方が常に色分けされていると推測します。) 要約するMixtral 8x7B には、公開されていること、Llama 2 70B などの大型モデルと同等かそれ以上であること、そして比較的斬新な方法でスパース MoE モジュールを使用して LLM を構築することなど、いくつかの利点があります。 これは強力で、パラメータ効率が良く、最大 32k の長さのコンテキスト ウィンドウを処理できるため、近い将来 (少なくとも今後数か月間) は魅力的なモデルになる可能性があります。 MoE モデルも 2024 年にほとんどのオープンソース プロジェクトの主要な焦点領域になると思われるので、Mixtral of Experts は注目に値します。 しかし、この論文には小さな問題があります。著者はトレーニングデータセットに関する情報を共有していないのです。しかし、潜在的な著作権紛争を回避できるため、これは理解できます。 さらに、著者らが同じデータセットに基づいて Mixtral 8x7B と Llama 2 70B を比較できればさらに良いのですが、そのような研究は非常に費用がかかります。さらに、Mixtral 8x7B を次の 2 つの仮想モデルと比較すると、MoE アプローチと非 MoE アプローチのパフォーマンスを直接比較できるため、どのように異なるのかを確認したいと考えました。 ・ミストラル56B(大型の非MoEモデル) ・ミストラル47B(Mixtral 8x7Bと同じパラメータ数の非MoEモデル) もう一つの興味深い事実: Brave ブラウザの Leo Assistant 機能は現在、デフォルトの LLM として Mixtral 8x7B を使用しています。 ) 4. TinyLlama: オープンソースの小さな言語モデル論文アドレス: https://arxiv.org/abs/2401.02385 昨年 12 月に Microsoft の phi-2 が大きな注目を集めた後、TinyLlama は小規模 LLM カテゴリの新参者となりました。 TinyLlama は、パラメータが 11 億個しかない小型なだけでなく、完全にオープン ソースです。ここで、「オープンソース」とは、制限のないオープンソース ソフトウェア ライブラリを通じてトレーニング コードとチェックポイント モデルを提供することを意味します。 GitHub リポジトリをご覧ください: https://github.com/jzhang38/TinyLlama 小規模な LLM (多くの場合、小規模言語モデルを意味する SLM と表記されます) が魅力的なのはなぜでしょうか?小規模なLLMの場合:
タイニーラマのパフォーマンス TinyLlama の利点は、サイズが小さくオープン ソースであるだけでなく、常識的な推論や問題解決のベンチマークでのパフォーマンスが非常に優れており、同じサイズの他のオープン ソース モデルよりも優れています。 タイニーラマのパフォーマンス もちろん、TinyLlama はこれらのベンチマークでより大きなモデルと競合することはできませんが、そのコードはすべてオープンソースであるため、誰でもさらに研究して微調整することができます。 TinyLlamaからのアイデア たとえば、著者のトレーニング プロセスからは、興味深く教育的な洞察が得られます。1 兆個のトークンでモデルを 3 エポック (1 エポックではなく) トレーニングすることは、Chinchilla のスケーリング比率に違反しますが、実際には有用です。これらのスケーリング比は、このようなモデル サイズの場合、はるかに小さいデータセットを使用する必要があることを示唆しています。 論文「計算最適化大規模言語モデルのトレーニング」より たとえば、次のグラフに示すように、複数のエポックにわたってトレーニングした後でも、使用するデータが繰り返されてもモデルは改善され続けます。 TinyLlama 論文のグラフ。他の 6 つのベンチマークでも同様の傾向が見られる 非常に大きなモデルを使用する場合、「大きすぎる」データセットでの動作を調査したり、複数のエポックにわたってトレーニングしたりすることは困難になる可能性があります。 TinyLlama の今後の微調整実験では興味深い結果が得られる可能性があり、期待する価値があります。 (初期の実験では、このモデルは現在、より小型の phi-2 モデルより遅れていることが示されていますが、実際には phi-2 モデルは TinyLlama より 3 倍も大きいです。 1月のその他の興味深い研究論文以下は、1 月に私が見つけた他の興味深い論文です。スペースの都合上、特に興味深いと思われる論文には下記に★印を付けました。
研究者らは、キー値キャッシュのアクティベーションを量子化する方法を提案しました。これにより、パープレキシティ メトリックの劣化問題を最小限に抑え、最大 100 万のコンテキスト長をサポートしながら、Llama-7B などのモデルを単一の A100 (80 GB) GPU で実行できるようになります。
著者らは、解釈された Web ドキュメントを使用して大規模な言語モデルをより効率的にトレーニングすることを提案しています。これにより、事前トレーニングが高速化され、さまざまなタスクでパフォーマンスが向上し、トレーニング データの構成構造が分布外パフォーマンスに与える影響をより深く理解できるようになります。
この論文では、より少ないパラメータでより大きなモデルに匹敵するパフォーマンスを達成できる、大規模な視覚言語モデルをスケーリングするための専門家混合パラダイムを提案します。
EAGLE は、二次特徴レベルで処理し、将来のトークンを統合することで、LLM での自己回帰デコードを高速化します。
この論文では、マルチモーダルパスウェイを提案します。この技術は、ペアになっていないモダリティデータ(音声など)を使用して、別の特定のモダリティ(画像など)でのビジュアルトランスフォーマーのパフォーマンスを向上させることができ、さまざまな画像認識タスクで大幅なパフォーマンスの向上を実現しています。
Pix2gestalt は、拡散モデルと慎重に合成されたデータセットを活用して、部分的に遮蔽されたオブジェクトの形状と外観を推定する、ゼロショット非モーダル画像セグメンテーションのフレームワークです。
クロスアテンション マスク オートエンコーダーは、マスクされたトークンと可視トークン間のクロスアテンションのみを使用してマスクされたパッチを再構築する新しい事前トレーニング フレームワークであり、効率と品質の両方で従来のマスク オートエンコーダーを上回ります。
この論文では、スパン破損とトークン置換検出を 2 段階のカリキュラムに組み合わせた LLM トレーニング方法である SPACTOR を提案します。この方法は、事前トレーニングの反復回数を 50% 削減し、計算コストを 40% 削減しながら、標準的な方法と同じパフォーマンスを実現します。
MambaByte は、トークンレス言語 Mamba の選択的状態空間モデルであり、生のバイトに対して直接操作し、サブワードのトークン化バイアスを回避します。
双眼鏡 この新しい方法では、簡単な計算で 2 つの事前トレーニング済み LLM を比較することにより、トレーニング データを使用せずに LLM 生成テキストをより正確に検出できます。
この研究では、微調整された報酬モデルの重みを平均化することで強化学習を実行し、人間の好みに合わせた LLM における報酬崩壊の問題に対処します。
この研究は、視覚言語モデル (VLM) の 3D 空間推論機能を改善します。著者らは、インターネット規模の空間推論データセットを開発し、それに基づいて VLM をトレーニングしました。
研究者らは、複数の異なる LLM を統合モデルに組み合わせることができる知識融合法を提案しました。この方法は、単一モデル、従来のアンサンブル法、その他のモデル融合法よりも優れています。
この研究では、ビジュアル トランスフォーマーのグローバル受容野と動的重みを CNN の線形複雑性と組み合わせることで、より高い画像解像度で特に優れたパフォーマンスを発揮する VMamba と呼ばれる新しいアーキテクチャを実現しました。
トレーニング中に LLM を審査員として利用して自己報酬を実行すると、LLM の指示に従う能力と報酬をモデル化する能力が向上し、人間の好みに基づいて通常のトレーニングを超えてモデルを継続的に改善できる可能性があることが示唆されます。
DiffusionGPT は、LLM を使用してさまざまなプロンプトを解析し、思考ツリー構造 (人間のフィードバックも統合) から最も適切な生成モデルを選択する、テキストから画像への生成フレームワークです。
この論文では、数学の問題を解くなどのタスクにおいて大規模言語モデルの推論能力を向上させることができる強化された FineTuning (ReFT) テクノロジを提案します。これは、教師あり微調整と強化学習を組み合わせることで実現され、追加のトレーニング データを使用せずに、標準的な微調整よりも優れた結果を達成できます。
RAG (検索拡張生成) と微調整のどちらが優れているかについては議論が続いていますが、この論文では、RAG と微調整を組み合わせることで累積精度を向上できることを示しています (農業用途の文脈で)。
AlphaCodium は、LLM のコード生成タスクに対する反復的なテストベースのアプローチであり、計算オーバーヘッドが低く、従来のアプローチよりも優れています。
この論文では、LLM 事前トレーニングに触発されて、自己回帰方式 (教師なし) で視覚モデルの事前トレーニングを研究します。結果は、モデルのパフォーマンスがモデルのサイズとデータ量に応じて変化し、ImageNet-1k (飽和なし) で印象的な結果が得られることを示しています。
プロキシ チューニングは、大規模な言語モデルを適応させるためのリソース効率の高いアプローチです。これは、より小さく微調整されたモデルを使用して予測を修正することによって行われます。この方法は、独自のモデルであっても、実験では直接的な微調整方法に近いパフォーマンスを発揮します。
研究者らは、LLM の教師あり微調整 (効率を最大化するために注釈付けに最も有益なサンプルを選択する) における実験設計手法を使用して、注釈付けコストを 50% 削減しました (ランダム サンプリングと比較して)。
この論文は、機械学習コミュニティで広く信じられている「クラスの不均衡を伴うバイナリ分類問題の場合、精度再現曲線の下の領域 (AUPRC) は受信者動作特性の下の領域 (AUROC) よりも優れている」という考え方に異議を唱えています。
著者らは、モデルが一般に簡単なデータから難しいデータまでうまく一般化することを発見しました。彼らは、より単純なデータでトレーニングする方が効率的であることを示しました。彼らは、最大 700 億のパラメータを持つモデルを使用して、複数の質問応答データセットでこれを実験的に検証しました。
この研究では、LLM が欺瞞的な行動を学習する可能性を調査し、標準的なセキュリティ トレーニング手法ではこれらの永続的な欺瞞戦略を排除できないことがわかりました。
この研究は、もともとリカレントニューラルネットワーク (RNN) とは異なると考えられていたデコーダーのみのトランスフォーマーが、無限の隠れ状態サイズを持つ無限マルチステート RNN として見ることができることを示しています。
この研究では、LLM用の新しいパラメーター効率の高い微調整方法Rosaを提案しています。これは、固定された事前に訓練された重量で低ランクと非常にスパースコンポーネントをトレーニングすることでこれを行います。これにより、LORAなどの既存の方法よりも優れた結果が得られます。
このペーパーでは、RLHFを置き換えることができますが、報酬モデルを必要としないシンプルで効果的な強化学習アルゴリズムである自己プレイ優先順位最適化(SPO)を提案します。
このペーパーでは、MAMBAなどの状態空間モデルと専門家(MOE)の混合物を組み合わせることを提案しています。
研究者は、ビーコンをアクティブにすることにより、LLMのコンテキストウィンドウを拡張することを提案しました。アクティベーションビーコンは、入力コンテキストに追加される活性化の圧縮状態です。
著者らは、視覚変圧器(VIT)の一般的なグリッドのようなアーティファクトが、入力段階の位置埋め込みによって引き起こされることを発見しました。彼らは、既存のVITから精製された特徴を抽出する視覚的な変圧器を提案しました。
DeepSeek LLMには、7Bと67Bの2つの構成があり、そのトレーニングでは2兆トークンのデータセットを使用しています。この研究により、チンチラスケーリングレートとLlama-2 70bやGPT-3.5などのアウトパフォームモデルが最適化されました。
このペーパーでは、ブレンディングを提案しています。このアプローチは、複数の小型チャットAIモデルからの応答をランダムに選択します。結果は、中規模モデル(6b/13b)を組み合わせることで、ChatGPTなどの大規模なモデル(175B以上のパラメーター)のパフォーマンスと一致または上回ることができることを示しています。
calm(拡張言語モデルの組み合わせ)は、基本LLMと専門LLMを組み合わせて、相互参加を使用して、新しいタスク(低リソース言語の翻訳やコード生成タスクなど)のパフォーマンスを改善し、追加のパラメーターとデータはほとんどありません。
このペーパーでは、LLM 7bをLlama Pro-8.3bに変換するLLM用のPREポストトレーニング方法を提案しています。この方法は、トランスモジュールを拡張して、プログラミングや数学などの分野でのパフォーマンスを改善しながら、以前の知識を忘れません。
この研究では、直接選好の最適化(DPO)アルゴリズムが、GPT2-MEDなどの前提条件のモデルを、有害性を低減することによりユーザーの好みをどのように整列させるかを調査します。この研究では、モデルを元の毒性行動に復元する方法も提供します。
このホワイトペーパーでは、英語以外のタスクにLLAMAなどのLLMの機能を転送する方法について説明します。これは、事前に訓練されたデータの1%未満で、現在の最高のモデルに匹敵するパフォーマンスを実現します。
このペーパーでは、自己プレイの微調整(スピン、セルフゲームの微調整)を提案しています。この方法は、LLMが独自のトレーニングデータを生成および最適化できるようにする自己ゲームメカニズムを採用しているため、LLMを追加の人間のラベル付きデータなしで改善できます。
このペーパーでは、微調整せずにLLMのコンテキスト処理機能を拡張する非常に簡単な手法(4行のコードのみ)を提案します。
このペーパーでは、LLM情報の更新を維持する方法について説明し、レビューで複数の知識編集手法(外部知識を使用し、知識をモデルに融合し、内部知識の編集)をレビューし、新しいKnoweDitベンチマークを提案します。
このペーパーでは、さまざまなフルファインチューニングとパラメーター効率の高い微調整技術を評価し、一般的にフルファインチューニングが最もパフォーマンスを発揮しますが、ロラは通常、コストとパフォーマンスの間で最高のバランスを取ります。 |
<<: Google の最新のオープンソース Gemma モデルが Llma-2 を数秒で上回りました。
>>: 爆発的なソラの背後にある技術、拡散モデルの最新の開発をレビューする記事
[[255490]]画像出典: Visual China 「私の体は潜水鐘のように重いが、私の心は...
3月15日にも、別の悪徳業者が監視カメラで摘発されたが、消費者の関心を最も集めたニュースは「顔情報の...
ニューラル ネットワークでは、活性化関数によって、指定された入力セットからノードの出力が決定されます...
[[349033]]テクノロジーの継続的な進歩により、私たちの日常生活はますます便利になっています。...
夏が来ると、人類の最大の敵の一つである蚊が活発になります。彼らは2~3匹で「家に侵入」し、「ブンブン...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
機械が人間と同じように反応するようにすることは、AI 研究の永遠の目標でした。機械が知覚し、考える能...
PyTorch は、ディープラーニング分野で最も人気のあるフレームワークの 1 つです。最初のバージ...
スマートビルディングの設備やシステムを評価する際には、体系的なアプローチを取る必要があります。これら...