モデル融合、ハイブリッド専門家、小規模LLM、2024年のLLMの発展方向を理解するためのいくつかの論文

過去2023年間で、大規模言語モデル（LLM）は潜在力と複雑さの両面で急速に成長しました。 2024 年のオープンソースと研究の進歩を見据えると、モデルのサイズを大きくすることなく、あるいはさらに小さくすることなく、モデルを改善するという、歓迎すべき新しい段階に入ろうとしているようです。

2024 年の最初の月が過ぎた今、新年の最初の月の進捗状況を振り返る時期が来ているかもしれません。最近、AI研究者のセバスチャン・ラシュカ氏が、上記の新しい段階に関連する4つの重要な論文を紹介するレポートを発表しました。彼らの研究テーマは簡単にまとめると次のようになります。

1. 重み平均化とモデル融合により、従来のアンサンブル手法によくある欠点（より高いリソース要件など）なしに、複数の LLM を 1 つのより優れたモデルに統合できます。

2. プロキシチューニング技術は、大規模モデルの重みを変更せずに 2 つの小さな LLM を使用して、既存の大規模 LLM のパフォーマンスを向上させることができます。

3. 複数の小さなモジュールを組み合わせてハイブリッドエキスパートモデルを作成することにより、結果として得られる LLM は、より大きなモジュールと同等かそれ以上の有効性と効率性を持つことができます。

4. 11 億パラメータの小規模 LLM を事前トレーニングすることで、開発および運用コストが削減され、教育および研究アプリケーションに新たな可能性が開かれます。

最後に、1月に興味深い研究をいくつかまとめました。以下は、原文の意味を変えずに、Machine Intelligenceが原文を編集・整理したものです。

1.WARM: 重み平均報酬モデルの利点について

論文アドレス: https://arxiv.org/abs/2401.12187

1 月 22 日の論文「WARM: 加重平均報酬モデルの利点について」で、研究者らは LLM 報酬モデルの加重平均法を提案しました。ここでの報酬モデルは、RLHF でアライメントに使用される報酬モデルを指します。

加重平均とは何ですか? LLM の加重平均とモデル融合はおそらく 2024 年に最も興味深い研究トピックとなるため、WARM 論文に進む前にこのトピックについて説明しましょう。

モデルアンサンブルと加重平均の理解

モデル融合と加重平均は新しいアイデアではありませんが、現在最も人気のある方法です。これは、Open LLM リーダーボードで主要なテクノロジーになりました。以下では、これら 2 つの概念について簡単に説明します。

重み平均化とモデル融合はどちらも、複数のモデルまたはチェックポイントモデルを 1 つのエンティティに結合します。これの利点は何ですか?アンサンブルモデルを作成するという概念と同様に、複数のモデルを 1 つのモデルに結合するというこのアイデアにより、トレーニングの収束性が向上し、全体的なパフォーマンスが向上し、堅牢性が向上します。従来の統合方法とは異なり、モデル融合と重み平均化により、下の図に示すように、複数の個別のモデルを維持するのではなく、単一のモデルが生成されることに注意してください。

加重平均とモデル融合（左）と多数決などの従来のアンサンブル法（右）

従来、重み平均化では、トレーニングプロセスのさまざまなポイントで単一モデルの重みパラメータを平均化します。通常、これはモデルが収束に近づくトレーニングの終わり頃に実行されます。この手法の一般的な形式は、確率的加重平均 (SWA) です。このアプローチでは、最初に大きな学習率を減衰させ、学習率の減衰期間中（まだ比較的高い）に複数の反復にわたって重みが平均化されます。

確率的重み平均化 (SWA) は、トレーニングサイクルの終了時にモデルの重みを平均化します。

モデルのトレーニング軌跡は均一ではない可能性があるため、上の図に示すように、学習率が低く、トレーニングが収束に近づいているトレーニングの終わりに向かってモデルの平均を計算するという戦略がとられます。

もう 1 つの方法は指数移動平均 (EMA) です。これは、古い状態の重みを指数的に減らすことによって、重みの平滑化されたバージョンを計算します。

2022 年、Latest Weight Averaging (LaWA) により、最新の k チェックポイントの重みを平均化することで (各重みはエポックの終了時に取得されます)、損失と精度の点でトレーニングプロセスを複数のエポックで加速できることが示されました。研究により、この手法は ResNet ビジョンモデルと RoBERTa 言語モデルで効果的に使用できることが示されています。

その後、2023 年に発表された論文「早期の重み平均化と LLM 事前トレーニングでの高い学習率の一致」では、より高い学習率を使用し、トレーニング中に早い段階でチェックポイントの平均化を開始する LaWA の修正版が検討されました。研究者らは、このアプローチにより標準的な SWA および EMA 方法のパフォーマンスが大幅に向上することを発見しました。

論文「Early Weight Averaging meets High Learning Rates for LLM Pre-training」の LaWA の修正版。論文アドレス: https://arxiv.org/abs/2306.03241

重み平均化では、同じモデルの複数のチェックポイントを 1 つのモデルに結合しますが、モデル融合では、複数の異なるトレーニング済みモデルを 1 つのモデルに結合します。これらの各モデルは独立してトレーニングされ、異なるデータセットまたはタスクに基づく場合があります。

モデル融合には長い歴史がありますが、最近の影響力のある LLM 関連の論文は「モデルラタトゥイユ: 分布外一般化のための多様なモデルのリサイクル」です。（論文アドレス：https://arxiv.org/abs/2212.10445）

モデルラタトゥイユの背後にある考え方は、下の図に示すように、さまざまな補助タスクで微調整された同じ基本モデルを複数回繰り返して再利用することです。

モデル融合はモデルラタトゥイユを通じて達成され、他の微調整戦略が比較されました (OOD = 分布外/一般化)

詳細には、モデルラタトゥイユ法は次のように要約できます。

モデル融合のためのモデルラタトゥイユ法

この全体的な考え方は、論文「LoraHub: 動的 LoRA 構成による効率的なクロスタスク一般化」に示されているように、LoRA アダプターにも使用できることに注意してください。（論文アドレス：https://arxiv.org/abs/2307.13269）

加重平均報酬モデルを使用する

重み平均化とモデル融合について説明した後、最近発表された論文「WARM: 重み平均化報酬モデルの利点について」に戻りましょう。

この研究の主な目的は、LLM の RLHF アライメント手順を改善することです。具体的には、研究者らは、微調整された報酬モデルの重みを平均化することで、LLM における報酬ハッキング問題を軽減したいと考えています。

報酬ハッキングとは、LLM が実際に意図したタスクを完了したり、根本的な目標を達成したりする代わりに、報酬システムの抜け穴を操作または悪用して高いスコアや報酬を獲得することを学ぶことです。

加重平均により報酬モデリングは報酬ハッキングに対してより堅牢になる

報酬ハッキング問題を解決するために、WARM 論文では、加重平均を通じて LLM 報酬モデルを組み合わせることを提案しています。単一の報酬モデルと比較して、このプロセスを通じて得られた融合報酬モデルは 79.4% の勝率を達成しました。

WARMはどのように機能しますか?この方法は実際には非常に単純です。ランダム重み平均化と同様に、WARM は、下の図に示すように、複数のモデル (ここでは報酬モデル) の重みを平均化します。

RLHF プロセスで WARM がどのように使用されるかの概要。ここでの唯一の新しい点は、このアプローチでは単一の報酬モデルをトレーニングするのではなく、加重平均からの報酬モデルを使用することです。

これまで、いくつかの加重平均方法について説明しました。では、WARM はどのようにして重みを平均化して報酬モデルを取得するのでしょうか?ここでは、ランダム重み平均化と同様に、単純な線形平均化を使用します。ただし、違いもあります。モデルは同じ軌跡からサンプリングされているのではなく、事前トレーニング済みモデルに基づいて個別に作成されており、これはモデルラタトゥイユに似ています。さらに、WARM は、微調整された軌道に沿ってサンプリングを可能にする、いわゆるバクラバプロセスを使用します。次の図はこれらの違いを比較したものです。

さまざまなモデルアンサンブルと平均化方法の比較

上記の WARM プロセスに従い、10 個の報酬モデルを平均化した後、研究者は強化学習戦略を発見しました。この戦略を使用すると、下の図に示すように、WARM は単一の報酬モデルと比較して勝率が 79.4% になります。

ステップ3000では、WARMは最良の単一報酬モデルアプローチよりも優れている

要約する

モデル融合は新しい技術ではありませんが、LLM 分野では比較的新しい技術です。LLM には高いコストとリソース要件があるため、特に大きな可能性を秘めています。したがって、トレーニング中に作成された複数の既存の LLM を（追加の処理なしで）活用する方法が特に魅力的です。さらに、従来の統合方法（複数のモデルを同時に実行する必要がある）と比較して、加重平均によって得られたモデルは比較的軽量であり、推論時間のコストは単一モデルのコストを超えません。

将来を見据えると、LLM モデル融合技術には大きな可能性が秘められていると思います。また、将来的には、より革新的なモデル融合の方法が登場すると期待しています。

2. プロキシによる言語モデルのチューニング

論文アドレス: https://arxiv.org/abs/2401.08565

論文「プロキシによる言語モデルのチューニング」では、LLM を改善するために使用できる手法、プロキシチューニングが提案されています。ここでは「エージェントのチューニング」と訳します。このアプローチにより、重みをある程度変更せずに LLM を微調整できます。

エージェントのチューニングは、ターゲット LLM のロジットを調整することによって実現されます。これは、デコード段階では非常に単純なプロセスです。具体的には、小さなベースモデルと微調整されたモデル間のロジットの差を計算する必要があります。この差はターゲットモデルのロジットに追加されます。ロジットは、モデルの最終層によって生成される生の出力値を指します。これらのロジットは、LLM の各可能な出力トークンの正規化されていないスコアを表し、その後、ソフトマックスなどの関数を通じて確率に変換されます。

プロキシチューニング図

この概念をより明確に説明するために、大規模なターゲットモデル M1 (Llama 2 70B など) の目的関数の結果を改善したいと仮定します。このプロセスには、Llama 2 7B などの小さなベースモデル (M2) と、Llama 2 7B Chat などの微調整されたベースモデル (M3) という 2 つの小さなモデルが関係します。

では、望む機能強化をどのように実現すればよいのでしょうか?実際、これらの小さなモデルの予測結果の差 (ロジット) がターゲットモデル M1 に使用されます。改善されたターゲットモデルM1*の出力ロジットは次のように計算されます：M1*(x) = M1 (x) + [M3 (x) - M2 (x)]。これらの出力ロジットを取得した後、それらはソフトマックス関数を使用して確率に変換されます。これらの確率は、生成されたテキストである最終出力をサンプリングするために使用されます。このプロセスでは、カーネルサンプリングやトップ k デコードなどの手法を使用できます。

プロキシチューニングは実際にどの程度効果的でしょうか?

彼らの実験は驚くほど良い結果をもたらした。研究者たちは、このアプローチを 3 つの異なるシナリオで実験しました。

1. コマンドの調整: Llama 2 70B ベースモデルを Llama 2 70B チャットモデルと同等になるように改良します。

2. ドメイン適応: CodeLlama 70B のコーディングレベルに到達することを目標に、Llama 2 70B ベースモデルのコーディング機能を改善します。

3. タスク固有の微調整: Llama 2 70B ベースモデルの能力を向上させ、TriviaQA や数学の問題などの特定のタスクを実行します。

各シナリオにおいて、新しい方法は元の基本モデルと比較して大幅な改善をもたらすことがわかります。たとえば、以下の表は、Llama 70B Base モデルと Chat モデルの比較に焦点を当てています。ただし、この論文では CodeLlama の追加ベンチマークも提供しています。

プロキシチューニングペーパーの結果チャート

ご覧のとおり、上記のベンチマーク結果に基づくと、プロキシ調整された 70B Llama 2 モデルは 70B ベースモデルよりも優れており、直接微調整された Llama 70B Chat モデルとほぼ同等の性能を発揮します。

実用的な考慮事項

このアプローチは、R&D の効率を向上させるために使用できます。新しいトレーニングまたはモデル改善方法を開発し、より小さなモデルでテストしてコストを削減します。これらの方法は、大規模なモデルをトレーニングする必要なく、より大きなベースモデルを改善するために拡張されます。

ただし、実際にこれらの方法を使用する場合は、次の 3 つの異なるモデルを使用する必要があります。

1. 大規模な共通ベースモデル

2. より小型の一般モデル

3. 特定のユースケースや顧客のニーズに合わせてカスタマイズされた、小型の特殊モデル

では、LoRA (Low Rank Adaptation) と呼ばれるより優れたアプローチがすでにあるのに、なぜこのアプローチを選択すべきなのでしょうか。LoRA は、より小さな一般モデルを必要とせず、複数の小さな特殊モデルを小さな LoRA マトリックスのセットで置き換えることができます。

プロキシチューニングアプローチには、次の 2 つの潜在的な利点があります。

シナリオによっては、プロキシチューニングが LoRA よりも優れている可能性がありますが、まだ直接比較した人はいません。
このアプローチは、大規模なベースモデルが「ブラックボックス」である場合、つまり内部の重みが利用できない場合にも使用できます。

しかし、問題はまだ残っています。それは、小さいモデルは、大きなターゲットモデルと同じ語彙を持つ必要があるということです。 (理論的には、GPT-4 の語彙を知っていて、そのロジット出力にアクセスできる場合、このアプローチを使用して特殊な GPT-4 モデルを作成できます。)

3.専門家のミックス

論文アドレス: https://arxiv.org/abs/2401.04088

Mixtral 8x7B ペーパーがついに登場しました! (Machine Heart もこの論文が発表されるとすぐに報道しました。「Mixtral 8x7B 論文がついに登場: アーキテクチャの詳細とパラメータ数が初めて明らかに」を参照してください) Mixtral 8x7B は、スパースエキスパート混合 (スパース MoE) モデルであり、現在最もパフォーマンスの高い大規模言語モデル (LLM) の 1 つであり、公開されている LLM の中でも最も人気のあるモデルです。元の論文によれば、このモデルのコードベースは Apache 2 ライセンスの下でリリースされており、学術目的および商用目的で無料で使用できるとのことです。

MoEとは何ですか？ MoE は Mixture of Experts の略で、複数の小規模な「専門家」サブネットワークを組み合わせた統合モデルです。各サブネットワークは、異なるタイプのタスクの処理を担当します。 1 つの大きなネットワークの代わりに複数の小さなサブネットワークを使用することで、MoE はコンピューティングリソースをより効率的に割り当てることができます。これにより、より効率的に拡張でき、より幅広いタスクでより優れたパフォーマンスを実現できるようになります。

以下で説明する論文「Mixtral of Experts」では、研究者らが Mixtral 8x7B の構築方法について議論しました。このモデルは、はるかに大型の Llama 2 70B モデルよりも優れた性能を発揮します。

Mixtral 8x7Bは、多くのベンチマークではるかに大きなLlama 2 70Bモデルに匹敵するか、それを上回ることができます。

ミクストラルアーキテクチャ

Mixtral 8x7B の重要なアイデアは、下の図に示すように、Transformer アーキテクチャ内の各フィードフォワードモジュールを 8 つのエキスパートレイヤーに置き換えることです。

トランスフォーマーアーキテクチャ、論文「Attention Is All You Need」より

フィードフォワードモジュールは本質的には多層パーセプトロンです。 PyTorch 疑似コードのようなものを使用すると、次のようになります。

さらに、各トークン埋め込みを 8 つのエキスパートフィードフォワードモジュールにリダイレクトする役割を持つルーティングモジュールがあります。次に、以下の図に示すように、これら 8 つのエキスパートフィードフォワードレイヤーの出力が合計されます。

論文「Mixtral of Experts」における MoE モジュールの説明

数学的に表現すると、8 人の専門家 ({E_1、E_2、...、E_8}) がいる場合、次のように記述できます。

ここで、G はルーティング (つまり、ゲーティングネットワーク) を表し、E_i はエキスパートモジュールの出力を表します。上記の式に従って、MoE レイヤーはエキスパート出力 E_i の加重合計を計算します。ここで、重みは各入力 x に対してゲーティングネットワーク G (x)_i によって提供されます。

一見すると、Mixtral は、これらのエキスパート (フィードフォワード) モジュールを介して LLM に追加のパラメータを追加し、重み付けされたアンサンブルアプローチを表現しているだけのように見えます。しかし、もう 1 つひねりがあります。Mixtral はスパース MoE であり、つまり、各入力に対してこれらのエキスパートのサブセットのみが使用されます。

Mixtral 8x7B の特殊なケースでは、著者は TopK=2 を設定しました。これは、一度に使用されるエキスパートが 2 人だけであることを意味します。したがって、上記の式に基づくと、G(x) の出力は次のようになります: [0, 0, 0.63, 0, 0, 0.37, 0, 0]。これは、3 番目の専門家が出力の 63% に貢献し、6 番目の専門家が 37% 貢献したことを意味します。

モデルサイズ

Mixtral 8x7B の名前の由来は何ですか?スパース MoE モデルの実際のサイズはどれくらいですか? 8x は、8 つのエキスパートサブネットワークが使用されることを意味します。 7B は、Mistral 7B モジュールと組み合わせられていることを意味します。ただし、Mixtral のサイズは 8x7B = 56B ではないことに注意することが重要です。 7B パラメータは Mistral 7B モデルの全体的なパラメータサイズを表しますが、Mixtral 8x7B では、エキスパートレイヤーは単にフィードフォワードレイヤーを置き換えます。

合計で、Mixtral 8x7B には 47B のパラメーターがあります。これは、Mistral 7B モデルに 9B の非フィードフォワードパラメータがあることを意味します。興味深いことに、LLM のパラメータのほとんどは、アテンションメカニズムではなく、フィードフォワードモジュールに含まれています。

Mixtral 8x7B には合計 47B のパラメーターがあり、これは Llama 2 70B などのモデルよりも大幅に少なくなっています。さらに、各タイムステップでアクティブなエキスパートは 2 人だけなので、モデルは入力トークンごとに 130 億個のパラメータのみを使用します。その結果、従来の非 MoE 47B パラメータモデルよりもはるかに効率的になります。

論文「専門家のミックストラル」より

専門家に専門性を身につけさせる

興味深い疑問が生じます。これらの専門家は、タスクまたはトークン固有のパターンを示しているのでしょうか?残念ながら、著者らは、GitHub、Arxiv、数学、Wikipedia などのデータセットなど、主題固有の専門知識を観察できませんでした。

しかし、著者らは興味深い現象を観察しました。テキストデータセット内の連続するトークンは、多くの場合、同じ専門家に割り当てられるということです。さらに、下の図に示すように、Python コード内のインデントトークンは同じエキスパートに割り当てられることがよくあります。

論文「専門家のミックストラル」より

(著者は各トークンについて 2 人の専門家のどちらが色分けされているかを指定していませんが、重みが高い方が常に色分けされていると推測します。)

要約する

Mixtral 8x7B には、公開されていること、Llama 2 70B などの大型モデルと同等かそれ以上であること、そして比較的斬新な方法でスパース MoE モジュールを使用して LLM を構築することなど、いくつかの利点があります。

これは強力で、パラメータ効率が良く、最大 32k の長さのコンテキストウィンドウを処理できるため、近い将来 (少なくとも今後数か月間) は魅力的なモデルになる可能性があります。 MoE モデルも 2024 年にほとんどのオープンソースプロジェクトの主要な焦点領域になると思われるので、Mixtral of Experts は注目に値します。

しかし、この論文には小さな問題があります。著者はトレーニングデータセットに関する情報を共有していないのです。しかし、潜在的な著作権紛争を回避できるため、これは理解できます。

さらに、著者らが同じデータセットに基づいて Mixtral 8x7B と Llama 2 70B を比較できればさらに良いのですが、そのような研究は非常に費用がかかります。さらに、Mixtral 8x7B を次の 2 つの仮想モデルと比較すると、MoE アプローチと非 MoE アプローチのパフォーマンスを直接比較できるため、どのように異なるのかを確認したいと考えました。

・ミストラル56B（大型の非MoEモデル）

・ミストラル47B（Mixtral 8x7Bと同じパラメータ数の非MoEモデル）

もう一つの興味深い事実: Brave ブラウザの Leo Assistant 機能は現在、デフォルトの LLM として Mixtral 8x7B を使用しています。）

4. TinyLlama: オープンソースの小さな言語モデル

論文アドレス: https://arxiv.org/abs/2401.02385

昨年 12 月に Microsoft の phi-2 が大きな注目を集めた後、TinyLlama は小規模 LLM カテゴリの新参者となりました。 TinyLlama は、パラメータが 11 億個しかない小型なだけでなく、完全にオープンソースです。ここで、「オープンソース」とは、制限のないオープンソースソフトウェアライブラリを通じてトレーニングコードとチェックポイントモデルを提供することを意味します。 GitHub リポジトリをご覧ください: https://github.com/jzhang38/TinyLlama

小規模な LLM (多くの場合、小規模言語モデルを意味する SLM と表記されます) が魅力的なのはなぜでしょうか?小規模なLLMの場合:

可用性と低コストにより、リソースが限られたコンピューティングデバイス (ラップトップや小型 GPU など) でも実行できます。
開発と事前トレーニングのコストが安い - これらのモデルには比較的少数の GPU しか必要ありません。
対象タスクに合わせてカスタマイズが簡単 - 小さなモデルであれば、多くの場合、単一の GPU で微調整できます。
エネルギー効率の向上 - 大規模な AI モデルのトレーニングと実行による環境への影響を考慮すると、これも重要な考慮事項です。もう 1 つの考慮事項は、スマートフォンなどのポータブルデバイスに LLM を展開する場合のバッテリー寿命です。
教育アプリケーションに価値あり - 小規模な LLM は管理しやすく、したがって理解や調整が容易です。

タイニーラマのパフォーマンス

TinyLlama の利点は、サイズが小さくオープンソースであるだけでなく、常識的な推論や問題解決のベンチマークでのパフォーマンスが非常に優れており、同じサイズの他のオープンソースモデルよりも優れています。

タイニーラマのパフォーマンス

もちろん、TinyLlama はこれらのベンチマークでより大きなモデルと競合することはできませんが、そのコードはすべてオープンソースであるため、誰でもさらに研究して微調整することができます。

TinyLlamaからのアイデア

たとえば、著者のトレーニングプロセスからは、興味深く教育的な洞察が得られます。1 兆個のトークンでモデルを 3 エポック (1 エポックではなく) トレーニングすることは、Chinchilla のスケーリング比率に違反しますが、実際には有用です。これらのスケーリング比は、このようなモデルサイズの場合、はるかに小さいデータセットを使用する必要があることを示唆しています。

論文「計算最適化大規模言語モデルのトレーニング」より

たとえば、次のグラフに示すように、複数のエポックにわたってトレーニングした後でも、使用するデータが繰り返されてもモデルは改善され続けます。

TinyLlama 論文のグラフ。他の 6 つのベンチマークでも同様の傾向が見られる

非常に大きなモデルを使用する場合、「大きすぎる」データセットでの動作を調査したり、複数のエポックにわたってトレーニングしたりすることは困難になる可能性があります。 TinyLlama の今後の微調整実験では興味深い結果が得られる可能性があり、期待する価値があります。 (初期の実験では、このモデルは現在、より小型の phi-2 モデルより遅れていることが示されていますが、実際には phi-2 モデルは TinyLlama より 3 倍も大きいです。

1月のその他の興味深い研究論文

以下は、1 月に私が見つけた他の興味深い論文です。スペースの都合上、特に興味深いと思われる論文には下記に★印を付けました。

論文タイトル: KVQuant: KV キャッシュ量子化による 1000 万コンテキスト長の LLM 推論に向けて
論文アドレス: https://arxiv.org/abs/2401.18079

研究者らは、キー値キャッシュのアクティベーションを量子化する方法を提案しました。これにより、パープレキシティメトリックの劣化問題を最小限に抑え、最大 100 万のコンテキスト長をサポートしながら、Llama-7B などのモデルを単一の A100 (80 GB) GPU で実行できるようになります。

論文タイトル: Web の言い換え: 計算とデータ効率に優れた言語モデリングのレシピ
論文アドレス: https://arxiv.org/abs/2401.16380

著者らは、解釈された Web ドキュメントを使用して大規模な言語モデルをより効率的にトレーニングすることを提案しています。これにより、事前トレーニングが高速化され、さまざまなタスクでパフォーマンスが向上し、トレーニングデータの構成構造が分布外パフォーマンスに与える影響をより深く理解できるようになります。

論文タイトル: MoE-LLaVA: 大規模視覚言語モデルのための専門家の混合
論文アドレス: https://arxiv.org/abs/2401.15947

この論文では、より少ないパラメータでより大きなモデルに匹敵するパフォーマンスを達成できる、大規模な視覚言語モデルをスケーリングするための専門家混合パラダイムを提案します。

論文タイトル: EAGLE: 投機的サンプリングには特徴の不確実性の再考が必要
論文アドレス: https://arxiv.org/abs/2401.15077

EAGLE は、二次特徴レベルで処理し、将来のトークンを統合することで、LLM での自己回帰デコードを高速化します。

論文タイトル: マルチモーダルパスウェイ: 他のモダリティからの無関係なデータを使用してトランスフォーマーを改善する
論文アドレス: https://arxiv.org/abs/2401.14405

この論文では、マルチモーダルパスウェイを提案します。この技術は、ペアになっていないモダリティデータ（音声など）を使用して、別の特定のモダリティ（画像など）でのビジュアルトランスフォーマーのパフォーマンスを向上させることができ、さまざまな画像認識タスクで大幅なパフォーマンスの向上を実現しています。

論文タイトル: Pix2gestalt: 全体を統合した非モダルセグメンテーション
論文アドレス: https://arxiv.org/abs/2401.14398

Pix2gestalt は、拡散モデルと慎重に合成されたデータセットを活用して、部分的に遮蔽されたオブジェクトの形状と外観を推定する、ゼロショット非モーダル画像セグメンテーションのフレームワークです。

論文タイトル: マスクオートエンコーダのパッチ依存性の再考
論文アドレス: https://arxiv.org/abs/2401.14391

クロスアテンションマスクオートエンコーダーは、マスクされたトークンと可視トークン間のクロスアテンションのみを使用してマスクされたパッチを再構築する新しい事前トレーニングフレームワークであり、効率と品質の両方で従来のマスクオートエンコーダーを上回ります。

論文タイトル: SpacTor-T5: スパンの破損と置換トークンの検出を備えた T5 モデルの事前トレーニング
論文アドレス: https://arxiv.org/abs/2401.13160

この論文では、スパン破損とトークン置換検出を 2 段階のカリキュラムに組み合わせた LLM トレーニング方法である SPACTOR を提案します。この方法は、事前トレーニングの反復回数を 50% 削減し、計算コストを 40% 削減しながら、標準的な方法と同じパフォーマンスを実現します。

論文タイトル: MambaByte: トークンフリー選択状態空間モデル
論文アドレス: https://arxiv.org/abs/2401.13660

MambaByte は、トークンレス言語 Mamba の選択的状態空間モデルであり、生のバイトに対して直接操作し、サブワードのトークン化バイアスを回避します。

論文タイトル: 双眼鏡で LLM を見つける: 機械生成テキストのゼロショット検出
論文アドレス: https://arxiv.org/abs/2401.12070

双眼鏡この新しい方法では、簡単な計算で 2 つの事前トレーニング済み LLM を比較することにより、トレーニングデータを使用せずに LLM 生成テキストをより正確に検出できます。

論文タイトル: WARM: 重み平均報酬モデルの利点について
論文アドレス: https://arxiv.org/abs/2401.12187

この研究では、微調整された報酬モデルの重みを平均化することで強化学習を実行し、人間の好みに合わせた LLM における報酬崩壊の問題に対処します。

論文タイトル: SpatialVLM: 視覚言語モデルに空間推論機能を追加する
論文アドレス: https://arxiv.org/abs/2401.12168

この研究は、視覚言語モデル (VLM) の 3D 空間推論機能を改善します。著者らは、インターネット規模の空間推論データセットを開発し、それに基づいて VLM をトレーニングしました。

論文タイトル: 大規模言語モデルの知識融合
論文アドレス: https://arxiv.org/abs/2401.10491

研究者らは、複数の異なる LLM を統合モデルに組み合わせることができる知識融合法を提案しました。この方法は、単一モデル、従来のアンサンブル法、その他のモデル融合法よりも優れています。

論文タイトル: VMamba: 視覚状態空間モデル
論文アドレス: https://arxiv.org/abs/2401.10166

この研究では、ビジュアルトランスフォーマーのグローバル受容野と動的重みを CNN の線形複雑性と組み合わせることで、より高い画像解像度で特に優れたパフォーマンスを発揮する VMamba と呼ばれる新しいアーキテクチャを実現しました。

論文タイトル: 自己報酬型言語モデル
論文アドレス: https://arxiv.org/abs/2401.10020

トレーニング中に LLM を審査員として利用して自己報酬を実行すると、LLM の指示に従う能力と報酬をモデル化する能力が向上し、人間の好みに基づいて通常のトレーニングを超えてモデルを継続的に改善できる可能性があることが示唆されます。

論文タイトル: DiffusionGPT: LLM 駆動型テキスト画像生成システム
論文アドレス: https://arxiv.org/abs/2401.10061

DiffusionGPT は、LLM を使用してさまざまなプロンプトを解析し、思考ツリー構造 (人間のフィードバックも統合) から最も適切な生成モデルを選択する、テキストから画像への生成フレームワークです。

論文タイトル: ReFT: 強化された微調整による推論
論文アドレス: https://arxiv.org/abs/2401.08967

この論文では、数学の問題を解くなどのタスクにおいて大規模言語モデルの推論能力を向上させることができる強化された FineTuning (ReFT) テクノロジを提案します。これは、教師あり微調整と強化学習を組み合わせることで実現され、追加のトレーニングデータを使用せずに、標準的な微調整よりも優れた結果を達成できます。

論文タイトル: RAG vs 微調整: パイプライン、トレードオフ、農業に関するケーススタディ
論文アドレス: https://arxiv.org/abs/2401.08406

RAG (検索拡張生成) と微調整のどちらが優れているかについては議論が続いていますが、この論文では、RAG と微調整を組み合わせることで累積精度を向上できることを示しています (農業用途の文脈で)。

論文タイトル: AlphaCodium によるコード生成: プロンプトエンジニアリングからフローエンジニアリングへ
論文アドレス: https://arxiv.org/abs/2401.08500

AlphaCodium は、LLM のコード生成タスクに対する反復的なテストベースのアプローチであり、計算オーバーヘッドが低く、従来のアプローチよりも優れています。

論文タイトル: 大規模自己回帰画像モデルのスケーラブルな事前トレーニング
論文アドレス: https://arxiv.org/abs/2401.08541

この論文では、LLM 事前トレーニングに触発されて、自己回帰方式 (教師なし) で視覚モデルの事前トレーニングを研究します。結果は、モデルのパフォーマンスがモデルのサイズとデータ量に応じて変化し、ImageNet-1k (飽和なし) で印象的な結果が得られることを示しています。

論文タイトル: 代理による言語モデルのチューニング
論文アドレス: https://arxiv.org/abs/2401.08565

プロキシチューニングは、大規模な言語モデルを適応させるためのリソース効率の高いアプローチです。これは、より小さく微調整されたモデルを使用して予測を修正することによって行われます。この方法は、独自のモデルであっても、実験では直接的な微調整方法に近いパフォーマンスを発揮します。

論文タイトル: 大規模言語モデルのラベル効率の良い教師ありファインチューニングのための実験設計フレームワーク
論文アドレス: https://arxiv.org/abs/2401.06692

研究者らは、LLM の教師あり微調整 (効率を最大化するために注釈付けに最も有益なサンプルを選択する) における実験設計手法を使用して、注釈付けコストを 50% 削減しました (ランダムサンプリングと比較して)。

論文タイトル: クラス不均衡下の AUROC と AUPRC の詳細
論文アドレス: https://arxiv.org/abs/2401.06091

この論文は、機械学習コミュニティで広く信じられている「クラスの不均衡を伴うバイナリ分類問題の場合、精度再現曲線の下の領域 (AUPRC) は受信者動作特性の下の領域 (AUROC) よりも優れている」という考え方に異議を唱えています。

難しいタスクに対する簡単なトレーニングデータの不合理な有効性
論文アドレス: https://arxiv.org/abs/2401.06751

著者らは、モデルが一般に簡単なデータから難しいデータまでうまく一般化することを発見しました。彼らは、より単純なデータでトレーニングする方が効率的であることを示しました。彼らは、最大 700 億のパラメータを持つモデルを使用して、複数の質問応答データセットでこれを実験的に検証しました。

スリーパーエージェント：安全トレーニングを通じて存続する欺瞞的な LLM のトレーニング
論文アドレス: https://arxiv.org/abs/2401.05566

この研究では、LLM が欺瞞的な行動を学習する可能性を調査し、標準的なセキュリティトレーニング手法ではこれらの永続的な欺瞞戦略を排除できないことがわかりました。

論文タイトル: Transformers はマルチステート RNN である
論文アドレス: https://arxiv.org/abs/2401.06104

この研究は、もともとリカレントニューラルネットワーク (RNN) とは異なると考えられていたデコーダーのみのトランスフォーマーが、無限の隠れ状態サイズを持つ無限マルチステート RNN として見ることができることを示しています。

論文タイトル: RoSA: ロバスト適応による正確なパラメータ効率の良い微調整
紙の住所：https：//arxiv.org/abs/2401.04679

この研究では、LLM用の新しいパラメーター効率の高い微調整方法Rosaを提案しています。これは、固定された事前に訓練された重量で低ランクと非常にスパースコンポーネントをトレーニングすることでこれを行います。これにより、LORAなどの既存の方法よりも優れた結果が得られます。

ペーパータイトル：人間のフィードバックから学習を強化するためのミニハイマリストアプローチ
紙の住所：https：//arxiv.org/abs/2401.04056

このペーパーでは、RLHFを置き換えることができますが、報酬モデルを必要としないシンプルで効果的な強化学習アルゴリズムである自己プレイ優先順位最適化（SPO）を提案します。

ペーパータイトル：Moe-Mamba：専門家の混合物を備えた効率的な選択状態空間モデル
紙の住所：https：//arxiv.org/abs/2401.04081

このペーパーでは、MAMBAなどの状態空間モデルと専門家（MOE）の混合物を組み合わせることを提案しています。

ペーパータイトル：4Kから400Kの急上昇：アクティベーションビーコンとのLLMのコンテキストを拡張する
紙の住所：https：//arxiv.org/abs/2401.03462

研究者は、ビーコンをアクティブにすることにより、LLMのコンテキストウィンドウを拡張することを提案しました。アクティベーションビーコンは、入力コンテキストに追加される活性化の圧縮状態です。

ペーパータイトル：ビジョン変圧器の除去
紙の住所：https：//arxiv.org/abs/2401.02957

著者らは、視覚変圧器（VIT）の一般的なグリッドのようなアーティファクトが、入力段階の位置埋め込みによって引き起こされることを発見しました。彼らは、既存のVITから精製された特徴を抽出する視覚的な変圧器を提案しました。

ペーパータイトル：Deepseek LLM：長期主義を備えたオープンソース言語モデルのスケーリング
紙の住所：https：//arxiv.org/abs/2401.02954

DeepSeek LLMには、7Bと67Bの2つの構成があり、そのトレーニングでは2兆トークンのデータセットを使用しています。この研究により、チンチラスケーリングレートとLlama-2 70bやGPT-3.5などのアウトパフォームモデルが最適化されました。

ペーパータイトル：ブレンディングはあなたが必要とするすべて：より安価でより良い代替品LLM
紙の住所：https：//arxiv.org/abs/2401.02994

このペーパーでは、ブレンディングを提案しています。このアプローチは、複数の小型チャットAIモデルからの応答をランダムに選択します。結果は、中規模モデル（6b/13b）を組み合わせることで、ChatGPTなどの大規模なモデル（175B以上のパラメーター）のパフォーマンスと一致または上回ることができることを示しています。