靴職人が3人いるほうが、諸葛亮1人より優れている？それは本当かもしれません。複数の小さなモデルを混ぜると、GPT3.5と同等のパフォーマンスを発揮できることが証明されています。

会話型人工知能 (AI) の研究では、ChatGPT に代表されるモデルのように、より多くのパラメータを持つモデルを開発する傾向があります。これらの大規模なモデルは、より優れた会話応答を生成できるようになりますが、大量のコンピューティングリソースとメモリも必要になります。この研究で検討された質問は、「小さなモデルのグループを連携させることで、単一の大きなモデルと同等かそれ以上のパフォーマンスを達成できるのか？」です。

この記事では、革新的でシンプルなアプローチであるハイブリッド化について紹介します。

著者らは、少数の会話型 AI からランダムに応答を選択した場合、結果として得られる会話型 AI はパフォーマンスと魅力に優れ、桁違いに大きなパラメータを持つシステムよりも優れていることを示しています。著者らは、ハイブリッドモデルは「最適な」特性を持っているように見えると指摘しています。ハイブリッドモデルでは、特定のプロパティを持つ単一のモデルが、会話履歴に基づいて応答を調整することで、他のシステムの機能を学習できます。より魅力的で多様な応答と使用体験をユーザーに提供できます。

著者らは、CHAI プラットフォーム上で大規模な A/B テストを実施することで、ハイブリッドモデルの有効性を実証しました。実際のユーザーによるテストでは、6～130億のパラメータを持つ3つのLLMで構成されるハイブリッドモデルが、OpenAIの1750億以上のパラメータを持つChatGPTよりも優れたパフォーマンスを発揮しました。さらに、ハイブリッドモデルのユーザー維持率は ChatGPT ベースの会話型 AI よりも大幅に高く、ハイブリッドモデルでは推論コストとメモリオーバーヘッドがわずかしかかからないにもかかわらず、ユーザーはハイブリッド会話型 AI をより魅力的で、楽しく、実用的だと感じていることがわかります。

論文: ブレンディングこそが、必要なすべて: 1兆パラメータ LLM のより安価で優れた代替手段
論文リンク: https://arxiv.org/pdf/2401.02994.pdf
モデルリンク: https://huggingface.co/ChaiML

ハイブリッドモデル

会話型AI

会話型 AI の目標は、人々が対話するための魅力的で楽しい対話を生成できるシステムを設計することです。 uk はユーザーの k 番目の会話ターンを表します。各ユーザーターンは単語のシーケンスであり、uk = (w (k) 1 . . . , w (k) |uk| ) です。同様に、rkはシステムによって生成されたk番目の応答を表します。これも単語のシーケンスで、rk = (w (k) 1、...、w (k) |rk|)となります。暗黙的言語モデルとして、θ としてパラメータ化された特定の会話 AI は、以前の会話履歴に基づいて次の応答を予測する確率をモデル化します。

トレーニング中、システムは、流暢で、魅力的で、質の高い応答に高い確率を割り当てることを暗黙的に学習します。したがって、確率的方法またはビーム検索のような近似検索手順のいずれかを使用して、分布からランダムにサンプリングすることによって出力を取得することが可能です。

InstructGPT に触発された最先端の会話型 AI は、通常、3 段階のパイプラインに従います。まず、事前トレーニング済み言語モデル (PrLM) を微調整します。これは、魅力的なチャットボットの設計に使用する興味深い文献など、関連するテキストドメインでトレーニングされます。次に、明示的な人間からのフィードバックを使用して報酬モデルをトレーニングします。最後に、報酬モデルは、近似ポリシー最適化を採用するか、単純な拒否サンプリング戦略を使用することによって、元の PrLM を改善するために使用されます。

特定の会話型 AI を開発する場合、ベースとなる PrLM、微調整に使用する会話データ、システムの更新に使用する人間からのフィードバックなど、設計上の選択肢は多数あります。さまざまなアプローチとトレーニングデータにより、それぞれが独自の長所と特性を示す非常に多様なシステムが生成されることが予想されるかもしれません。次に、会話型 AI のグループを組み合わせて、全体的な特性がより優れたシステムを形成する方法を検討します。

統合された

ベイズ統計の原理に基づいて、特定の応答に割り当てられる確率は、すべての可能性のある会話型 AI パラメータに対する限界期待値として概念化できます。

実際には、会話型 AI システムの有限セット {θ1、θ2...θN} のみにアクセスできる場合、連続積分は離散和として近似できます。さらに、PΘ(θ) はこれらのシステム全体に均一に分布している、つまり PΘ(θn) = 1/N であると仮定できます。セットに同様のパフォーマンスを持つモデルが含まれている場合、これは有効な仮定であり、次の近似値を得ることができます。

ミックス

著者らが提案した方法は、真のアンサンブル分布（式8）から近似的にサンプリングすることを目的としている。この近似を実現するために、各ラウンドで、対話混合モデルは、現在の応答を生成した会話型 AI θ をランダムに (均一に) を選択します。このプロセスについては、以下のアルゴリズム 1 で詳しく説明します。会話中、特定の会話型 AI によって生成された応答は、以前に選択された会話型 AI によって生成された以前のすべての応答に条件付けられることに注意することが重要です。これは、さまざまな会話型 AI が現在の応答の出力に暗黙的に影響を与える可能性があることを意味します。したがって、現在の対応は、個々の会話型 AI の強みを組み合わせて連携し、全体的に魅力的な会話を生み出すというものです。

実験

Chai Research プラットフォームに展開された各会話型 AI について、著者らは A/B テスト設定 (記事のセクション 4.2 の式 15) に従って各日 k のユーザーエンゲージメントを計算しました。 20 日目 (k = 20) を考慮すると、図 1 はハイブリッドモデル、その構成要素である会話型 AI、および OpenAI の GPT-3.5 のエンゲージメント率を示しています。著者らは、中規模の会話型 AI (Pygmillion、Vicuna、ChaiLLM) のエンゲージメントは GPT3.5 よりも大幅に低いことを観察していますが、これは GPT3.5 のパラメータ数が桁違いに多いため予想されることです。しかし、これら 3 つの基本的な会話型 AI を組み合わせると、ハイブリッドモデルの結果は各コンポーネントシステムよりもエンゲージメントが高くなるだけでなく、パフォーマンスも大幅に向上し、ハイブリッドモデルは OpenAI の GPT3.5 を上回るパフォーマンスを発揮します。他の会話型 AI と比較したハイブリッドモデルの成功は、図 1 に示すように、ユーザー維持率を k = 20 (記事のセクション 4.1 の式 10) と比較することによっても計算できます。

ハイブリッドモデルには合計 25 億のパラメーターがあり、OpenAI には 1750 億のパラメーターがあります。さらに、ハイブリッドモデルの応答は単一の会話型 AI からランダムにサンプリングされるため、推論コストは単一の 6B/13B システムと同等になります。図 2 と 3 では推論速度に大きな違いが見られ、ハイブリッドモデルではエンゲージメントとユーザー維持のパフォーマンスが大幅に向上している一方で、速度は小規模な会話型 AI と同等であることがわかります。これには重要な意味があります。品質を向上させるためにシステムを拡大するのではなく、複数の小規模なオープンソースシステムを単純に組み合わせるだけで、推論コストを増やすことなく、ユーザーの会話エクスペリエンスを大幅に向上させることができます。これは、魅力的で成功する会話型 AI を設計する際に、単純なモデルパラメータのスケーリングよりもモデルのコラボレーションの方が重要であることを示しています。

客観的な比較として、表 1 に単一のメトリックの概要を示します (論文のセクション 3.3)。著者らは、ピグミリオンを対照群として、対照群と比較したテストのエンゲージメント率指標∆αと∆γ、および対照群と比較したテストの保持率指標∆ζと∆βを示しています。ハイブリッドモデルは、相対的な初期エンゲージメント ∆α が最も高く、エンゲージメント比率の減衰率 ∆γ も最も優れています。 Vicuna の保持率減衰率 ∆β はハイブリッドモデルよりも優れていますが、Vicuna の初期保持率 ∆ζ は大幅に低く、上記の図 2 および 3 に示すように、Vicuna がハイブリッドモデルの保持スコア 6 に到達するにはより長い時間が必要であることを示しています。全体的に、ハイブリッドモデルは、複数の小規模な会話型 AI を連携させることで、単一の大規模な会話型 AI (OpenAI の GPT3.5) よりも高品質の会話を提供するのに効果的であることは明らかです。

<<:

>>: 金メダルレベルの数学スキル：DeepMindの幾何学的推論モデルがNatureに掲載され、コードはオープンソースで、フィールズ賞受賞者が賞賛