靴職人が3人いるほうが、諸葛亮1人より優れている?それは本当かもしれません。複数の小さなモデルを混ぜると、GPT3.5と同等のパフォーマンスを発揮できることが証明されています。

靴職人が3人いるほうが、諸葛亮1人より優れている?それは本当かもしれません。複数の小さなモデルを混ぜると、GPT3.5と同等のパフォーマンスを発揮できることが証明されています。

会話型人工知能 (AI) の研究では、ChatGPT に代表されるモデルのように、より多くのパラメータを持つモデルを開発する傾向があります。これらの大規模なモデルは、より優れた会話応答を生成できるようになりますが、大量のコンピューティング リソースとメモリも必要になります。この研究で検討された質問は、「小さなモデルのグループを連携させることで、単一の大きなモデルと同等かそれ以上のパフォーマンスを達成できるのか?」です。

この記事では、革新的でシンプルなアプローチであるハイブリッド化について紹介します。

著者らは、少数の会話型 AI からランダムに応答を選択した場合、結果として得られる会話型 AI はパフォーマンスと魅力に優れ、桁違いに大きなパラメータを持つシステムよりも優れていることを示しています。著者らは、ハイブリッド モデルは「最適な」特性を持っているように見えると指摘しています。ハイブリッド モデルでは、特定のプロパティを持つ単一のモデルが、会話履歴に基づいて応答を調整することで、他のシステムの機能を学習できます。より魅力的で多様な応答と使用体験をユーザーに提供できます。

著者らは、CHAI プラットフォーム上で大規模な A/B テストを実施することで、ハイブリッド モデルの有効性を実証しました。実際のユーザーによるテストでは、6~130億のパラメータを持つ3つのLLMで構成されるハイブリッドモデルが、OpenAIの1750億以上のパラメータを持つChatGPTよりも優れたパフォーマンスを発揮しました。さらに、ハイブリッド モデルのユーザー維持率は ChatGPT ベースの会話型 AI よりも大幅に高く、ハイブリッド モデルでは推論コストとメモリ オーバーヘッドがわずかしかかからないにもかかわらず、ユーザーはハイブリッド会話型 AI をより魅力的で、楽しく、実用的だと感じていることがわかります。

  • 論文: ブレンディングこそが​​、必要なすべて: 1兆パラメータ LLM のより安価で優れた代替手段
  • 論文リンク: https://arxiv.org/pdf/2401.02994.pdf
  • モデルリンク: https://huggingface.co/ChaiML

ハイブリッドモデル

会話型AI

会話型 AI の目標は、人々が対話するための魅力的で楽しい対話を生成できるシステムを設計することです。 uk はユーザーの k 番目の会話ターンを表します。各ユーザーターンは単語のシーケンスであり、uk = (w (k) 1 . . . , w (k) |uk| ) です。同様に、rkはシステムによって生成されたk番目の応答を表します。これも単語のシーケンスで、rk = (w (k) 1、...、w (k) |rk|)となります。暗黙的言語モデルとして、θ としてパラメータ化された特定の会話 AI は、以前の会話履歴に基づいて次の応答を予測する確率をモデル化します。

トレーニング中、システムは、流暢で、魅力的で、質の高い応答に高い確率を割り当てることを暗黙的に学習します。したがって、確率的方法またはビーム検索のような近似検索手順のいずれかを使用して、分布からランダムにサンプリングすることによって出力を取得することが可能です。

InstructGPT に触発された最先端の会話型 AI は、通常、3 段階のパイプラインに従います。まず、事前トレーニング済み言語モデル (PrLM) を微調整します。これは、魅力的なチャットボットの設計に使用する興味深い文献など、関連するテキスト ドメインでトレーニングされます。次に、明示的な人間からのフィードバックを使用して報酬モデルをトレーニングします。最後に、報酬モデルは、近似ポリシー最適化を採用するか、単純な拒否サンプリング戦略を使用することによって、元の PrLM を改善するために使用されます。

特定の会話型 AI を開発する場合、ベースとなる PrLM、微調整に使用する会話データ、システムの更新に使用する人間からのフィードバックなど、設計上の選択肢は多数あります。さまざまなアプローチとトレーニング データにより、それぞれが独自の長所と特性を示す非常に多様なシステムが生成されることが予想されるかもしれません。次に、会話型 AI のグループを組み合わせて、全体的な特性がより優れたシステムを形成する方法を検討します。

統合された

ベイズ統計の原理に基づいて、特定の応答に割り当てられる確率は、すべての可能性のある会話型 AI パラメータに対する限界期待値として概念化できます。

実際には、会話型 AI システムの有限セット {θ1、θ2...θN} のみにアクセスできる場合、連続積分は離散和として近似できます。さらに、PΘ(θ) はこれらのシステム全体に均一に分布している、つまり PΘ(θn) = 1/N であると仮定できます。セットに同様のパフォーマンスを持つモデルが含まれている場合、これは有効な仮定であり、次の近似値を得ることができます。

ミックス

著者らが提案した方法は、真のアンサンブル分布(式8)から近似的にサンプリングすることを目的としている。この近似を実現するために、各ラウンドで、対話混合モデルは、現在の応答を生成した会話型 AI θ をランダムに (均一に) を選択します。このプロセスについては、以下のアルゴリズム 1 で詳しく説明します。会話中、特定の会話型 AI によって生成された応答は、以前に選択された会話型 AI によって生成された以前のすべての応答に条件付けられることに注意することが重要です。これは、さまざまな会話型 AI が現在の応答の出力に暗黙的に影響を与える可能性があることを意味します。したがって、現在の対応は、個々の会話型 AI の強みを組み合わせて連携し、全体的に魅力的な会話を生み出すというものです。

実験

Chai Research プラットフォームに展開された各会話型 AI について、著者らは A/B テスト設定 (記事のセクション 4.2 の式 15) に従って各日 k のユーザー エンゲージメントを計算しました。 20 日目 (k = 20) を考慮すると、図 1 はハイブリッド モデル、その構成要素である会話型 AI、および OpenAI の GPT-3.5 のエンゲージメント率を示しています。著者らは、中規模の会話型 AI (Pygmillion、Vicuna、ChaiLLM) のエンゲージメントは GPT3.5 よりも大幅に低いことを観察していますが、これは GPT3.5 のパラメータ数が桁違いに多いため予想されることです。しかし、これら 3 つの基本的な会話型 AI を組み合わせると、ハイブリッド モデルの結果は各コンポーネント システムよりもエンゲージメントが高くなるだけでなく、パフォーマンスも大幅に向上し、ハイブリッド モデルは OpenAI の GPT3.5 を上回るパフォーマンスを発揮します。他の会話型 AI と比較したハイブリッド モデルの成功は、図 1 に示すように、ユーザー維持率を k = 20 (記事のセクション 4.1 の式 10) と比較することによっても計算できます。

ハイブリッドモデルには合計 25 億のパラメーターがあり、OpenAI には 1750 億のパラメーターがあります。さらに、ハイブリッド モデルの応答は単一の会話型 AI からランダムにサンプリングされるため、推論コストは単一の 6B/13B システムと同等になります。図 2 と 3 では推論速度に大きな違いが見られ、ハイブリッド モデルではエンゲージメントとユーザー維持のパフォーマンスが大幅に向上している一方で、速度は小規模な会話型 AI と同等であることがわかります。これには重要な意味があります。品質を向上させるためにシステムを拡大するのではなく、複数の小規模なオープンソース システムを単純に組み合わせるだけで、推論コストを増やすことなく、ユーザーの会話エクスペリエンスを大幅に向上させることができます。これは、魅力的で成功する会話型 AI を設計する際に、単純なモデル パラメータのスケーリングよりもモデルのコラボレーションの方が重要であることを示しています。

客観的な比較として、表 1 に単一のメトリックの概要を示します (論文のセクション 3.3)。著者らは、ピグミリオンを対照群として、対照群と比較したテストのエンゲージメント率指標∆αと∆γ、および対照群と比較したテストの保持率指標∆ζと∆βを示しています。ハイブリッド モデルは、相対的な初期エンゲージメント ∆α が最も高く、エンゲージメント比率の減衰率 ∆γ も最も優れています。 Vicuna の保持率減衰率 ∆β はハイブリッド モデルよりも優れていますが、Vicuna の初期保持率 ∆ζ は大幅に低く、上記の図 2 および 3 に示すように、Vicuna がハイブリッド モデルの保持スコア 6 に到達するにはより長い時間が必要であることを示しています。全体的に、ハイブリッド モデルは、複数の小規模な会話型 AI を連携させることで、単一の大規模な会話型 AI (OpenAI の GPT3.5) よりも高品質の会話を提供するのに効果的であることは明らかです。

<<: 

>>:  金メダルレベルの数学スキル:DeepMindの幾何学的推論モデルがNatureに掲載され、コードはオープンソースで、フィールズ賞受賞者が賞賛

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

顔認識にもマスターキーはあるのでしょうか?

顔認識は、携帯電話のロック解除、住宅コミュニティへの出入り、消費者の支払い、ビジネス取引の処理など、...

シングルトランスフォーマー情報検索、Google は微分可能な検索インデックスでデュアルエンコーダーモデルに勝利

情報検索 (IR) は、インターネットの誕生以来、揺るぎない地位を築いてきました。膨大なデータからユ...

...

...

猿人歩行からAIまで:三次元戦略で一人ひとりに寄り添う「真のセキュリティ」

[[420527]]有名なドイツの社会学者ウルリッヒ・ベックはかつてこう言いました。「近代化の過程...

Google Research: ゲーデル賞とクヌース賞受賞者が「脳内のテキスト表現」を分析

このオンラインセミナーで特に注目を集めた講演は、コロンビア大学のコンピューターサイエンス教授であるク...

人工知能は産業の発展を促進し、産業構造のアップグレードを加速する

トップレベルの設計を継続的に改善し、コンピュータービジョン、音声認識、機械学習、ナレッジグラフなどの...

小売業と教育における感情認識に焦点を当てていますが、Mizao.com はどのように違うのでしょうか?

[51CTO.com からのオリジナル記事] 喜び、悲しみ、恐怖、平静、怒り、驚き、軽蔑、嫌悪など...

AIはサプライチェーンの脆弱性をある程度軽減できる

今日の緊迫したサプライチェーンにおいて、最も脆弱なのはスキル不足である可能性があり、景気後退により短...

...

iQIYI機械学習プラットフォーム構築実践

機械学習プラットフォームを構築する以前、iQiyi にはすでに比較的成熟したディープラーニング プラ...

...

...

ドローンの脅威と脆弱性評価に関する簡単な説明

[[411760]] Vol.1 背景ドローンの開発は大きな技術的進歩です。ドローンは、娯楽や商業用...