アルパカたちはどこまで来たのでしょうか？研究によると、最高のものはGPT-4のパフォーマンスの68%を達成できる。

大規模言語モデルは最近、かつてないほどの注目を集めています。急速に変化する環境において、オープンソースモデルとクローズドソースモデルの開発は連携して進み、同時に繁栄する状況を生み出しています。

しかし、それでも皆が興味を持っているのは、オープンソースのビッグモデルとクローズドソースのビッグモデルのどちらが強いのかということです。どのように比較しますか?

最近、ワシントン大学のコンピュータサイエンスの博士課程の学生である王一中氏も、Twitterで、多くの命令チューニングデータセットとオープンソースモデルの開発についてこの疑問を提起しました。

写真

これまで、一部の公開指導チューニングモデルは、強力なクローズドソースの独自モデル (ChatGPT など) に匹敵すると主張していましたが、この主張を裏付ける実験のほとんどは、すべてのタスクのごく一部しかカバーしておらず、これらの実験も主にモデルベースの評価メトリックに依存していました。実際、評価設定には、モデルや人間による注釈の生成品質のテストに加えて、よりオープンエンドで主観的になりがちなモデルの中核的な推論能力と事実想起能力をテストするタスクを含める必要があります。

最近の研究では、アレン人工知能研究所とワシントン大学が命令チューニングリソースの包括的な評価を実施しました。彼らは、67 億から 650 億に及ぶモデルサイズをカバーする 12 を超える公開コーパスに対して、多数の命令チューニング実験を実施しました。この研究では、特定のモデル機能（事実知識、推論、多言語、エンコードなど）とオープンエンドの指示に従う能力も評価し、自動、モデルベース、人間ベースの評価基準に基づいて結果を提示します。

論文アドレス: https://arxiv.org/pdf/2306.04751.pdf

評価では、さまざまなデータセットでの命令の調整によって特定のスキルが向上するように見えますが、すべての評価で最高のパフォーマンスを発揮する単一のデータセットは存在しないことが示されています。また、基礎となるベースモデルが重要であり、より優れたベースモデル（より多くのトークンまたはより大きなモデルでトレーニングされたもの）は全体的に優れたパフォーマンスを発揮することもわかりました。予想外なことに、モデルベースの評価で好まれたモデルが、ベンチマークベースの自動評価で最高のパフォーマンスを示したモデルと一致しなかったこともわかりました。これは、GPT-4 が長く多様な生成に強く偏っているためと考えられます。

また、この評価では、どの評価においても、最良モデルの平均パフォーマンスは ChatGPT の 83%、GPT-4 の 68% に達することが示されており、このギャップを縮めるには、より優れたベースモデルと命令チューニングデータのさらなる構築が必要であることが示されています。

これらの調査結果に基づいて、研究チームは、データソースの組み合わせに基づいて微調整された 70 億から 650 億の LLAMA モデルである「TÜLU」を提案しました。なお、この記事の執筆時点では、TÜLU 65B は公開されている最大の完全命令調整済み LLAMA バリアントです。このモデルは、7 つの一般的なデータセットでトレーニングされており、各タスクで最高のパフォーマンスを発揮するモデルの 15% 以内にランク付けしながら、最高の平均パフォーマンスを生み出します。

研究者らは、これらの大規模言語モデルのトレーニングと評価のためのコードをオープンソース化し、TÜLU を含むさまざまな指示データセットとその組み合わせでのトレーニングのチェックポイントをリリースしました。

指示データセット

研究チームは、以下のものを含むさまざまなスタイルのデータセット（表 1 に記載）の代表的なサンプルを収集しようとしました。

（１）既存のNLPデータセット（SuperNI、Flan V2）から研究者によって作成されたもの。

（２）命令チューニングのために人間がゼロから書いたもの（Dolly、Open Assistant 1）

（３）独自のモデル（Self-Instruct、Unnatural Directions、Alpaca、Baize、GPT4-Alpaca）によって生成されたもの。

（４）ユーザーによって共有されたプロンプトとモデルによって生成された補完から構成される。

（５）特定のスキル向けに構築（思考連鎖用のCoT、コード生成用のアルパカ）。

写真

事前学習済みモデル

この研究では主に、67億から650億のパラメータに及ぶ一連の事前トレーニング済みモデルであるLLAMAスイートを使用しました。これらのモデルは、コミュニティで利用可能な最大かつ最高品質の事前トレーニング済みモデルです (ただし、制限付きライセンス下)。この研究では、LLAMA 6.7B モデルとサイズが同等の OPT モデルと Pythia モデルも検討し、異なるベースモデルの影響を調べました。

簡潔にするために、すべてのサイズは整数に丸められます。チームは、同等かそれ以上の品質の事前トレーニングモデルに関するいくつかの作業も認識しており、この論文の調査結果はこれらのモデルだけでなく、将来的にはより強力なオープンベースモデルにも適用されるはずだと考えています。

さまざまなデータセットを使用してモデルをトレーニングする

統一フォーマット

この研究では、図 1 に示すように、すべてのデータセットをチャットボットスタイルのパターンに従ってフォーマットし、指示データセットのさまざまなスタイルと形式を統一します。これにより、研究チームは、ユーザーと言語モデル（「アシスタント」とも呼ばれる）間の任意の一連のやり取りを入力シーケンスに当てはめ、因果言語モデルと一緒にエンコードできるようになりました。彼らは、ユーザーの発話とターゲットアシスタントの応答の前にそれぞれ特別なトークン <|user|> と <|assistant|> を追加し、各アシスタントの出力の最後にテキスト終了トークンを追加しました。これにより、推論中にモデルが各ターンで応答することがなくなります。

TÜLU: リソースを統合して、より優れた命令チューニングモデルを作成する

既存の研究により、命令の多様性を高めることで命令チューニングのパフォーマンスを効果的に向上できることが示されていることから、研究者らは次の 2 つのデータセットを組み合わせました。

人間が作成した最良のデータセットで構成される、人間が作成した混合データ。 FLAN V2、CoT、Dolly、Open Assistant 1 が含まれます (SuperNI は除きます。FLAN V2 にはすでに SuperNI のほとんどのタスクが含まれているためです)。

人間 + GPT 混合データ。人間の混合データと、GPT4-Alpaca、Code-Alpaca、ShareGPT を含む OpenAI GPT モデルによって生成された他の 3 つのデータセットが含まれます。

研究チームはこれらの混合データセットを連結し、より複雑なサンプリング混合物の調査を将来に残しました。彼らは、人間と GPT の混合データでトレーニングされた LLAMA モデルを、異なる種間の交配によって生み出されたハイブリッドラクダである TÜLU と名付けました。

実験結果

指示チューニングデータセットと基本モデル分析

表 1 に記載されている指示データセットがモデル機能にどのように貢献しているかを理解するために、研究者は評価スイートを使用してこれらのデータセットでトレーニングされた LLaMa 13B モデルを評価しました。表 3 はベンチマーク評価セットの結果を示しており、App D の方がより広範な結果が得られています。

実験の結論は次のとおりです。

すべてのタスクにわたる最適な命令チューニングデータセットは存在しません。
データセットをマージすると、ベンチマークタスクで全体的に最高のパフォーマンスが得られます。
ベースモデルの品質は、ダウンストリームのパフォーマンスにとって非常に重要です。（表4参照）

写真

オープンモデルの限界を押し広げる

幅広いデータの混合を使用することが最適であり、LLAMA をベースモデルとして使用することが他のオープンな代替手段よりも望ましいと判断した後、すべての LLAMA サイズについて、人間 + GPT データの混合 (TÜLU モデル) でトレーニングされたモデルのパフォーマンスを比較します (表 5 を参照)。

写真

実験の結論は次のとおりです。

命令のチューニングは、あらゆる規模の LLAMA モデルに大きなメリットをもたらします。
小規模なモデルでは、命令のチューニングから最も大きな恩恵を受けます。
TÜLU は依然として最先端の独自モデルに遅れをとっています。

モデルベースのオープンな評価結果生成

AlpacaFarm モデルの勝率は表 6 に示されています。

このことから、次のような結論を導き出すことができます。

従来の NLP データセットに基づくハイブリッドモデルのパフォーマンスは低くなります。
長く多様な世代を促進するデータセットは最高のパフォーマンスを発揮します (図 2 を参照)。
ShareGPT は最高のパフォーマンスを発揮します。

写真

全体的に、これらの結果は、モデルの嗜好評価は重要であるものの、これらのモデルの総合的な評価は提供されないことを示唆しています。したがって、モデルの好みの評価は、より大規模で包括的な評価設定の一部としてのみ考慮する必要があります。

オープンソースの人間による評価結果

手動評価結果を図4に示します。手動評価の結果は、AlpacaFarm およびベンチマークベースの評価と強く相関しており、すべての評価で 65B TÜLU が 7B TÜLU よりも優れていることが示されています。これは、より大きなベースモデルを使用することが重要であり、65B TÜLU と ChatGPT の間には依然として大きなパフォーマンスのギャップがあることを示しています。

写真

さらに、この研究では、抽出されたデータセットを使用するとパフォーマンスが大幅に向上する可能性があることが判明しており、比較すると人間が作成したデータセットが不足していることがわかります。これらの観察結果は、図 3 の許容スコアとも一致しています。 7B TÜLU は、モデル嗜好評価では human-mix 65B TÜLU よりも優れていますが、図 3 の許容性スコアを比較すると、逆の結果が得られているようです。これは、ペアワイズモデル評価では必ずしもモデルの欠陥が明らかになるわけではないというさらなる証拠となります。この場合、65B 人間ハイブリッドモデルは、7B モデルよりも許容できる (高品質ではないにしても) 応答を生成する可能性が高くなります。

写真

詳細は原文をご覧ください。

<<: 上海交通大学卒業生によるソロ作品！ 50年間のゼロ進歩アルゴリズム問題が解決された

>>: 私をプログラマーと呼ばないで、私は「AIエンジニア」です、マスク氏：自然言語プログラミングを始めましょう