14分間トレーニングしてアルパカを超えろ!中国チームは、LLMに基づく新しいデータフィルタリングパラダイム「Flying Alpaca」をリリースしました。

14分間トレーニングしてアルパカを超えろ!中国チームは、LLMに基づく新しいデータフィルタリングパラダイム「Flying Alpaca」をリリースしました。

最近、命令微調整 (IFT) は、命令に従う能力を獲得するための大規模言語モデル (LLM) の事前トレーニングの主要なトレーニング段階として採用されています。

しかし、広く使用されている IFT データセット (Alpaca の 52k データなど) には、誤った応答や無関係な応答を含む低品質のインスタンスが多く含まれており、IFT に誤解を招き、悪影響を及ぼします。

これまでの処理方法では、主にこれらの低品質データを手動で選別していましたが、これには時間と労力がかかり、拡張も困難でした。

したがって、これらの低品質データを効率的かつ自動的に除外する方法が、LLM の微調整効果を向上させる鍵となります。

現在、メリーランド大学、サムスン、USC の研究者らは、強力な LLM (ChatGPT など) を使用して低品質データを自動的に識別して削除し、命令微調整 (IFT) のパフォーマンスを向上させる効果的なデータ フィルタリング戦略を提案しています。

写真

論文アドレス: https://arxiv.org/abs/2307.08701

プロジェクトアドレス: https://lichang-chen.github.io/AlpaGasus/

この研究では、研究者らが提案したモデル AlpaGasus が、52,000 個の Alpaca データからフィルタリングされた 9,000 個の高品質データを使用して微調整されています。

AlpaGasus は、複数のテスト セットでオリジナルの Alpaca を大幅に上回り、その 13B バージョンはテスト タスクで教師モデル (Text-Davinci-003 など) の 90% よりも優れたパフォーマンスを発揮します。

さらに、AlpaGasus はトレーニング時間の 5.7 倍の改善を達成し、バージョン 7B のトレーニング時間を 80 分から 14 分に短縮しました。

少ないデータで強力なトレーニング「アルパカ」

具体的には、研究者は強力な LLM (ChatGPT など) を使用して、各タプル (指示、入力、応答) の品質を自動的に評価し、正確性や有用性などの入力のさまざまな側面にスコアを付け、しきい値を下回るスコアのデータを除外しました。

採点プロンプトは次のとおりです。

写真

メソッドのパイプラインは次のとおりです。

実験セクション

実験セクションでは、著者らは包括的かつ多様なテスト セットを使用して、提案された言語モデル AlpaGasus を評価しました。

この包括的な評価セットには、Self-instruct、Vicuna、WizardLM、および Koala のテスト セットが含まれています。各テスト セットは異なる指示を提供するため、評価の偏りが軽減され、AlpaGasus のパフォーマンスの包括的な概要が提供されます。

著者らは、AlpaGasus を 4 つの最近の LLM (Alpaca、Text-Davinci-003、ChatGPT、Claude) と比較しました。

パフォーマンス評価

パフォーマンス評価のために、著者らは GPT-4 を審判として使用し、一連の指示に対するさまざまなモデルの応答を評価および比較しました。

GPT-4 審査員の位置バイアスに対処するために、著者らは両方の順序 (つまり、AlpaGasus の応答をベースライン モデルの応答の前/後に配置する) を試し、最終スコアは 2 つのスコアの「勝ち、引き分け、負け」基準に基づいて決定されました。

結果分析

結果のセクションでは、著者らはデータの量よりも質の方が重要であると強調しています。

これは、前者が後者よりも大幅に少ないトレーニング データを使用しているにもかかわらず、すべてのテスト セットで AlpaGasus-9k が AlpaGasus-52k よりも優れたパフォーマンスを示していることからも明らかです。

著者らはまた、AlpaGasus-9k を、Alpaca データセットからランダムに選択された 9k のデータを使用してトレーニングされたモデルと比較しました。

閾値が IFT に及ぼす影響を調べるために、より低い閾値 (4.0) を適用して選択された 39k データで微調整された LLaMA と AlpaGasus を比較します。

結果は、9k の高品質データのみでトレーニングされたモデルが、39k の一般品質データでトレーニングされたモデルよりも大幅に優れていることを示しています。

アブレーション実験の部分では、著者らは AlpaGasus のトレーニング用に選択された 9k データから 3k と 6k のデータをランダムに抽出し、同じトレーニング スクリプトを使用して LLaMA の AlpaGasus の 2 つのバリアントを微調整しました。

4 つのテスト セットすべてにおいて、9k データでトレーニングされた AlpaGasus のパフォーマンスが最高であり、高品質のデータが増えるほど IFT モデルが向上することを示しています。

詳細な評価

さらに、著者らは、WizardLM および Vicuna テスト セットのさまざまなスキル/カテゴリで AlpaGasus モデルの詳細な評価も実施しました。

まず、著者らはWizardLMテストセット上でAlpaGasus-7B(9k)とAlpaca-7B(52k)のパフォーマンスを比較しました。

結果によると、AlpaGasus は 29 のスキルのうち 22 のスキルで Alpaca よりも優れているか同等のパフォーマンスを示しましたが、プログラミング (コード生成など) などの残りの 7 つのスキルでは優位性は示されませんでした。

著者らは、データの選択とフィルタリングのプロセス中にスキルカテゴリの割合が指定されていなかったため、プログラミング関連データのフィルタリングされた割合(88.16%)が平均フィルタリング割合(82.25%)よりもはるかに高くなったことが原因である可能性があると結論付けました。したがって、プログラミングスキルは他のスキルよりも弱くなります。

つまり、IFT では、トレーニング データをさまざまなカテゴリ間で多様かつバランスの取れた状態に保つことが非常に重要です。

次に、著者らはWizardLMテストセット上でAlpaGasus-13B(9k)とAlpaga-13B(52k)のパフォーマンスをさらに比較しました。

その中で、結果は 7B モデルの観察と一致しており、AlpaGasus は依然としてほとんどのスキルで Alpaca を上回っています。

これは、モデルのサイズが大きくなっても、データ品質がデータ量を上回っていることを示しています。

Vicuna テスト セットの分析では、反事実、ロール プレイング、知識、一般など、ほとんどのカテゴリで AlpaGasus-7B が Alpaca-7B を上回りました。さらに、この結論は、基本モデルを拡張した場合でも当てはまります。

次に著者らは、AlpaGasus、text-Davinci-003、ChatGPT、Claude を比較しました。結果は、AlpaGasus-13B が教師モデル text-Davinci-003 の機能の 90% を達成できることを示しています (text-Davinci-003 は Alpaca-52k 命令データを生成するために使用されます)。

コスト削減

コスト削減のセクションでは、AWS で必要な計算コストを考慮して、AlpaGasus と Alpaca のトレーニング コストを比較しています。

7B モデルの場合、トレーニング コストは、9k データを使用する AlpaGasus では 4.78 ドル、52k データを使用する Alpaca では 27.31 ドルです。

13B モデルの場合、9k データを使用する AlpaGasus のトレーニング コストは 40.96 ドルですが、52k データを使用する Alpaca のトレーニング コストは 225.28 ドルです。

これは、著者のデータ選択戦略により、モデルが拡大したときにトレーニング コストを大幅に削減できることを示しています。

要約する

本論文で提案されたデータ フィルタリング方法は、スケーラビリティと自動化の面で大きな利点を示しており、トレーニング データの品質を慎重に管理することで IFT パフォーマンスが大幅に向上し、計算コストが大幅に削減されることを証明しています。

データ選択および評価戦略は、他の命令微調整データセットや LLM にも広く適用でき、大規模言語モデルの実用的展開に向けた新たな研究方向を切り開きます。

<<:  ただ! Stack Overflow セルフヘルプがオープン

>>:  テスラの秘密チームが暴露:ネガティブなニュースを抑え、虚偽入札の段階を乗り切ることに特化

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人間の脳細胞は、マトリックスのように、AIよりも速く、エネルギー効率よく、ペトリ皿の中でゲームをすることを学ぶ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

生成 AI が運輸業界に登場します。準備はできていますか?

運輸業界は、人や物を輸送する 10 兆ドル規模の多様なグローバル ネットワークです。しかし現在、業界...

大規模言語モデルの量子化手法の比較: GPTQ、GGUF、AWQ

大規模言語モデル (LLM) は過去 1 年間で急速に進化しており、この記事では (量子化) へのい...

Githubには13,000個のスターがある。JAXの急速な発展はTensorFlowやPyTorchに匹敵する

[[416349]]機械学習の分野では、TensorFlow と PyTorch は誰もがよく知っ...

...

スタンフォード大学が長いテキストをよりスムーズに生成する時間制御方式を導入、その論文がICLR 2022に選出される

近年、GPT-2 を含む大規模言語モデルはテキスト生成において大きな成功を収めています。しかし、大規...

AIと機械学習が克服すべき3つのハードル

[[343495]] [51CTO.com クイック翻訳] 人工知能革命はまだ初期段階ですが、人工知...

AIと機械学習をサイバーセキュリティに組み込む方法

仕事で使われるデバイスが多様化するにつれてサイバー攻撃も増えますが、AI はそれを防ぐのに役立ちます...

なぜ男性ロボットの方がユーザーに人気があるのでしょうか?その魅力は何でしょうか? 3つの特徴が鍵となる

人類が科学技術の時代に入り、初期の単純な産業時代から複雑で多面的なハイテク産業時代へと進化して数百年...

世界の AI イベントのトップ 10 を見ると、AI ガバナンスはどのようにして利益を達成し、損害を回避できるのでしょうか?

はじめに:過去数年間を振り返ると、AIに関するネガティブな事件が頻繁に発生しており、政府は一連の政策...

Baiduカスタマイズ画像オープンプラットフォームのトレーニングと評価

背景Baiduは昨年11月にカスタマイズされた画像トレーニングサービスを開始しました(https:/...

日本政府はAI規制に対して緩やかなアプローチを好んでいるが、日本企業は厳格なEU規則に従う可能性がある

日本は、急速に減少する日本の人口によって引き起こされる問題のいくつかに対処するために、人工知能(AI...

2022 年のデータサイエンス、AI、機械学習の 5 つのトレンド

[[443145]] [51CTO.com クイック翻訳] 2022 年が近づくにつれ、人々は 20...