14分間トレーニングしてアルパカを超えろ!中国チームは、LLMに基づく新しいデータフィルタリングパラダイム「Flying Alpaca」をリリースしました。

14分間トレーニングしてアルパカを超えろ!中国チームは、LLMに基づく新しいデータフィルタリングパラダイム「Flying Alpaca」をリリースしました。

最近、命令微調整 (IFT) は、命令に従う能力を獲得するための大規模言語モデル (LLM) の事前トレーニングの主要なトレーニング段階として採用されています。

しかし、広く使用されている IFT データセット (Alpaca の 52k データなど) には、誤った応答や無関係な応答を含む低品質のインスタンスが多く含まれており、IFT に誤解を招き、悪影響を及ぼします。

これまでの処理方法では、主にこれらの低品質データを手動で選別していましたが、これには時間と労力がかかり、拡張も困難でした。

したがって、これらの低品質データを効率的かつ自動的に除外する方法が、LLM の微調整効果を向上させる鍵となります。

現在、メリーランド大学、サムスン、USC の研究者らは、強力な LLM (ChatGPT など) を使用して低品質データを自動的に識別して削除し、命令微調整 (IFT) のパフォーマンスを向上させる効果的なデータ フィルタリング戦略を提案しています。

写真

論文アドレス: https://arxiv.org/abs/2307.08701

プロジェクトアドレス: https://lichang-chen.github.io/AlpaGasus/

この研究では、研究者らが提案したモデル AlpaGasus が、52,000 個の Alpaca データからフィルタリングされた 9,000 個の高品質データを使用して微調整されています。

AlpaGasus は、複数のテスト セットでオリジナルの Alpaca を大幅に上回り、その 13B バージョンはテスト タスクで教師モデル (Text-Davinci-003 など) の 90% よりも優れたパフォーマンスを発揮します。

さらに、AlpaGasus はトレーニング時間の 5.7 倍の改善を達成し、バージョン 7B のトレーニング時間を 80 分から 14 分に短縮しました。

少ないデータで強力なトレーニング「アルパカ」

具体的には、研究者は強力な LLM (ChatGPT など) を使用して、各タプル (指示、入力、応答) の品質を自動的に評価し、正確性や有用性などの入力のさまざまな側面にスコアを付け、しきい値を下回るスコアのデータを除外しました。

採点プロンプトは次のとおりです。

写真

メソッドのパイプラインは次のとおりです。

実験セクション

実験セクションでは、著者らは包括的かつ多様なテスト セットを使用して、提案された言語モデル AlpaGasus を評価しました。

この包括的な評価セットには、Self-instruct、Vicuna、WizardLM、および Koala のテスト セットが含まれています。各テスト セットは異なる指示を提供するため、評価の偏りが軽減され、AlpaGasus のパフォーマンスの包括的な概要が提供されます。

著者らは、AlpaGasus を 4 つの最近の LLM (Alpaca、Text-Davinci-003、ChatGPT、Claude) と比較しました。

パフォーマンス評価

パフォーマンス評価のために、著者らは GPT-4 を審判として使用し、一連の指示に対するさまざまなモデルの応答を評価および比較しました。

GPT-4 審査員の位置バイアスに対処するために、著者らは両方の順序 (つまり、AlpaGasus の応答をベースライン モデルの応答の前/後に配置する) を試し、最終スコアは 2 つのスコアの「勝ち、引き分け、負け」基準に基づいて決定されました。

結果分析

結果のセクションでは、著者らはデータの量よりも質の方が重要であると強調しています。

これは、前者が後者よりも大幅に少ないトレーニング データを使用しているにもかかわらず、すべてのテスト セットで AlpaGasus-9k が AlpaGasus-52k よりも優れたパフォーマンスを示していることからも明らかです。

著者らはまた、AlpaGasus-9k を、Alpaca データセットからランダムに選択された 9k のデータを使用してトレーニングされたモデルと比較しました。

閾値が IFT に及ぼす影響を調べるために、より低い閾値 (4.0) を適用して選択された 39k データで微調整された LLaMA と AlpaGasus を比較します。

結果は、9k の高品質データのみでトレーニングされたモデルが、39k の一般品質データでトレーニングされたモデルよりも大幅に優れていることを示しています。

アブレーション実験の部分では、著者らは AlpaGasus のトレーニング用に選択された 9k データから 3k と 6k のデータをランダムに抽出し、同じトレーニング スクリプトを使用して LLaMA の AlpaGasus の 2 つのバリアントを微調整しました。

4 つのテスト セットすべてにおいて、9k データでトレーニングされた AlpaGasus のパフォーマンスが最高であり、高品質のデータが増えるほど IFT モデルが向上することを示しています。

詳細な評価

さらに、著者らは、WizardLM および Vicuna テスト セットのさまざまなスキル/カテゴリで AlpaGasus モデルの詳細な評価も実施しました。

まず、著者らはWizardLMテストセット上でAlpaGasus-7B(9k)とAlpaca-7B(52k)のパフォーマンスを比較しました。

結果によると、AlpaGasus は 29 のスキルのうち 22 のスキルで Alpaca よりも優れているか同等のパフォーマンスを示しましたが、プログラミング (コード生成など) などの残りの 7 つのスキルでは優位性は示されませんでした。

著者らは、データの選択とフィルタリングのプロセス中にスキルカテゴリの割合が指定されていなかったため、プログラミング関連データのフィルタリングされた割合(88.16%)が平均フィルタリング割合(82.25%)よりもはるかに高くなったことが原因である可能性があると結論付けました。したがって、プログラミングスキルは他のスキルよりも弱くなります。

つまり、IFT では、トレーニング データをさまざまなカテゴリ間で多様かつバランスの取れた状態に保つことが非常に重要です。

次に、著者らはWizardLMテストセット上でAlpaGasus-13B(9k)とAlpaga-13B(52k)のパフォーマンスをさらに比較しました。

その中で、結果は 7B モデルの観察と一致しており、AlpaGasus は依然としてほとんどのスキルで Alpaca を上回っています。

これは、モデルのサイズが大きくなっても、データ品質がデータ量を上回っていることを示しています。

Vicuna テスト セットの分析では、反事実、ロール プレイング、知識、一般など、ほとんどのカテゴリで AlpaGasus-7B が Alpaca-7B を上回りました。さらに、この結論は、基本モデルを拡張した場合でも当てはまります。

次に著者らは、AlpaGasus、text-Davinci-003、ChatGPT、Claude を比較しました。結果は、AlpaGasus-13B が教師モデル text-Davinci-003 の機能の 90% を達成できることを示しています (text-Davinci-003 は Alpaca-52k 命令データを生成するために使用されます)。

コスト削減

コスト削減のセクションでは、AWS で必要な計算コストを考慮して、AlpaGasus と Alpaca のトレーニング コストを比較しています。

7B モデルの場合、トレーニング コストは、9k データを使用する AlpaGasus では 4.78 ドル、52k データを使用する Alpaca では 27.31 ドルです。

13B モデルの場合、9k データを使用する AlpaGasus のトレーニング コストは 40.96 ドルですが、52k データを使用する Alpaca のトレーニング コストは 225.28 ドルです。

これは、著者のデータ選択戦略により、モデルが拡大したときにトレーニング コストを大幅に削減できることを示しています。

要約する

本論文で提案されたデータ フィルタリング方法は、スケーラビリティと自動化の面で大きな利点を示しており、トレーニング データの品質を慎重に管理することで IFT パフォーマンスが大幅に向上し、計算コストが大幅に削減されることを証明しています。

データ選択および評価戦略は、他の命令微調整データセットや LLM にも広く適用でき、大規模言語モデルの実用的展開に向けた新たな研究方向を切り開きます。

<<:  ただ! Stack Overflow セルフヘルプがオープン

>>:  テスラの秘密チームが暴露:ネガティブなニュースを抑え、虚偽入札の段階を乗り切ることに特化

ブログ    
ブログ    

推薦する

人工知能の将来の発展における4つの主要なトレンドについての簡単な議論

[[349269]] 2020年に世界的パンデミックが発生し、世界が完全にひっくり返る前から、人工知...

2021年11月のドローン業界の最新動向を3分で振り返る

現在、人工知能や5Gなどの技術の助けを借りて、我が国のドローン開発は急速な成長の軌道に乗っています。...

人工知能開発の現状と将来動向の分析

人工知能、またはよく「AI」(英語の正式名称:Artificial Intelligence)と呼ば...

不動産テクノロジーの6つのトレンド: テクノロジーが不動産業界に破壊的変化をもたらす

[[315285]]現代の技術進歩の影響を免れる業界はありませんが、不動産業界はこの点では孤立した業...

オンラインショッピングデータに基づくスマートドアロック「ショッピングガイド」

ビル・ゲイツは1995年に「The Road Ahead」の中でこう述べています。「将来、スマート家...

機械学習による物流とサプライチェーン管理の変革

機械学習は、リアルタイムの需要予測、持続可能な物流、高度な予測分析など、大きなメリットをもたらします...

あなたはキング・オブ・グローリーをプレイしていますが、誰かがiPhoneを使ってニューラルネットワークをトレーニングしています

知っていましたか? LeNet 畳み込みニューラル ネットワークは iOS デバイス上で直接トレーニ...

新しい機械学習の考え方を使用して、自然な異常と人間の誤解を区別する

ディープニューラルネットワークは、数学モデルを使用して画像やその他のデータを処理する多層システムであ...

機械学習におけるデータ駆動型アルゴリズムの応用

機械学習の概念分析機械学習の概念は、アルゴリズムとニューラル ネットワーク モデルを使用して学習し、...

製造業における人工知能の8つの応用シナリオ

人工知能の概念は、60年以上前の1950年代に初めて提案されました。しかし、モノのインターネット、ビ...

AI分野におけるNVIDIA NeMoフレームワークの包括的な応用と利点の概要

1. NeMoフレームワークの紹介NVIDIA NeMo は、PyTorch と PyTorch L...

研究者たちは建設における人工知能の利用を研究している

過去数十年にわたり、AI ツールは、コンピューター サイエンスから製造、医学、物理学、生物学、さらに...

...