大規模言語モデルは最近、かつてないほどの注目を集めています。急速に変化する環境において、オープンソースモデルとクローズドソースモデルの開発は連携して進み、同時に繁栄する状況を生み出しています。 しかし、それでも皆が興味を持っているのは、オープンソースのビッグモデルとクローズドソースのビッグモデルのどちらが強いのかということです。どのように比較しますか? 最近、ワシントン大学のコンピュータサイエンスの博士課程の学生である王一中氏も、Twitterで、多くの命令チューニングデータセットとオープンソースモデルの開発についてこの疑問を提起しました。 写真 これまで、一部の公開指導チューニング モデルは、強力なクローズド ソースの独自モデル (ChatGPT など) に匹敵すると主張していましたが、この主張を裏付ける実験のほとんどは、すべてのタスクのごく一部しかカバーしておらず、これらの実験も主にモデル ベースの評価メトリックに依存していました。実際、評価設定には、モデルや人間による注釈の生成品質のテストに加えて、よりオープンエンドで主観的になりがちなモデルの中核的な推論能力と事実想起能力をテストするタスクを含める必要があります。 最近の研究では、アレン人工知能研究所とワシントン大学が命令チューニング リソースの包括的な評価を実施しました。彼らは、67 億から 650 億に及ぶモデル サイズをカバーする 12 を超える公開コーパスに対して、多数の命令チューニング実験を実施しました。この研究では、特定のモデル機能(事実知識、推論、多言語、エンコードなど)とオープンエンドの指示に従う能力も評価し、自動、モデルベース、人間ベースの評価基準に基づいて結果を提示します。 論文アドレス: https://arxiv.org/pdf/2306.04751.pdf 評価では、さまざまなデータセットでの命令の調整によって特定のスキルが向上するように見えますが、すべての評価で最高のパフォーマンスを発揮する単一のデータセットは存在しないことが示されています。また、基礎となるベースモデルが重要であり、より優れたベースモデル(より多くのトークンまたはより大きなモデルでトレーニングされたもの)は全体的に優れたパフォーマンスを発揮することもわかりました。予想外なことに、モデルベースの評価で好まれたモデルが、ベンチマークベースの自動評価で最高のパフォーマンスを示したモデルと一致しなかったこともわかりました。これは、GPT-4 が長く多様な生成に強く偏っているためと考えられます。 また、この評価では、どの評価においても、最良モデルの平均パフォーマンスは ChatGPT の 83%、GPT-4 の 68% に達することが示されており、このギャップを縮めるには、より優れたベースモデルと命令チューニングデータのさらなる構築が必要であることが示されています。 これらの調査結果に基づいて、研究チームは、データソースの組み合わせに基づいて微調整された 70 億から 650 億の LLAMA モデルである「TÜLU」を提案しました。なお、この記事の執筆時点では、TÜLU 65B は公開されている最大の完全命令調整済み LLAMA バリアントです。このモデルは、7 つの一般的なデータセットでトレーニングされており、各タスクで最高のパフォーマンスを発揮するモデルの 15% 以内にランク付けしながら、最高の平均パフォーマンスを生み出します。 研究者らは、これらの大規模言語モデルのトレーニングと評価のためのコードをオープンソース化し、TÜLU を含むさまざまな指示データセットとその組み合わせでのトレーニングのチェックポイントをリリースしました。 指示データセット研究チームは、以下のものを含むさまざまなスタイルのデータセット(表 1 に記載)の代表的なサンプルを収集しようとしました。 (1)既存のNLPデータセット(SuperNI、Flan V2)から研究者によって作成されたもの。 (2)命令チューニングのために人間がゼロから書いたもの(Dolly、Open Assistant 1) (3)独自のモデル(Self-Instruct、Unnatural Directions、Alpaca、Baize、GPT4-Alpaca)によって生成されたもの。 (4)ユーザーによって共有されたプロンプトとモデルによって生成された補完から構成される。 (5)特定のスキル向けに構築(思考連鎖用のCoT、コード生成用のアルパカ)。 写真 事前学習済みモデルこの研究では主に、67億から650億のパラメータに及ぶ一連の事前トレーニング済みモデルであるLLAMAスイートを使用しました。これらのモデルは、コミュニティで利用可能な最大かつ最高品質の事前トレーニング済みモデルです (ただし、制限付きライセンス下)。この研究では、LLAMA 6.7B モデルとサイズが同等の OPT モデルと Pythia モデルも検討し、異なるベース モデルの影響を調べました。 簡潔にするために、すべてのサイズは整数に丸められます。チームは、同等かそれ以上の品質の事前トレーニング モデルに関するいくつかの作業も認識しており、この論文の調査結果はこれらのモデルだけでなく、将来的にはより強力なオープン ベース モデルにも適用されるはずだと考えています。 さまざまなデータセットを使用してモデルをトレーニングする統一フォーマット この研究では、図 1 に示すように、すべてのデータセットをチャットボット スタイルのパターンに従ってフォーマットし、指示データセットのさまざまなスタイルと形式を統一します。これにより、研究チームは、ユーザーと言語モデル(「アシスタント」とも呼ばれる)間の任意の一連のやり取りを入力シーケンスに当てはめ、因果言語モデルと一緒にエンコードできるようになりました。彼らは、ユーザーの発話とターゲット アシスタントの応答の前にそれぞれ特別なトークン <|user|> と <|assistant|> を追加し、各アシスタントの出力の最後にテキスト終了トークンを追加しました。これにより、推論中にモデルが各ターンで応答することがなくなります。 TÜLU: リソースを統合して、より優れた命令チューニングモデルを作成する 既存の研究により、命令の多様性を高めることで命令チューニングのパフォーマンスを効果的に向上できることが示されていることから、研究者らは次の 2 つのデータセットを組み合わせました。 人間が作成した最良のデータセットで構成される、人間が作成した混合データ。 FLAN V2、CoT、Dolly、Open Assistant 1 が含まれます (SuperNI は除きます。FLAN V2 にはすでに SuperNI のほとんどのタスクが含まれているためです)。 人間 + GPT 混合データ。人間の混合データと、GPT4-Alpaca、Code-Alpaca、ShareGPT を含む OpenAI GPT モデルによって生成された他の 3 つのデータセットが含まれます。 研究チームはこれらの混合データセットを連結し、より複雑なサンプリング混合物の調査を将来に残しました。彼らは、人間と GPT の混合データでトレーニングされた LLAMA モデルを、異なる種間の交配によって生み出されたハイブリッドラクダである TÜLU と名付けました。 実験結果指示チューニングデータセットと基本モデル分析 表 1 に記載されている指示データセットがモデル機能にどのように貢献しているかを理解するために、研究者は評価スイートを使用してこれらのデータセットでトレーニングされた LLaMa 13B モデルを評価しました。表 3 はベンチマーク評価セットの結果を示しており、App D の方がより広範な結果が得られています。 実験の結論は次のとおりです。
写真 オープンモデルの限界を押し広げる 幅広いデータの混合を使用することが最適であり、LLAMA をベース モデルとして使用することが他のオープンな代替手段よりも望ましいと判断した後、すべての LLAMA サイズについて、人間 + GPT データの混合 (TÜLU モデル) でトレーニングされたモデルのパフォーマンスを比較します (表 5 を参照)。 写真 実験の結論は次のとおりです。
モデルベースのオープンな評価結果生成 AlpacaFarm モデルの勝率は表 6 に示されています。 このことから、次のような結論を導き出すことができます。
写真 全体的に、これらの結果は、モデルの嗜好評価は重要であるものの、これらのモデルの総合的な評価は提供されないことを示唆しています。したがって、モデルの好みの評価は、より大規模で包括的な評価設定の一部としてのみ考慮する必要があります。 オープンソースの人間による評価結果 手動評価結果を図4に示します。手動評価の結果は、AlpacaFarm およびベンチマークベースの評価と強く相関しており、すべての評価で 65B TÜLU が 7B TÜLU よりも優れていることが示されています。これは、より大きなベースモデルを使用することが重要であり、65B TÜLU と ChatGPT の間には依然として大きなパフォーマンスのギャップがあることを示しています。 写真 さらに、この研究では、抽出されたデータセットを使用するとパフォーマンスが大幅に向上する可能性があることが判明しており、比較すると人間が作成したデータセットが不足していることがわかります。これらの観察結果は、図 3 の許容スコアとも一致しています。 7B TÜLU は、モデル嗜好評価では human-mix 65B TÜLU よりも優れていますが、図 3 の許容性スコアを比較すると、逆の結果が得られているようです。これは、ペアワイズモデル評価では必ずしもモデルの欠陥が明らかになるわけではないというさらなる証拠となります。この場合、65B 人間ハイブリッド モデルは、7B モデルよりも許容できる (高品質ではないにしても) 応答を生成する可能性が高くなります。 写真 詳細は原文をご覧ください。 |
<<: 上海交通大学卒業生によるソロ作品! 50年間のゼロ進歩アルゴリズム問題が解決された
>>: 私をプログラマーと呼ばないで、私は「AIエンジニア」です、マスク氏:自然言語プログラミングを始めましょう
最も徹底したオープンソース モデルがここにあります - 130 億のパラメーター、申請なしで商用利用...
モバイルインターネットの発展に伴い、企業の生産・運営プロセスで生成されるデータは、これまでにない爆発...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
上海ノキアベル株式会社(以下、「ノキアベル」)は、ノキアグループと中国保利集団の子会社である華新郵電...
オープンソースは技術革新と急速な発展の中核です。この投稿では、Python 機械学習のオープンソース...
[51CTO.com からのオリジナル記事] 現在、インターネット上には機械学習 (ML)、人工知能...
コードを書くのは少し憂鬱になるので、色に囲まれる必要があります自己規律や自己学習という言葉を軽く受け...
衛星から都市計画まで、人工知能の進歩は新たな洞察をもたらしています。 [[270081]]宇宙技術と...
翻訳者 | 李睿レビュー | Chonglou制作:51CTO テクノロジースタック(WeChat ...
「今日ではビデオ監視や顔認識のアプリケーションが非常に多く、データセキュリティの保護は緊急の課題とな...
人工知能に関しては、人々は複雑な感情を抱くことが多い。映画ファンなら、ウィル・スミスが『アイ、ロボッ...
[[188835]]クイズ番組やマンマシン囲碁で人間に勝ったり、広告で人種差別的な偏見を示したとし...