GPTは「贅沢」すぎるが、代替案が多数用意されており、展開の問題を心配する必要はもうない

GPTは「贅沢」すぎるが、代替案が多数用意されており、展開の問題を心配する必要はもうない

近年、生成的事前トレーニング済みモデル (GPT など) の台頭により、自然言語処理の分野に革命が起こり、その影響は他の多くのモダリティにも及んでいます。しかし、ChatGPT や GPT-4 などのモデルは、モデルサイズと計算の複雑さが大きく、展開方法が複雑で、トレーニング モデルがクローズド ソースであるため、学界や産業界での推進と応用が制限されています。そのため、計算や展開が容易な言語モデルが注目されています。

  • 論文アドレス: http://arxiv.org/abs/2308.14149
  • プロジェクトアドレス: https://github.com/GPT-Alternatives/gpt_alternatives

この記事では、GPT の代替モデルを次の側面から研究し、複数の次元から始めて多数の実験検証を実施し、より包括的で現実的なモデル評価結果を取得し、研究者と実務者がこれらのモデルの基本原理、開発動向、主要な課題をより深く理解し、さまざまなニーズに応じて適切なモデルを選択できるようにします。

1. 並列置換モデルのアーキテクチャ、設計方法、効率とパフォーマンスのトレードオフをまとめます。

2. 既存の公開データセットを整理し、事前学習データのソース、データの品質、量、多様性、微調整データ(指導データやアライメントデータを含む)、特定分野のデータの特性を分析しました。

3. 大規模言語モデルの効率的なトレーニングと展開の方法を紹介し、既存のオープンソースの代替モデルをまとめました。

4. 一般的に使用される複数のベンチマークデータセットに対するさまざまな置換モデルの効果を評価しました。

5. 手動評価タスクを設計し、さまざまな代替モデルに対して手動評価を実施しました。

6. マルチモーダルテキストと画像の分野における大規模言語モデルの研究状況とモデル性能について議論し、評価した。

7. 科学研究分野のベンチマークデータセットでさまざまな置換モデルのパフォーマンスが評価されました。

大規模言語モデルの開発の歴史

GPTの置換モデル

github で更新を続けます...

オープンソースツール

近年、ディープラーニングの急速な発展はオープンソースコミュニティの繁栄と密接に関係しています。このセクションでは、トレーニング、展開、高速化、モデル評価などの側面をカバーする大規模言語モデルに関連するオープンソース ツール ライブラリをまとめました。

ベンチマークデータセットの評価

さまざまなタスクにおけるさまざまな言語モデルのパフォーマンスを総合的に評価するために、まず、さまざまな観点から、一般的に使用される複数のテストベンチマークを徹底的に評価します。選択されたタスクは、モデルの常識的な推論、情報抽出、テキスト理解、数学的な問題解決、および学際的な知識能力をテストするように設計されています。

評価方法

私たちは 2 つの評価方法を使用しました。

1.ゼロショット方式。この方法は、これまでに見られなかった新しいタスク、つまりゼロショット学習におけるモデルのパフォーマンスに重点を置いています。タスク関連のトレーニング サンプルがない場合、モデルは大規模なコーパスから学習した知識と理解に頼って正確な回答を出す必要があります。このアプローチは、モデルの誘導、推論、および一般化の機能に大きな課題をもたらします。

2.少数ショット方式。少数ショット学習では、モデルが少数の回答例のみで適切な応答を生成できる必要があります。この評価方法では、主にモデルの移行機能と一般化機能をテストします。実際のアプリケーションでは、データが不足しているシナリオでもモデルが適切に機能するため、この機能は特に重要です。

評価データセット

Zero-Shot 設定では、BoolQ、Hellaswag、WinoGrande、PIQA、ARC、OpenbookQA、RACE、DROP、GSM8K データセットをテストします。 Few-Shot 設定では、MMLU および TriviaQA データセットでテストします。

実験結果

上の図は、ゼロショット設定でのさまざまな言語モデルのテスト結果を示しています。この研究で分析されたモデルの多くは LLaMA-7B アーキテクチャに基づいていますが、個々のパフォーマンスは大きく異なることには注目すべきです。これらのモデル間のパフォーマンスの違いは、主に開発中に採用されたチューニング方法に起因しており、モデルのパフォーマンスを決定する上でチューニング戦略が中心的な役割を果たしていることが強調されています。さらに、これらの結果は、さまざまなタスクにおける言語モデルの有効性の違いも明らかにしています。単一のモデルですべてのデータセットとタスクを完全に支配することはできません。さらに、これらの言語モデルはオプションを含むタスクでは比較的良好なパフォーマンスを発揮しますが、生成タスクでは不十分です。この違いは理解できます。一貫性があり、文脈的に関連のあるコンテンツを生成することは単純な分類タスクよりもはるかに困難であり、モデルが言語と文脈をより深く理解する必要があるためです。

この図は、少数ショット設定でのモデルのパフォーマンスを示しています。表から、いくつかの注目すべき特徴がわかります。まず、これらの言語モデルのパフォーマンスは、例の数が増えても大幅に向上しません。これは、モデルのサイズが比較的小さく、サンプルから学習する能力が限られているため、モデルが与えられた例から知識を完全に吸収することが困難になるためです。第二に、モデルのパフォーマンスは、さまざまな例の設定下で比較的安定しています。したがって、モデルがゼロショット設定で良好なパフォーマンスを発揮する場合、他の設定でもこの利点が維持される可能性が高くなります。

ただし、テストされた言語モデルの一部は最適なパフォーマンスを達成しなかったことを認識する必要があります。これらのモデルでは、必要な知識を獲得し、全体的なパフォーマンスを向上させるために、より適切なプロンプトやさらなる微調整が必​​要になる場合があります。

手動評価

既存のベンチマーク データセットは、従来の言語モデルを評価するためによく使用されますが、多くの場合、特定のタスクまたはトピックに焦点を当てています。同時に、大規模言語モデルによって実証される多様な機能により、これらのベンチマーク データセットのみを使用してそれらを完全に評価することは困難です。これらのモデルのパフォーマンスをより深く理解するために、既存の代替モデルの手動評価を継続しました。

評価方法

モデルのパフォーマンスを手動で評価するための鍵は、評価の質問の選択と評価者の客観性にあります。この目的のために、一般的なペアワイズ比較法を使用してモデルのパフォーマンスを評価します。直接的なスコアリングやランキング付けと比較して、ペア比較法ではテスト参加者の評価の難易度が軽減され、評価結果の客観性と正確性が向上します。私たちは、日常的な質問と回答、文章力、推論、プログラミング、数学、物理学、化学、生物学、有害コンテンツの検出など、9 つの異なる分野をカバーする 50 の質問を設計しました。これらの質問は16 のモデルで評価され、最終的なモデル スコアは Elo スコアリング システムを使用して計算されました。

評価結果

上の図は、各モデルの Elo スコアを示しています。すべてのモデルの初期 Elo スコアは 1000 で、スコアの最大変動を制御するために K 係数 16 を使用しています。これら 16 のモデルの中で、 Vicuna-7B は Elo スコア 1222 で 1 位にランクされています。 ChatGLMとMossがそれぞれ2位と3位になりました。 7位から15位にランクされたモデルのパフォーマンスが非常に近いことは注目に値します。別の観点から見ると、Elo 評価システムには大きな識別力があり、モデル間のパフォーマンスには明確な階層的な違いがあることを意味します。

Elo スコアを使用して、モデル間の勝率を予測することもできます。一定の範囲内では、Elo スコアの 10 ポイントの差ごとに勝率が約 1.5% 変化します。そこで、図(b)に示すように、Eloスコアに基づいて1対1の勝率のヒートマップをプロットしました。同時に、図(a)は、さまざまなモデル間の実際の勝率を表すヒートマップを示しています。明らかに、Elo スコアはモデル間のパフォーマンスの違いをよく反映します。たとえば、Vicuna-7B と ChatGLM の間には約 50 ポイントの Elo 差があり、Vicuna-7B の ChatGLM に対する勝率は 57% です。これは実際の勝率 55% に非常に近いです。

ライティングタスクにおけるさまざまなモデルの例を示すと、トップランクの Vicuna-7B は、コンテンツと形式の両面で他の方法を大幅に上回ります。異なる評価者間の回答の一貫性を確認するために、手動一貫性評価(Human Consistency)用に20の質問をランダムに選択しました。評価指標は、同点割引精度です。2 人の評価者の回答がまったく同じ場合は 1 ポイントが付与されます。評価者の 1 人の回答が同点の場合は 0.5 ポイントが付与されます。2 人の評価者の回答が完全に異なる場合は 0 ポイントが付与されます。評価の結果、一貫性スコアは 80.02 となり、異なる評価者間の評価基準が概ね一貫していることがわかりました。

画像とテキストのマルチモーダルモデル

大規模言語モデルが自然言語処理の分野で注目を集めるにつれ、これらのモデルをマルチモーダル情報と統合する方法を探求する研究がますます増え始めています。このセクションでは、一般的なベンチマークで画像とテキストを対象とした最近の大規模なマルチモーダル言語モデルのパフォーマンスを調査し、評価します。

モデル紹介

一般的なマルチモーダル大規模言語モデルは、通常、ビジョン エンコーダー、ビジョンから言語へのコンバーター、大規模言語モデルの 3 つの部分で構成されます。ビジュアルエンコーダーは画像から視覚情報を抽出するように設計されており、通常は CLIP や Flamingo などの視覚言語事前トレーニング済みモデルによって初期化された ViT 構造を採用しています。視覚から言語への変換器の役割は、視覚の埋め込みを言語の埋め込み空間にマッピングすることです。これは、視覚と言語のモダリティの違いを最小限に抑えるように設計されています。大規模言語モデルは、視覚と言語の両方のモダリティからの情報を使用して最終的な回答を生成します。

評価方法

このセクションでは、 ScienceQA データセットを使用して、科学分野におけるマルチモーダル モデルの推論能力を評価します。 ScienceQA データセットには、幅広い分野を網羅した約 20,000 個の複数選択問題が含まれています。同時に、ほとんどの質問は対応する知識の背景 (コンテキスト) を提供し、モデルが連鎖推論を実行するのに役立ちます。評価方法としては、2 ショットの実験設定を採用します。つまり、2 つのサンプル回答が与えられ、モデルはサンプル回答に基づいて最終的な回答を出す必要があります。それぞれの質問と回答では、質問テキスト (Q)、背景知識 (C)、複数の選択肢 (M) を与え、モデルに回答 (A) を出すように求めます。

実験結果

まず、テスト セット全体で言語のみのモデルとマルチモーダル モデルの精度を評価します。結果は、 Vicuna モデルとその微調整バージョン MiniGPT4 がそれぞれの分野で最高の結果を達成したことを示しています。

さらに、テスト セット内の画像を含むサンプルに対してマルチモーダル モデルのパフォーマンスをテストしました。この点では、 Vicuna に基づく MiniGPT4 モデルと VPGTrans モデルが、それぞれの評価指標で最高の結果を達成しました。

科学ドメインモデル

AI技術と科学研究をどのように組み合わせるかは、研究のホットスポットの1つです。近年、大規模な自然言語モデルを特定の科学データセット上で微調整し、科学研究のニーズにさらに適応できるようにすることが、特に創薬や材料設計などの分野で徐々に新たな研究トレンドになりつつあります。このセクションでは、科学研究における GPT 代替モデルを詳しく調べ、そのパフォーマンスを評価します。

評価方法

私たちは、MedQA、MedMCQA、PubMedQA、NLPEC、SciQデータセットで大規模言語モデルを評価します。特に、MedQA データセットでは、さまざまな言語のデータだけでなく、さまざまな少数ショットの設定も考慮します。評価結果は主に精度に基づいて表示されます。

ここでは、プロンプト指示がモデルのパフォーマンスに与える影響を調べるために、標準プロンプト指示「標準プロンプトによる結果」とモデルのデフォルト システム指示「特定のシステム メタ指示による結果」という 2 つの方法を使用してモデルを評価しました。

実験結果

上記の表は、MedQA データセットにおける各モデルのパフォーマンスを示しています。データセットの多言語サポートのおかげで、英語、簡体字中国語、繁体字中国語の 3 つの言語でモデルのパフォーマンスを評価できました。中国語データセットの評価では、ChatGLM-6B と BELLE-7B が他のモデルよりも優れたパフォーマンスを発揮し、 「簡体字中国語 (5 ショット)」と「繁体字中国語 (4 ショット)」のテストでそれぞれ約 34% と 30% の精度を達成しました。これは、中国語コーパス専用に設計されたこれら 2 つのモデルが、中国語の質問を処理する上で明らかな利点を持っていることを示しています。英語データセットの評価では、LLaMA 2-13B のパフォーマンスが特に優れており、 「英語 (5 ショット)」テストと「英語 (4 ショット)」テストでそれぞれ約 33% と 42% の精度率を達成しました。

上記の表に示すように、他の科学分野のデータセットでも同じモデルを評価しました。 MedMCQA データセットでは、LLaMA 2-13B と Vicuna (FastChat)-13B が他のモデルよりも優れています。 PubMedQA データセットでは、Stanford Alpaca-7B と Alpaca-LoRA のパフォーマンスが特に優れています。 NLPEC (英語/中国語) および SciQ データセットでは、LLama 2-13B と ChatGLM-6B はどちらも優れたパフォーマンスを示しています。注目すべきは、異なる少数ショット設定において、一部のモデルのパフォーマンスは向上するが、他の一部のモデルのパフォーマンスは低下するということです。これは、 (1) すべてのモデルが少数ショット設定と組み合わせた場合に必ずしもパフォーマンスが向上するわけではないこと、(2) 少数ショットインスタンスの数が増えても必ずしもパフォーマンスが向上するわけではないことを示しています。

さらに、2 つのプロンプト ワード設定の結果を比較すると、Stanford Alpaca-7B、Vicuna (FastChat) 13B、StableLM-Tuned-Alpha-7B、Databricks Dolly-v2-7B などの一部のモデルでは、モデルのデフォルトのシステム命令を使用した場合にパフォーマンスが向上することがわかりました。これらのモデルは命令キューに非常に敏感であり、これらの命令を効果的に使用して出力を最適化できます。ただし、BELLE-7B など、この設定では大幅な性能向上が得られず、むしろ性能が低下するモデルもあります。

実験結果から、小規模なモデル (6B、7B、13B など) は一部のタスクでは優れたパフォーマンスを発揮しますが、データセット全体でのパフォーマンスはまだ限られており、100% または 50% の精度に到達するにはまだ長い道のりがあることがはっきりとわかります。これらのモデルの主な制限要因はパラメータの数であり、これは処理能力と一般化パフォーマンスに直接影響します。

主な課題と開発の方向性

上記の全体的な調査と広範な実験検証に基づいて、今後の注目すべき開発の方向性もいくつか提案しました。

1. より効率的なモデル アーキテクチャと軽量な方法を検討するなど、モデル サイズとパフォーマンスのバランスを実現します。

2. データ利用の効率を改善し、データ収集と注釈付けのコストを削減する。

3. モデルの解釈可能性を高める。

4. モデルのセキュリティとプライバシーを向上させる。

5. より詳細でユーザーフレンドリーな説明。

<<: 

>>:  llama2.mojo は llama2.c より 20% 高速です。最も新しい言語 Mojo が開発者コミュニティを驚かせています

ブログ    
ブログ    
ブログ    

推薦する

ニューロンクラスタリングはAIの学習戦略をシミュレートできる

人間や機械がタスクをよりうまく実行できるようになるたびに、証拠の痕跡が残ります。パフォーマンス向上の...

なぜ今でもMocha DHT-PHEVのような電源ソリューションが必要なのでしょうか?

2021年、国内の新エネルギー乗用車市場はチップ不足や電池原材料価格の高騰など予想外の事態に見舞わ...

AIチップアーキテクチャは最先端へ向かう

企業は、AI をエッジに押し上げるための最適な武器として、さまざまなチップ アーキテクチャを採用しよ...

人工知能と機械学習はエンタープライズアーキテクチャの一部となっている

これはおそらく、世界的なCOVID-19パンデミックによるものか、あるいはコンピューティング能力の継...

2019年にロボット競争は減速するでしょうか?

[[253005]] 「中国製造2025」の実施に伴い、ロボット産業は社会への参入を加速し始めてい...

人工知能ネットワークが教育に与える影響を探る

教育業界は、テクノロジーの継続的な進歩によって大きなパラダイムシフトを経験しています。人工知能(AI...

アメリカのAI企業の優位性を打ち破り、AI数学オープンソースモデルでアベルが1位に

ChatGPTに代表される大型モデル製品は新たな産業革命を先導し、国内外の機関が関連技術研究に積極的...

段階的な自動運転は後から追いつくことができるか?

自動運転の何十億ドルもの利益の一部を欲しがらない人はいないだろう。最近、SAIC傘下のXiangda...

生成 AI 規制: 「ディープフェイク技術」は大規模言語モデルの自由意志を実証するか?

特定のスタイルの生成 AI プロンプトを与えるということは、AI に想像力を働かせてほしいということ...

5GとAIの強力な組み合わせは、どのような新たな機会をもたらすのでしょうか?

[[261281]]新興技術への投資家として、私は既存の市場を改善したり、新しい市場を創出したりで...

脳をシミュレートする NLP、クヌース賞受賞: 文解析のためのニューロン集団計算

[[402907]]先週、Google Research はディープラーニングにおける概念理解に関す...

ワークステーションはクライアント側の大規模モデルの「幸せな家」です

MacでSiriを呼び出したことがありますか?とにかく一度も合格していない。 AIの世界では「ベテラ...

レポート予測:Appleは2020年にSiriオペレーティングシステムをリリースする

[[271210]]海外メディアの報道によると、マングローブ・キャピタル・パートナーズは今週、201...

グラフィカルな説明 | RSAアルゴリズムとは

[[339878]]この記事はWeChatパブリックアカウント「Backend Technology...