5400億パラメータの大規模モデル進化ツリーが大幅に更新されました！最も詳細なプロンプトスキルを備えた85ページのLLM開発履歴

4月にリリースされるや否や開発者コミュニティで話題となった大規模言語モデルの概要が更新されました！

これまで、人民大学やその他の機関の多くの研究者が、背景知識、主要な発見、主流の技術の観点から大規模言語モデルの進歩をレビューし、特に大規模言語モデルの事前トレーニング、適応チューニング、使用、および機能評価に重点を置いてきました。

最近、研究者らはこれらの研究を更新しました。今回のアップデートでは、34 ページ以上の新しいページと 200 以上の新しい参照が追加されました。含まれるもの: - 新しい論文 (LLaMA シリーズ) - 新しい章 (LLM 向けの複雑なタスク計画など) - 26 個の便利なプロンプト - 特定のタスクに対する 8 つの LLM 能力の実証的評価

論文アドレス: https://arxiv.org/abs/2303.18223

LLMクロニクル

下の図は、近年の 100 億を超える大規模言語モデルのタイムラインです。

このうち、タイムラインは主にモデルの技術論文の発行日に基づいて作成されます。

写真

読みやすくするために、チームは LLM と手動校正を通じて調査レポートの中国語版 (v4) も作成しました。

著者注: この記事は許可なくいかなる形式でも転送またはコピーすることはできません。

LLM開発の概要（arXivにおけるLLM関連論文の動向）

このアップデートには、arXiv 上の LLM 関連論文数の傾向が含まれています。

以下は、キーワード「言語モデル」（2018年6月以降）と「大規模言語モデル」（2019年10月以降）を含むarXiv論文数の推移です。

写真

統計は、月ごとにタイトルまたは要約内のキーワードの完全一致を照会することによって計算されます。

学術界は言語モデルの調査を非常に早い段階で開始したため、研究者はこれら 2 つのキーワードに異なる X 軸の範囲を設定しました。

図には、LLM 研究の進展における重要なマイルストーンに対応するポイントをマークしています。

ChatGPT のリリース後、論文数は劇的に増加し、キーワード「大規模言語モデル」を含む arXiv 論文の 1 日あたりの平均公開数は 0.40 から 8.58 に増加しました。

LM研究開発段階

LM は、生成される単語シーケンスの可能性をモデル化し、将来の（または欠落した）トークンの確率を予測することを目的としています。

LM の研究は、主に 4 つの開発段階に分けられます。

-統計言語モデル（SLM）

SLM は、1990 年代に登場した統計学習手法に基づいて開発されました。基本的な考え方は、マルコフ仮定に基づいて単語予測モデルを構築することです。たとえば、最近のコンテキストに基づいて次の単語を予測します。

固定コンテキスト長 n を持つ SLM は、バイグラム言語モデルやトライグラム言語モデルなどの n グラム言語モデルとも呼ばれます。

SLM は、タスクのパフォーマンスを向上させるために、情報検索 (IR) と自然言語処理 (NLP) で広く使用されています。しかし、高次言語モデルは次元の呪いに悩まされることが多く、指数関数的な数の遷移確率を推定する必要があるため、正確に推定することが困難です。

-ニューラル言語モデル (NLM)

NLM は、ニューラルネットワーク (リカレントニューラルネットワーク (RNN) など) を使用して、単語シーケンスの確率を表します。NLM の最も重要な貢献は、単語の分散表現の概念の導入と、分散単語ベクトルを条件とする単語予測関数の構築です。

分散単語表現を学習するための単純化された浅いニューラルネットワークを構築するために、word2vec が提案され、非常に効果的であることが証明されました。

-事前学習済みモデル（PLM）

ELMo は双方向 LSTM ネットワークを事前トレーニングし、その後、特定の下流タスクに応じてネットワークを微調整します。

さらに、BERT は、自己注意メカニズムを備えた高度に並列化された Transformer アーキテクチャに基づいて提案されました。 NLP タスクのパフォーマンス基準が大幅に向上しました。

-大規模言語モデル（LLM）

多くの研究では、175B パラメータの GPT-3 や 540B パラメータの PaLM などのより大きな PLM をトレーニングすることでパフォーマンスの限界を調査しており、さまざまな複雑なタスクを解決する驚くべき能力を示しています。

たとえば、GPT-3 はコンテキスト学習を通じて少数ショットのタスクを解決できますが、GPT-2 はうまくいきません。

GPT-4 はすでに AGI の初期バージョンと見なされています。

LLMの新たな能力

LLM の出現能力は、小規模モデルには存在しないが大規模モデルに現れる能力として定義されます。これは、LLM を以前の PLM と区別する最も重要な機能の 1 つです。

具体的には以下が含まれます:

- 文脈学習

GPT-3 は、コンテキスト学習機能を正式に導入します。言語モデルに自然言語の指示と複数のタスクの説明が提供されていると仮定すると、追加のトレーニングや勾配の更新を必要とせずに、入力テキストの単語シーケンスを完成させることで、テストインスタンスの予想される出力を生成できます。

175B ベースの GPT-3 は全体的に強力なコンテキスト学習機能を示しましたが、GPT-1 と GPT-2 のパフォーマンスは低かったです。

-従うべき指示

自然言語記述でフォーマットされたマルチタスクデータセットの混合を微調整することにより (命令チューニングと呼ばれる)、LLM は命令形式で記述された目に見えないタスクでも優れたパフォーマンスを発揮します。

LLM は表示されたサンプルを使用せずに新しいタスクの指示に従うことができるため、一般化能力が向上します。

- ステップバイステップの推論

数学の文章題など、複数の推論ステップを伴う複雑なタスクは、小規模な言語モデルでは解決が難しいことがよくあります。

対照的に、思考の連鎖 (CoT) プロンプト戦略を通じて、LLM は中間推論ステップを含むプロンプトメカニズムを使用して最終的な答えを導き出すことで、このようなタスクを解決できます。

おそらく、この能力はコードのトレーニングを通じて獲得できると考えられます。

LLMの主要技術

ここでは、LLM の成功に（潜在的に）つながる重要なテクニックをいくつか紹介します。

- ズーム

Transformer 言語モデルには明らかなスケーリング効果があり、モデル/データのサイズが大きく、トレーニングが増えると、モデル容量が増加します。

GPT-3 ではモデルパラメータが 1,750 億に増加し、PaLM ではモデルパラメータが 5,400 億に増加し、どちらもスケーリングの限界を探りました。

スケーリング則を活用することで、コンピューティングリソースのより効率的な割り当てを実現できます。

-電車

LLM のネットワークパラメータを学習するには、その規模が巨大であるため、さまざまな並列戦略を共同で使用して分散トレーニングアルゴリズムが必要です。

分散トレーニングをサポートするために、並列アルゴリズムの実装と展開を容易にする DeepSpeed や Megatron-LM などの最適化フレームワークがリリースされています。

- 能力刺激

大規模なコーパスで事前トレーニングを行った後、LLM は一般的なタスクを解決する可能性を備えています。

ただし、これらの能力は、特定のタスクを実行するときに必ずしも発揮されるとは限りません。

したがって、LLM のこれらの能力を刺激するために、思考連鎖プロンプトなどの適切なタスク指示または特定の文脈学習戦略を設計する必要があります。

-アライメントの微調整

LLM のトレーニングに使用されるコーパスの品質は大きく異なるため、人間にとって有害、偏った、あるいは有害なテキストコンテンツが生成される可能性が高くなります。

これらを人間の価値観と一致させるために、InstructGPT は強化学習と人間のフィードバックを活用して LLM が意図した指示に従えるようにする効率的なチューニング方法を設計します。

ChatGPT は同様の技術に基づいて開発されています。

-ツールの活用

LLM は数値計算タスクのパフォーマンスが低く、事前トレーニングデータによって制限されます。

そのため、それを補うために、計算機、検索エンジン、外部プラグインなどの外部ツールが必要になります。

GPTシリーズモデルの技術的進化

研究者たちは、主に OpenAI の論文、ブログ投稿、公式 API に基づいて、この GPT シリーズのモデルの技術的進化図を再描画しました。

図では、実線は 2 つのモデル間に明確な証拠がある進化の経路 (新しいモデルが基本モデルに基づいて開発されたという公式声明など) を表し、破線は比較的弱い進化関係を表します。

写真

研究者らは、GPT モデルファミリの技術的進化について議論し、過去数年間の進歩をまとめました。

次の表は、近年の大規模言語モデル（100 億以上）の統計（容量評価、事前トレーニングデータの規模（トークン数またはストレージサイズ）、ハードウェアリソースのコストなど）を示しています。技術的な詳細が公開されている論文を持つ LLM のみが含まれます。

写真

LLaMA ファミリーの進化図

また、今回はLLaMAの研究活動の進化図も更新されました。

数が多いため、この図には LLaMA のすべてのバリエーションが含まれていますが、その中には優れた作品も多数あります。

写真

LLaMA モデルは 2023 年 2 月に Meta AI によってリリースされ、7B、13B、30B、65B の 4 つのサイズが含まれています。

LLaMA はリリース以来、学界や産業界から幅広い注目を集めています。これらはさまざまなオープンベンチマークで優れたパフォーマンスを達成し、今日最も人気のあるオープンソース言語モデルとなっています。

計算コストが低いため、構造調整された LLaMA は、カスタムモデルまたは独自のモデルを開発するための主要なアプローチになっています。

LLaMA ファミリーには、Stanford Alpaca、Koala、BELLE が含まれます。

別の人気のある LLaMA バリアントである Vicuna に基づいて、LLaVA、MiniGPT-4、InstructBLIP、PandaGPT などが登場しました。

つまり、LLaMA のリリースにより、LLM の研究の進歩が大きく促進されました。

ヒント

チームは、オンラインメモや著者の経験からデザインのヒントに関する有用な提案をいくつか収集し、関連する要素と原則を提示しました。

4つの原則は次のとおりです。

1: タスクの目的を明確に表現する。

2: タスクをわかりやすい詳細なサブタスクに分割します。

3: いくつかのサンプル例を挙げます。

4: モデルに適した形式を使用します。

写真

タスクの説明

T1. プロンプトをできるだけ詳細に記述します。たとえば、「記事を 50 語以内で要約してください。メインプロットと結論を含め、重要でない詳細は省略してください。」 (1)

T2. 事前に設定されたプロンプトを使用して、LLM に自分が専門家であることを知らせます。たとえば、「あなたはコンピュータサイエンスの分野で上級の専門家です。」 (1)

T3. モデルに、何をすべきでないかではなく、何をすべきかを詳しく伝えます。（１）

T4. LLM が長すぎる出力を生成するのを避けるには、「質問: 短い回答:」というプロンプトのみを使用できます。さらに、「数語または 1 ～ 2 文で答えてください」という接尾辞を使用することもできます。（１）

入力データ

I1. 事実に関する知識を必要とする質問の場合、まず検索エンジンで関連文書を検索し、それを参考資料としてプロンプトに挿入します。（4）

I2. プロンプトの重要な部分を強調するには、引用符 ("") や改行 (\n) などの特殊記号を使用します。強調するためにこれらを一緒に使用することもできます。（4）

コンテキスト情報

C1. 複雑なタスクの場合、タスクを完了するために必要な中間ステップを明確に説明できます。たとえば、「質問にステップごとに回答してください。ステップ 1: 問題をいくつかのサブ質問に分割します...」（２）

C2. LLM にテキストを採点してもらいたい場合は、採点基準の詳細な説明と参考例を提供する必要があります。（１）

C3. LLM が特定のコンテキストに基づいてテキストを生成する場合 (例: 購入履歴に基づいて推奨事項を作成する)、生成された結果に関連するコンテキストを解釈することで、生成されたテキストの品質を向上させることができます。（２）

数ショットの例

D1. 適切にフォーマットされた文脈的な例は、特に形式が複雑な出力の場合に、LLM をガイドするのに役立ちます。（３）

D2. 数ショット連鎖プロンプトには、「ステップごとに考えてみましょう」を使用できます。数ショットの例は、ピリオドではなく「\n」で区切る必要があります。（１）（３）

D3. コンテキスト内の類似の例を検索して、LLM に有用なタスク固有の知識を提供できます。より関連性の高い例を検索するには、まず質問に対する回答を取得し、次に検索のために質問に関連付けます。（３）（４）

D4. 文脈上の例の多様性も有用である。多様な問題を得るのが難しい場合は、問題に対する多様な解決策を維持するようにしてください。（３）

D5. 会話ベースの LLM を使用する場合、コンテキストの例をマルチターンの会話メッセージに分解して、人間とボットの会話の形式により適合させることができます。同様に、例の推論プロセスは、複数の対話ラウンドに分解できます。（３）

D6. 複雑で有益な文脈上の例は、LLM が複雑な質問に答えるのに役立ちます。（３）

D7. 記号シーケンスは通常、複数の段落に分割できるため（例：i1、i2、i3 → i1、i2 および i2、i3）、前の段落を文脈例として使用して、LLM が履歴情報を提供しながら後続の段落を予測できるようにすることができます。（２）（３）

D8. 文脈例とプロンプト構成要素の順序は重要です。入力データが非常に長い場合、質問の場所 (最初または最後) もパフォーマンスに影響する可能性があります。（３）

D9. 既存のデータセットからコンテキスト例を取得できない場合は、LLM 自体によって生成されたゼロショット例を使用するという選択肢もあります。（３）

他の

O1. 結論を導き出す前に、LLM が生成した結果をチェックします。たとえば、「上記の解決策が正しいかどうかを確認します。」（２）

O2. LLM がタスクをうまく解決できない場合は、LLM に外部ツールを使用するように指示できます。この時点で、ツールは呼び出し可能な API としてカプセル化され、LLM がツールをより適切に利用できるようにその機能の詳細な説明が提供される必要があります。（4）

O3. プロンプトは自己完結型である必要があり、できれば文脈からの代名詞情報（例：it および they）を含めないでください。（１）

O4. LLM を使用して 2 つ以上の例を比較する場合、順序はパフォーマンスに大きな影響を与えます。（１）

O5. LLM にプロンプトを出す前に役割を割り当てると、たとえば「弁護士役を演じてほしい」といった後続のタスク指示をより適切に完了できるようになります。（１）

O6. OpenAI モデルは、英語のタスクでは他の言語よりも優れたパフォーマンスを発揮します。したがって、まず入力内容を英語に翻訳し、次に LLM に翻訳すると役立ちます。（4）

O7. 複数選択問題の場合、LLM出力スペースが制限されることがあります。たとえば、より詳細な説明を使用したり、ロジスティック回帰にのみ制約を追加したりします。（１）

O8. ソートベースのタスク（推奨など）では、ソートされた各項目の全文を直接出力するのではなく、ソートされていない項目にコード（ABCDなど）を割り当て、ソートされたコードを直接出力するようにLLMに指示します。（１）

さらに、研究者らは、多くの一般的なタスクを解決するプロンプトの具体的な例を示しています。

これらのタスクプロンプトのほとんどは既存の論文からのものであり、実験では ChatGPT に基づいたプロンプトを使用します。

写真

複雑なミッション計画

複雑なミッション計画は、ミッションプランナー、計画実行者、環境という 3 つのコンポーネントに要約できます。このパラダイムは、次の 3 つの側面から説明できます。

> 計画の作成 > フィードバックの収集 > 計画の改良

写真

実験

指示の微調整

チームは、LLM を微調整する際のさまざまな種類の命令の影響を調査し、いくつかの命令改善戦略の有効性をテストしました。

以下は、チャットと質問応答の設定における LLaMA-7B モデルに基づく指示調整実験の結果です (すべての実験は 1 ラウンドの対話です)。

その中で、Self-Instruct-52K データセットの 4 つの命令改善戦略、すなわち、複雑さの増加 (複雑さ戦略を使用)、多様性の増加 (多様性戦略を使用)、難易度のバランス調整 (難易度戦略を使用)、および命令数の増加 (スケーリング戦略を使用) が採用されました。

写真

能力評価

チームは、LLM の 8 つの機能の詳細な評価を実施しました。

オレンジと青のフォントカラースケールは、それぞれクローズドソースモデルとオープンソースモデルの結果のパフォーマンス順序を表します。

写真

>>: 10000000000！マイクロソフトはTransformerを改良し、一度に多くのトークンを記憶できるようにした

[ホワイトベアおもしろ事実4] パーフェクトワールド：ペットの犬にはロボットがいて、独身の犬にはバーチャルガールフレンドがいる