ChatGPTの背後にある技術的進化を分析する

1. 自然言語理解と言語モデル

1.1 自然言語処理

自然言語処理 (NLP) は人工知能 (AI) の分野です。これにより、コンピュータは人間の言語を理解、生成、処理できるようになり、機械言語と人間の言語の間にコミュニケーションの架け橋を構築して、人間とコンピュータのコミュニケーションの目的を達成できます。言語学、コンピュータサイエンス、人工知能などの学際的な科目が関係します。

NLP の主な開発の歴史を振り返ると、大きく 3 つの段階に分けられます。

1980 年代以前の人工知能は、主にルールベースの言語システムに基づいていました。
1980 年代以降、機械学習の台頭とニューラルネットワークの導入により、NLP は急速に発展し、商業化されました。
2017 年以降、Attention メカニズムに基づいて構築された Transformer モデルは、大規模言語モデルの時代を切り開きました。

自然言語処理

NLP は、自然言語理解 (NLU) と自然言語生成 (NLG) の 2 つの部分に分けられます。

自然言語理解 (NLU) とは、機械が人間のように言語を理解できるようにすることです。しかし、自然言語の理解には多くの困難 (多様性、曖昧さ、知識の依存性、言語のコンテキストなど) があるため、NLU は依然として人間のパフォーマンスにはるかに劣っています。

自然言語生成 (NLG) は、非言語データを記事やレポートなどの人間が理解できる言語形式に変換することで、人間と機械の間のコミュニケーションギャップを埋めるように設計されています。

自然言語処理は、コンピュータサイエンスと人工知能の分野における重要な方向性であり、「人工知能の至宝」として知られています。

NLP分野の世界的マスター

自然言語処理は近年急速に発展しており、特に2017年にTransformerが導入されて以来、NLPの分野で広く使用され、良好な成果を上げています。実際、人間は脳が言語のあいまいな認識や論理的判断をどのように行うかをまだ理解していないため、NLP が画期的な進歩を遂げるにはまだまだ長い道のりが残っています。

NLPテキスト処理のさまざまな難しさ

1.2 言語モデル

2. 言語モデルの進化

言語モデルの研究パラダイムは、ルールから統計へ、統計的機械学習からニューラルネットワークに基づくディープラーニングへと変化してきました。これは、自然言語処理（NLP）の発展の歴史でもあります。

言語モデルの開発と進化

2.1 統計言語モデル

言語モデルの連鎖定義式から判断すると、関係するパラメータの数が膨大であるため、条件付き確率を計算するのは困難です。その後、大きなパラメータ空間の問題を解決するためにマルコフ仮定が導入されました。単語の共起の長さを考慮して、N-gram ML は次のように定義されます。

Nが大きい場合:

より多くのコンテキスト情報を提供し、コンテキストはより識別的になります。
パラメータが多く、計算コストが高く、大量のトレーニングコーパスが必要であり、パラメータ推定が信頼できない。

Nが小さい場合:

文脈情報はほとんどなく、文脈は識別的ではありません。
パラメータが少なく、計算コストが低く、必要なトレーニングコーパスが少なく、パラメータ推定が信頼できます。

パープレキシティは N の変化に応じて変化します。N が大きいほど、パラメータの大きさは指数関数的に増加し、パープレキシティは小さくなります。

2.2 ニューラルネットワーク言語モデル

NNLM モデル構造:

ニューラルネットワーク言語モデル構造図

これは、マルコフ仮定、つまり固定長の履歴単語を継承します。
単語は低次元空間にマッピングされ、次元の呪いの問題が解決されます。
単語の一般化能力の向上（類似性、類推など）

類似性: 「映画」、「フィルム」、「ビデオ」という言葉は意味が似ています。
類推：「中国」＋「北京」＝「日本」＋「東京」

3層構造：単語埋め込み層、隠れ層、出力層。

欠点:

固定長の履歴、長期的な依存関係が欠落しています。

さらに、NNLM の登場は直接的に単語ベクトル化ツール word2vec の誕生につながり、単語ベクトル化の段階に入りました。自然言語で表現された単語をコンピュータが理解できるベクトル形式に変換する技術です。単語ベクトルが取得されると、ベクトル間の類似性を使用して単語間の意味的関連性を測定するなど、さまざまなベクトルベースの計算を実行できます。これは、同じ文脈に現れる単語は同様の意味を持つはずだという分布仮定に基づいています。単語埋め込みにも限界があります。例えば、フレーズを分散的に表現することが難しく、多義語の問題を解決できません。さらに、Word Embedding はアプリケーションシナリオに大きく依存するため、特殊なアプリケーションシナリオでは再トレーニングが必要になる場合があり、多くの時間とリソースが消費されます。

word2vecのネットワーク構造はNNMLと似ていますが、対象単語と文脈の予測という点では、CBOW（文脈情報→中間単語）モデルとSkip-gram（中間単語→文脈情報）モデルの2種類に分かれます。

Word2vecの技術的原理

2.3 ランダムニューラルネットワーク

リカレントニューラルネットワーク (RNN) は、シーケンスデータを入力として受け取り、シーケンスの進化の方向に再帰を実行し、すべてのノード (リカレントユニット) がチェーン状に接続されるタイプのネットワーク構造です。

RNN ネットワーク構造図

RNN 設計は、ニューラルネットワーク言語モデルの制限を打ち破ります。フィードフォワードニューラルネットワークや N グラムのように各単語が前の単語にのみ依存するのではなく、単語の意味情報は単語とそのコンテキスト情報によって決定されると考えられているため、フィードフォワードニューラルネットワーク言語モデルのパフォーマンスが制限されます。

欠点:

勾配の消失または爆発（多段階偏微分乗算による）

RNN は、音声認識、言語モデリング、機械翻訳などの自然言語処理タスクに応用されており、さまざまな時系列予測にも使用されます。

2.4 LSTM

長短期記憶 (LSTM) は、その名前が示すように、長期および短期の情報を記憶する能力を持つニューラルネットワークです。 1997 年に Hochreiter と Schmidhuber によって提案された LSTM は、2012 年にディープラーニングが台頭した後、専門家によって数世代にわたる反復を経て、比較的体系的で完全な LSTM フレームワークを形成し、多くの分野で広く使用されるようになりました。

LSTM の目的は、前述の RNN の長期依存性の問題を解決し、長いシーケンスのトレーニング中に発生する勾配消失および勾配爆発の問題を解決することです。通常の RNN と比較して、LSTM はより長いシーケンスでより優れたパフォーマンスを発揮します。 RNN モデルの構造から判断すると、単語数が増えるにつれて、以前のより長い時間スライスの特徴がカバーされるようになります。その結果、RNN は遠く離れた情報を接続するための学習能力を失います。長期依存性の理由は、ニューラルネットワークのノードが多くの計算段階を経た後に特徴情報がカバーされるためです。

例えば、 「今朝、小李は面白い授業活動に参加しました。そこには面白い友達がたくさんいました。彼らは勉強や人生についておしゃべりし、一緒に踊ったり歌ったりしました。彼はとても幸せを感じました。」「彼」は「小李」を指します。単語間の距離が長いため、「小李」の意味情報は減衰しており、「小李」と「彼」には長い依存関係の問題があります。

LSTM の中核はセル状態であり、これは忘却ゲート、入力ゲート、出力ゲートの 3 つのゲートメカニズムによって制御されます。 LSTM はゲートメカニズムを通じて特徴の流れと損失を制御します。

LSTM ネットワーク構造は次のとおりです。

LSTMネットワーク構造図

忘却ゲート: LSTM の最初のステップは、セル状態で破棄する必要がある情報を決定することです。この操作部分は、忘却ゲートと呼ばれるシグモイドユニットによって処理されます。情報を合計して 0 から 1 までのベクトルを出力します。ベクトル内の 0 から 1 の値は、セル状態のどの情報が保持され、どれだけが破棄されるかを表します。 0 は保持しないことを意味し、1 はすべてを保持することを意味します。忘却ゲートを下の図に示します。

LSTM-忘却ゲート

入力ゲート:セルの状態を更新するために使用されます。まず、前の隠し状態と現在の入力がシグモイド関数に渡されます。これは、値を 0 から 1 に変換することによって、どの値を更新するかを決定します。 0 は重要ではないことを意味し、1 は重要であることを意味します。隠れ状態と現在の入力も tanh 関数に渡され、ネットワークの調整を助けるためにそれらを -1 と 1 の間で圧縮します。次に、シグモイド出力に tanh 出力を掛けます。次の図に示すように:

LSTM入力ゲート

出力ゲート:出力ゲートは、次の隠し状態が何になるかを決定します。隠れ状態は予測にも使用されます。まず、前の隠し状態と現在の入力がシグモイド関数に渡されます。新しいセルの状態は tanh 関数に渡されます。 tanh 出力はシグモイド出力と乗算され、隠れ状態が運ぶべき情報を決定します。その出力は隠し状態です。新しいセル状態と新しい隠し状態が次のタイムステップに渡されます。次の図に示すように:

LSTM出力ゲート

欠点:

シーケンスが非常に長い場合、LSTM のパフォーマンスは依然として理想的ではありません。
非効率的な計算。

LSTM 長短期ニューラルネットワークの主な用途は次のとおりです。

テキスト生成: いくつかの接頭辞が与えられた場合に適切なテキストを生成するように言語モデルをトレーニングします。
音声認識：話者の声を認識でき、話者のスピーチを認識することもできます。
機械翻訳: ある言語を別の言語に翻訳できる seq2seq 翻訳モデル。
時系列予測: 株価、天気予報などの時系列データを予測します。

2.5 エルモ

Word Embedding の代表的な例である Word2vec は、本質的に静的な単語ベクトルです。つまり、単語の意味はトレーニング後に固定され、コンテキストシナリオの変化によって変化しません。この問題を解決するために、ELMO (言語モデルからの埋め込み) トレーニングスキームが登場しました。 ELMO は典型的な 2 段階のプロセスを採用しています。第 1 段階では、言語モデルを使用して事前トレーニングを行います。第 2 段階では、事前トレーニングされたネットワークから、単語に対応するネットワークの各層の単語埋め込みを新しい特徴として抽出し、下流タスクを実行するときに下流タスクを補完します。二重層の双方向 LSTM ネットワーク構造とコンテキストを導入する ELMo を追加して単語の埋め込みを動的に調整することで、多義性の問題が解決されます。さらに、ELMo は事前トレーニングのメカニズムを初めて提案しました。

ELMoモデル構造図

損失関数:

損失関数は、順方向 LSTM 言語モデルの損失関数と逆方向 LSTM 言語モデルの損失関数の合計の 2 つの部分で構成されます。単語の意味情報は、単語とそのコンテキスト情報によって決定されると考えられています。

動的単語ベクトルの導入により、多義語の問題は大幅に改善されました。
たとえば、 「私は正午にリンゴを食べました」と「私は先週iPhoneを購入しました」の「リンゴ」という単語は同じ単語ですが、意味が異なります。
事前トレーニングの概念は以前に提案されました。

欠点:

特徴抽出能力が乏しい。ELMo は当時提案されていた Transformer ではなく LSTM を使用しています。Transformer の特徴抽出能力は LSTM よりもはるかに優れています。
長いトレーニング時間;

2.6 トランスフォーマー

Transformer は、シーケンスデータを処理するために Google が提案した自己注意メカニズムに基づくニューラルネットワークモデルです。自然言語処理では、シーケンスデータの入力には、一連のテキスト、音声信号、画像、ビデオなどが含まれます。従来のリカレントニューラルネットワーク (RNN、LSTM) モデルはこれらのタスクで良好な結果を達成していますが、このモデルには 2 つの主な問題があります。1 つ目は、計算を並列化することが難しく、長いトレーニング時間を必要とすること、2 つ目は、長距離の依存関係をキャプチャすることが難しいことです。これらの問題を解決するために、Transformer モデルが誕生しました。

2017年、Google Machine Translationチームは「Attention is All You Need」という古典的な著作を発表しました。この著作では、RNNやCNNなどのネットワーク構造を完全に放棄し、Attentionメカニズムのみを使用して機械翻訳タスクを実行し、非常に優れた結果を達成しました。その後、Attentionメカニズムは研究と応用の分野でもホットな話題になりました。

トランスフォーマーの古典論文: 必要なのは注目だけ

Transformer を紹介する前に、まず Attention メカニズム、Self-Attention、残差ネットワークについて理解しましょう。

2.6.1 注意メカニズム

2014年、ベンジオのチームはAttentionメカニズムを提案し、これは後にディープラーニングのさまざまな分野で広く使用されるようになりました。たとえば、コンピュータービジョンで画像の受容野を捉えたり、NLP で重要なトークンや特徴を特定したりするために使用され、その後の BERT および GPT シリーズモデルは、その後の NLP タスクで最先端の結果を達成しています。

注意メカニズムの計算プロセス:

Attention メカニズムの計算ロジックは、大きく分けて 3 つのステップに分かれています。

利点:

並列計算が可能。
長期的な依存関係の制限がある RNN とは異なり、グローバル接続とローカル接続を 1 つのステップで取得します。
パラメータが少なく、モデルの複雑さが低い。

欠点:

位置情報を捉えることができず、つまり、シーケンス内の順序関係を学習することができず、これがその後の位置埋め込みの出現の基礎となりました。

Transformer では、Self-Attention メカニズムが使用されます。 Attention メカニズムでは、Q=K=V の場合、それは Self-Attention であり、主に入力データのさまざまな部分間の関連性を反映します。

2.6.2 残差ネットワーク（ResNet）

ディープネットワークの学習では、ネットワークが深くなるほど、より多くの情報が得られ、より豊富な機能が得られます。しかし、現実にはネットワークが深くなるにつれて最適化の効果が悪くなり、テストデータやトレーニングデータの精度が低下します。これは、ネットワークが深くなると、勾配爆発や勾配消失の問題が発生するためです。この問題を解決するために、Microsoft Labs の He Kaiming 氏らは 2015 年に ResNet ネットワークを提案しました。このネットワークは問題を軽減し、その年の ImageNet コンテストで分類タスクとオブジェクト検出でそれぞれ 1 位を獲得しました。 COCOデータセットにおけるオブジェクト検出と画像セグメンテーションで1位を獲得しました。

残差ネットワークは最適化が容易で、深さを増やすことで精度を向上させることができます。その内部の残差ブロックはスキップ接続を使用して、ディープニューラルネットワークの深さを増やすことによって発生する勾配消失の問題を軽減します。ネットワーク構造は次のとおりです。

残余ネットワーク構造

残差ネットワークの出力 = 直接マッピング部分 + 残差部分

なぜそれが機能するのか?
「広く浅く」

「狭く深い」ため、勾配消失を回避するためにネットワークの最適化が必要です。
残差接続により情報の伝播がスムーズになり、勾配消失問題が解決されます。
アンサンブルモデル、分散の低減。

2.6.3 位置埋め込み

Transformer での位置埋め込みの役割は、シーケンスモデルに単語の位置情報を導入して、モデルがシーケンス内の単語の順序と位置関係をよりよく理解できるようにし、モデルのパフォーマンスと精度を向上させることです。

Transformer では、絶対位置エンコーディングである Sinusoidal Position Embedding が使用されます。利点は、エンコーディングが単純で、パラメータ空間を占有しないことです。欠点は、最大入力長が制限されることです。絶対位置エンコーディングの欠点を考慮して、相対位置エンコーディング (Bert で適用) と回転位置エンコーディング (RoFormer で適用) がその後導入されました。

位置エンコーディング:

絶対位置エンコーディング: 正弦関数 (sin/cos)。モデルパラメータとともに学習および更新されません。
相対位置エンコーディング: 位置 ID の埋め込みエンコーディングは、勾配トレーニングとともにモデルパラメータで学習されます。
回転位置エンコーディング：RoPE などは、絶対位置エンコーディングと相対位置エンコーディングの利点を組み合わせます。

2.6.4 変圧器の原理

従来の再帰型ニューラルネットワーク (RNN) や畳み込みニューラルネットワーク (CNN) とは異なり、Transformer は入力シーケンスと出力シーケンスを処理するために自己注意メカニズムのみを使用します。このモデルには複数のエンコーダーとデコーダーの層が含まれており、各層は複数の注意メカニズムモジュールとフィードフォワードニューラルネットワークモジュールで構成されています。エンコーダーは入力シーケンスを高次元の特徴ベクトル表現にエンコードするために使用され、デコーダーはベクトル表現をターゲットシーケンスにデコードするために使用されます。複数の自己注意層とフィードフォワードニューラルネットワーク層を連続的に積み重ねることで、Transformer モデルを構築できます。 Transformer モデルでは、残差接続やレイヤー正規化などの手法も使用され、モデルの収束を加速し、モデルのパフォーマンスを向上させます。ネットワーク構造図は以下のとおりです。

トランスフォーマーエンコーダーおよびデコーダーモジュール

マルチヘッドアテンション

自己注意メカニズムの計算プロセスには、次の 3 つのステップが含まれます。

注目度の重みを計算する: 各ポジションと他のポジション間の注目度の重み、つまり各ポジションの他のポジションに対する重要度を計算します。
加重合計を計算します。各位置ベクトルに注目重みを掛けて合計し、加重合計ベクトルを取得します。
線形変換: 加重合計ベクトルを線形変換して最終出力ベクトルを取得します。

Transformer モデルのトレーニングでは、通常、教師なし事前トレーニングが採用され、その後に教師あり微調整が行われます。事前トレーニングプロセスでは、入力シーケンスの表現を学習することを目的として、通常、オートエンコーダーまたはマスクされた言語モデルがトレーニングに使用されます。微調整では、通常、教師ありトレーニングが使用されます。たとえば、機械翻訳タスクでは、並列コーパスがトレーニングに使用され、入力シーケンスからターゲットシーケンスへのマッピング関係を学習することが目標となります。

Transformer の Multi-Head Attention は複数の Self-Attention を連結したもので、複数の次元で単語間の相関係数の注意スコアをキャプチャできます。

Transformer モデルの欠点:

トレーニングにはより大きなデータセットが必要です。
計算の複雑さが高く、GPU などのより多くの計算リソースが必要になります。
解釈性が低い。

自然言語処理のタスクにおいて、Transformer モデルはテキストデータを処理する方法を真に変え、自然言語処理の発展を促進しました。Google の BERT や OpenAI の GPT シリーズなどのモデルは、Transformer を使用して特徴を抽出します。

2.7 バート

BERT は Bidirectional Encoder Representation from Transformers の略で、事前トレーニング済みの言語表現モデルです。従来の単方向言語モデルや 2 つの単方向言語モデルの浅い連結は、以前のように事前トレーニングには使用されなくなり、新しいマスク言語モデル (MLM) を使用して深い双方向言語表現が生成されることを強調しています。モデル構造図は以下のとおりです。

BERT モデル構造図

BERT入力構成

MLN は、前の文脈 + 次の文脈 -> 中間の単語を使用し、理解に焦点を当てます。一方、NSP は生成に焦点を当てます。
12 レイヤー、隠しトークン: 1024;
「深くて狭い」モデルは「浅くて広い」モデルよりも優れています。
事前トレーニングに双方向トランスフォーマーを使用して、深い双方向言語表現を生成し、コンテキストによってもたらされる豊富なセマンティクスをさらに探索します。
事前トレーニング後は、追加された出力層を微調整するだけで、さまざまな下流タスクで最先端のパフォーマンスを実現できます。
「事前トレーニング + パラメータの微調整」の研究パラダイムを開拓しました。

論文が発表された際、11のNLP（自然言語処理）タスクで新たな最先端の結果が達成され、特に機械読解力のトップレベルテストであるSQuAD1.1では、2つの測定指標すべてで人間を上回るという驚くべき結果を示したと述べられていたことは特筆に値します。

3. GPTシリーズモデルの紹介

ChatGPTはサークル内外で人気を博し、Weiboのホット検索にも登場しました。突然、長い間連絡を取っていなかった多くのクラスメートやさまざまな分野の友人から「挨拶」が送られてきました。ChatGPT とは何ですか? 実際、ChatGPT の成功は一夜にして起こったものではなく、OpenAI の 4 年以上にわたる継続的な努力とたゆまぬ追求の結果です。 2018 年の第 1 世代 GPT-1 から、GPT-2、GPT-3、InstructGPT、GPT-4、そして今日の GPT-4 に至るまで、すべてのステップが不可欠です。したがって、ChatGPT は偉大なイノベーションの産物ではなく、段階的なイノベーションの継続的な積み重ねの結果です。

GPTシリーズモデルの開発プロセス

3.1 GPT-1

2018 年 6 月、OpenAI は GPT モデルの最初のバージョンをリリースしました。GPT-1 は、Transformer の Decoder フレームワークの MaskSelf-attention メカニズムを使用しました。 GPT-1 のトレーニング方法は依然としてデータのラベル付けとモデルの微調整に依存しています。同時に、GPT-1 の言語一般化能力はまだ不十分です。そのため、GPT-1 は一般的な言語モデルというよりも、特定の言語タスクを処理するためのエキスパートモデルに近いと言えます。 GPT-1 のモデルトレーニングでは、2 段階のトレーニングモードを採用しています。第 1 段階では、事前トレーニングに教師なし学習を使用し、ラベルなしデータを使用して言語モデルを生成します。第 2 段階では、分類タスク、自然言語推論、意味的類似性、質問応答、常識的推論などの特定の下流タスクに応じて、モデルを手動で微調整します。したがって、以前の NLP モデルと比較すると、GPT-1 は実際には半教師あり学習言語モデルです。 GPT-1 は、自然言語推論、分類、質問応答、比較類似性などの複数の評価で以前のモデルを上回り、複数の言語タスクで優れた結果を達成しました。同時に、GPT-1 の言語一般化能力はまだ不十分であり、一般的な言語タスクを解決することはできません。現代の BERT モデルと比較すると、GPT-1 は能力の面で BERT より劣っています。

GPT-1 モデル構造

モデル構造:

12層トランスフォーマーデコーダー + 768次元隠しベクトル
オプティマイザー: Adam
トークン: 1024

損失関数:

利点:

特徴抽出器は、より長いメモリ情報を取得できる強力な Transformer を初めて使用します。
現在の情報に基づいて次の瞬間の情報を生成する自己回帰言語モデルは、自然言語生成タスク (NLG) に適しています。
事前トレーニング（教師なし）+ 微調整（教師あり）
GPT は、事前トレーニング済みの自然言語処理モデルの開発に新しいアイデアと方法を提供します。

デメリット

このモデルには一般化能力が欠けている。
微調整には大量のデータが必要であり、時間と労力がかかり、迅速に拡張することが困難です。
GPT-1 の最大の問題は、従来の言語モデルと同様に一方向であることです。

3.2 GPT-2

2019年2月、GPT-2が正式にリリースされました。GPT-1と比較すると、GPT-2はモデルの微調整を放棄し、大規模なデータを通じて直接事前トレーニングを実行することで、モデルが複数の言語タスクを解決する能力を持ち始め、より強力な一般化能力を備えた言語モデルを実現しました。これにより、モデルの汎用性も完全に発揮され始めました。 GPT-1 はこれまで特定のタスクで優れた結果を達成してきましたが、実際には、このタイプのモデルでは、単一の言語タスクに対して大量のラベル付きデータの使用とモデルの微調整が必要になるため、特定の言語タスクを解決するためにしか使用できません。 GPT-2 の一般化能力は、特別なトレーニングを必要とせずにモデルをさまざまなタスクに適用できるという事実に反映されています。これは、人間の脳が言語情報を処理するプロセスともより一致しています。人間の脳は小説を読んだりニュースを見たりすることができ、さまざまな言語処理タスクを実行でき、これらの能力は相互に関連しているからです。人間の脳が文章に関する情報を取得する場合、この情報は普遍的です。したがって、分類タスクだけでなく、質問応答や常識推論などのタスクにも使用できる普遍的な言語モデルが期待されます。

GPT-1とGPT-2のネットワーク構造の比較:

GPT-1とGPT-2のネットワーク構造の比較

モデルパラメータ

48層トランスフォーマーデコーダー + 1600次元隠しベクトル
オプティマイザー: Adam
辞書サイズ: 50257
トークン: 1024
レイヤー正規化は各自己注意の後に追加される
残差層の初期化値は 1/sqrt(N) でスケーリングされます。ここで、N は残差層の数です。

損失関数:

損失関数から、タスクの教師あり微調整損失部分を放棄する GPT-1 と比較して、損失関数は言語モデルの生成部分のみを対象としており、NLG に新たな章が開かれていることがわかります。

利点:

より多くのトレーニングコーパス。
ユニバーサルデザイン: モデルが実行すべきタスクを定義しないでください。モデルは実行する必要があるタスクを自動的に識別します。
ゼロショット学習の提案。

デメリット

モデル学習だけでは十分ではありません。人間の学習では大量のサンプルを必要とせず、徹底的な理解を達成することができます。
微調整はサポートされていません。

3.3 GPT-3

2020年5月、GPT-3が正式にリリースされました。GPT-3は、トレーニング方法にコンテキスト内学習を革新的に導入しました。つまり、モデルをトレーニングするときに、入力テキストに1つ以上の例を追加して、モデルが対応するコンテンツを出力するように誘導します。たとえば、「次の中国語を英語に翻訳してください：苹果=>apple;自然言語処理の発展の歴史」は、例付きの典型的な入力テキストです。インコンテキスト学習には、ゼロショット学習、ワンショット学習、少数ショット学習の 3 つのモードがあります。ゼロショットは例のないプロンプトのみを意味し、ワンショットは 1 つの例のみを意味し、少数ショットは複数の例を意味します。実際、表現の点ではゼロショットは人間の言語表現に近いです。インコンテキスト学習の利点は、標準化された言語テンプレートを入力し、人間の例や類推から学習することで、モデルの微調整やデータのラベル付け、特に大量のラベル付けデータには高い人件費がかかる必要がないことです。インコンテキスト学習の導入後、最終的な実際の結果から、GPT-3 は少数ショットでは非常に優れたパフォーマンスを発揮しますが、ワンショットとゼロショットの効果は十分ではありません。

GPT-3はFew-shotで優れたパフォーマンスを発揮する

GPT-3のパラメータ数はGPT-2に比べて2桁増加し、1750億に達します。処理前のデータセットの容量は45TBに達しており、まさに超大規模言語モデルとなっています。 GPT-3 は、多くの NLP タスク、特に機械翻訳、チャットの質問と回答、テキスト補完において、GPT-2 や他の言語モデルよりも優れたパフォーマンスを発揮します。同時に、膨大なパラメータとトレーニングデータのサポートにより、GPT-3 はより困難な NLP タスクを完了できるようになります。たとえば、GPT-3 はニュースレポートを生成したり記事を書いたりすることもできますが、機械が書いた記事と人間が書いた記事を区別するのは困難です。GPT-3 は、SQL クエリステートメント、React、または JavaScript コードの記述でも非常に優れたパフォーマンスを発揮します。 GPT-3の強力な機能の背後には、膨大な計算能力の消費があります。GPT-3の計算能力はBERTベースの数千倍です。OpenAIが公開したデータによると、GPT-3のトレーニングコストは1200万ドルを超えています。したがって、この段階では、大規模な言語モデルは徐々に巨人だけが参加できるゲームになっていることがわかります。

GPT-3 ネットワーク構造図:

GPT-3モデルネットワーク構造図

損失関数は次のとおりです。

事前トレーニング（教師なし）+微調整。
メタ学習 + パラメータモデルの追加。
注目度が低い;
迅速な学習、ワンショット
少数ショット;
代表的なモデル: Davinci、Curie、Babbage、Ada。
信頼性を向上させるために、組み込みモデル、ワンショット、および少数ショットの使用を優先します。

ゼロショット、ワンショット、少数ショットの違い

欠点:

長いテキストを生成する際に矛盾や非論理性が生じ、一部のタスクでは理解力がない。
モデルが大きすぎる、トレーニングが効率的でない、解釈可能性に欠けている、バイアスがある。

GPT-3 はより大きなトレーニングデータを使用し、パラメータモデルは 1,750 億に達しています。また、GPT-3 によって生成された複数の結果に手動で注釈を付け、強化学習を使用して注釈付きの結果を再学習することで、より比較的一貫性があり正確な生成結果を取得します。

GPT-3は手動アノテーション結果を導入

GPT-1、GPT-2、GPT-3のトレーニングデータとパラメータの大きさの比較

3.4 チャットGPT

OpenAIはGPT-3とChatGPTの間で複数の反復バージョンをリリースしており、2021年7月にはCodexシリーズが発売され、2022年1月にはRLHF（人間のフィードバックに基づく強化学習）が導入されてInstructGPTが実現され、2022年後半にはCodexとInstructGPTを組み合わせたChatGPTが発売され、人間のフィードバックに基づく強化学習に基づく命令微調整モデルのバージョンが使用されました。 ChatGPTはGPT-3と比較して、テキスト生成などの面で非常に強力な機能を発揮し、人間との会話における知能を大幅に向上させるだけでなく、膨大なデータとパラメータのサポートにより、論理的推論と思考チェーンにおけるモデルの機能も現れ始めています。 ChatGPT は、自動テキスト生成、自動質疑応答、複数ラウンドの会話など、比較的複雑な言語タスクを多数実行でき、積極的に間違いを認めたり、間違った質問をしたりすることもできます。さらに、ChatGPT はコンピュータプログラムの作成とデバッグも行えます。

ChatGPTトレーニングプロセス

強化学習トレーニングプロセス

兄弟モデル InstructGPT から派生したもの。
ChatGPT のコア技術である HFRL (Human Feedback Reinforcement Learning) は、本質的には機械の知識を人間の知識とどのように一致させるかに関するものです。
豊富な世界知識を備えたビッグモデルに「人間の好み」を学習させます。
注釈者は、InstructGPT の出力が GPT-3 の出力よりも優れており、信頼性が高いと明確に感じていました。
PPO: 近接ポリシー最適化;
プロンプトモードは、微調整モードよりも動的です。

欠点:

結果は不安定です。
推論能力が限られている。
知識を更新するのが難しい;

現在、ChatGPT の主な用途は次のとおりです。

ChatbotsはChatGptを使用して自由に流れる会話を行い、ボットがユーザーに自然に応答できるようにすることができます。
コンピュータープログラムを書き込み、デバッグします。
音楽、テレビドラマ、おとぎ話、詩、歌詞など、文学やメディアの分野での創造。
教育、試験、テストの質問への回答。
他のアプリケーションへのAPI構造の統合により、ChatGPTは発売からわずか2か月後に1億人のアクティブユーザーに到達し、歴史上最も急速に成長している消費者アプリケーションになりました。

3.5 GPT-4

GPT-4は2023年3月にリリースされました。GPTモデルの以前のバージョンと比較して、推論、テキスト生成、対話などを大幅に改善しました。GPT-4は、言語モデルからマルチモーダルモデルへの進化において最初の一歩を踏み出しました。 GPT-4の最大の変更は、画像入力を受け入れてテキスト言語を生成できることであり、画像読み取り能力に驚くべきパフォーマンスがあることです。同時に、25,000語以上のテキストを処理できます。その執筆能力は大幅に改善され、スクリプトを作成し、同時に学習することができます。 GPT-4は、機械学習モデルの設計に基づいてさまざまなベンチマークで評価されます。

GPT-4トレーニングプロセスは、主に3つの段階に分かれています。

フェーズ1：クロスアテンションアーキテクチャを構築して、トレーニング前モデル、データを収集し、監督された戦略を微調整します。

GPT-4モデルはGPT-3.5に基づいて構築され、視覚言語モデルコンポーネント（グラフィックトランスステージで完了した視覚化前モデル）が追加されています。マルチモーダルフィールドで事前に訓練されたモデルの予備チューニングを実行するために、最初にテキストデータセットとマルチモーダルデータセットから抽出され、ヒトアノテーターは、これらの手動で注釈付きのデータを使用してGPT-4初期モデルを微調整します。

フェーズ2：報酬モデル（RRM）およびルールベースの報酬モデル（RBRM）のトレーニング。

まず、セキュリティルールと完全な検証に基づいたルールベースの報酬モデルを設計します。このモデルは、従来のNLPフィールドのルールモデル設計法と一致しています。次に、データセットから質問が抽出され、最初の段階で生成されたモデルが使用されて、各質問に対して複数の異なる回答を生成します。人間のアノテーターは、これらの結果を包括的に検討し、ランク付けします。次に、このランキング結果データを使用して、GPT-4報酬モデルをトレーニングします。複数のソート結果を組み合わせて、複数のトレーニングデータペアを形成します。 RMモデルは入力を受け入れ、答えの品質を評価するためのスコアを提供します。このようにして、トレーニングデータのペアの場合、高品質の回答のスコアが低品質の回答のスコアよりも高いように、パラメーターが調整されます。このプロセスは、コーチングやメンタリングに似ています。

3番目の段階：PPO補強学習を使用して戦略を最適化します。

PPOの中心的なアイデアは、ポリシーグラデーションのポリシートレーニングプロセスをオフポリティに変換することです。つまり、オンライン学習をオフライン学習に変換することです。この段階では、第2段階で訓練された報酬モデルとルールベースの報酬モデルを使用して、報酬スコアに基づいて事前に訓練されたモデルパラメーターを更新します。質問はGPT-4データセットから抽出され、PPOモデルは回答を生成するために使用され、前の段階でトレーニングされたRM+RBRMモデルを使用して品質スコアが与えられます。報酬スコアは、ポリシーグラデーションを生成するために順番に渡され、PPOモデルパラメーターは強化学習を通じて更新されます。

4. 結論

大規模な言語モデルの出現は、新しいアイデアを提供します。つまり、大規模なトレーニング前および微調整技術を通じて、モデルにはより強力な言語理解機能があり、より多くのNLPタスクに適用できます。将来的には、よりインテリジェントで柔軟で効率的な言語モデルの出現が期待できます。これにより、より新しい可能性と優れたアプリケーションシナリオがもたらされます。

大規模な言語モデル開発タイムライン

トランスの導入により、近年、大規模な言語モデルが急速に発展しています。モデルパラメーターの大きさも劇的に増加しているため、モデル効果が改善され、他の問題も導入されています。