ChatGPTが使用する機械学習技術

著者 |ブライト・リャオ

「プログラマーから見たChatGPT」の記事では、開発者のChatGPTに対する理解について説明しました。この記事では、ChatGPT で使用されている機械学習技術について説明します。

機械学習技術の発展

ChatGPT で使用されている機械学習技術について話すには、機械学習技術の発展を振り返る必要があります。 ChatGPT が使用するテクノロジーはゼロから発明されたものではなく、巨人たちの協力を得て開発されたものでもあります。

1. 機械学習技術の分類

実際、機械学習技術は 1930 年代から 1940 年代にまで遡ることができ、当初から統計学と切り離せない関係にあります。 1936 年に、有名な統計学者フィッシャーが線形判別分析法 (LDA) を発明しました。 LDA は分散分析の考え方を利用して高次元データを分離しようとします。これは後に、機械学習技術が解決する必要がある基本的な種類の問題、つまり分類問題へと発展しました。

コンピュータの出現後、決定木、SVM、ランダムフォレスト、ナイーブベイズ、ロジスティック回帰など、多数のコンピュータベースの機械学習アルゴリズムが登場しました。分類問題を解決するためにも使用できます。

分類問題とは、どのカテゴリに分類するかが事前にわかっている問題であり、これらのカテゴリは通常手動で定義されます。例えば、人は男性と女性に分かれ、プログラミング言語はC/C++/Javaなどに分かれます。

いくつのカテゴリに分割すればよいか事前にわからないという別のタイプの問題もあります。たとえば、一連のニュースがある場合、トピックごとにグループ化する必要がありますが、トピックがいくつあるかを事前に手動で判断できない場合があります。現時点では、機械学習アルゴリズムを使用して、ニュースにいくつのカテゴリがあるかを自動的に検出し、さまざまなニュースをさまざまなカテゴリに分類することができます。この種の問題はクラスタリングの問題です。

場合によっては、この分類は連続的になることがあります。たとえば、機械学習モデルを使用して人の身長を予測する場合、結果は特定の範囲内で連続的に変化する値であると想定できます。この種の問題を回帰問題と呼びます。分類問題との唯一の違いは、連続した値を出力することです。

さらに、典型的な機械学習の問題としては、次元削減、強化学習（エージェントと環境の相互作用を通じて最適な行動戦略を学習する）などがあります。

さまざまな問題に応じて分類するだけでなく、機械学習技術がデータを使用する方法に応じて分類することもできます。この観点から、機械学習技術は、教師あり学習、教師なし学習、半教師あり学習などに分類できます。教師あり学習では、モデルのラベル値を準備する必要があります。教師なし学習ではラベル値を準備する必要はなく、トレーニングを開始するためのデータのみが必要です。半教師あり学習には、ラベル付けされた値を持つデータの一部が必要です。

ChatGPT は、解決する問題の観点から見ると、入力テキストに基づいて次に出力される単語を予測する分類モデルであり、単語の範囲は固定されており、つまりモデルの出力は特定の分類であると言えます。

ChatGPT のデータの使用方法から判断すると、大量の教師なしデータと少量の教師ありデータを使用していると考えられます。したがって、ChatGPT は半教師あり機械学習技術と見なすことができます。

2. 従来の機械学習アルゴリズムと人工ニューラルネットワークに基づく機械学習アルゴリズム

決定木、SVM、ランダムフォレスト、ナイーブベイズ、ロジスティック回帰、および上記のその他のアルゴリズムは、ほとんどが検証可能で理解可能な統計知識に基づいて設計されています。これらのモデルの主な制限は、その有効性が限られており、大量のデータを使用してもさらに改善できないことです。これは、これらのモデルが比較的単純なモデルであるという事実に起因します。これらのアルゴリズムは非常に初期に開発され、更新がほとんどなく非常に安定しているため、一般的にこれらのアルゴリズムは従来の機械学習アルゴリズムと呼ばれています。

別のタイプの機械学習アルゴリズムは、人工ニューラルネットワークに基づくものです。このタイプのアルゴリズムは、人間のニューラルネットワークの構造をシミュレートしようとします。その起源も非常に古く、1943 年に WS McCulloch と W. Pitts が MP モデルを提案したときに遡ります。このモデルは、下の図に示すように、生物学的ニューロンの構造と動作メカニズムに基づいて、単純化された数学モデルを構築します。

このうち、xiはニューロンのi番目の入力を表し、重みwiは入力xiによるニューロンの異なるシナプス強度の特性、θはニューロンの興奮閾値、yはニューロンの出力を表します。正と負の値はそれぞれニューロンの興奮と抑制を表します。

モデルの数式は次のように表すことができます: 𝑦=∑𝑤𝑖*𝑥𝑖−𝜃、すべての入力の合計がしきい値 θ より大きい場合、y 値は正になり、ニューロンがアクティブになり、それ以外の場合はニューロンが抑制されます。このモデルは人工ニューラルネットワーク研究のための最も単純なモデルであり、今日まで使用されてきました。

このモデルはシンプルに見えますが、スケーラブルでスタック可能な機能により、実際には非常に複雑なネットワークを構築するために使用できます。どのように拡張して積み重ねるかについては、これは実際に人工ニューラルネットワークが数十年の開発を経て解決しなければならない問題です。

このモデルを最適化するにはどうすればよいでしょうか?ここでの最適化は、実際には wi の値を変更することであり、バックプロパゲーションと呼ばれる最適化手法に頼って最適化できます。計算プロセスは、wi の偏微分を取り、それを学習率で乗算し、元の wi 値に加算することと同じです。

人工ニューラルネットワークモデルのアルゴリズムのアイデアは非常に単純であり、その効果はネットワーク規模が一定のレベルに達した後にのみ反映されます。ただし、ネットワークが一定の規模に達すると、計算能力とデータに対する要件が非常に高くなります。このようなアルゴリズムが 21 世紀以前に開発できなかったのはそのためです。

2000年以降、インターネットは爆発的な発展段階に入り、大量のデータが蓄積され、コンピュータの計算能力も数十のムーアサイクルを経て大きな進歩を遂げました。その結果、人工ニューラルネットワークに基づく機械学習アルゴリズムは爆発的な成長を遂げました。

さまざまな研究分野で、機械学習モデルの有効性を向上させるために人工ニューラルネットワークを使用する試みが始まっています。

畳み込みニューラルネットワーク (MP モデルに基づく変形構造) は、コンピュータービジョンの分野で優れたパフォーマンスを発揮し、徐々にコンピュータービジョンの分野における基本構造へと進化してきました。リカレントニューラルネットワークと長期短期記憶ネットワーク（MP モデルに基づく別の変形構造）は、自然言語処理の分野で優れたパフォーマンスを発揮し、徐々に自然言語処理分野の基本構造へと進化してきました。

これら 2 種類のネットワーク構造はかつて非常に人気があり、現在でも多くの問題がこれら 2 種類の構造に基づくネットワークアルゴリズムによって解決されています。彼らは人工ニューラルネットワークの機械学習アルゴリズムの開発を大きく促進しました。

しかし、研究者たちはネットワーク構造の探究を決してやめませんでした。 2017年にGoogleの研究チームは、ネットワーク構造における注意機構の表現と応用を重視したTransformerと呼ばれるネットワーク構造を提案しました。 Transformer モデルはシンプルで一貫性のある構造を持ちますが、非常に優れた結果を示します。

ChatGPTの物語はここから始まったと言えるでしょう。 Transformer モデル構造が公開された後、Transformer をベースにした多数の後続研究が実施され、さまざまな GPT モデルを含め、すべて良好な結果が得られました。

オリジナルのTransformerモデルは主に自然言語処理の分野で使用されていました。過去 2 年間の研究では、この構造はコンピュータービジョンでも使用できることがわかっています。現在人気の Vision Transformer モデルは、コンピュータービジョンの分野におけるその応用結果です。この傾向から判断すると、Transformer はすべてのモデル構造を統一する勢いを持っています。

ChatGPT 技術概要

ここまでの理解で、いよいよ ChatGPT が登場する番です。

ChatGPT はどのようなテクノロジーを使用していますか?簡単に列挙すると次のようになります。

基本モデル構造: 注意メカニズムに基づくTransformerモデル
超大規模モデルスタッキング：GPT3は、最大1750億のパラメータ数を持つ96層のネットワークをスタックします。
大規模なトレーニングデータ: 45TBの生データがトレーニングに使用されました
膨大なコンピューティングリソース: トレーニングは、数千のGPUを搭載したMicrosoftが特別に設計したスーパーコンピューターで実行されます。
超並列トレーニング: モデルを複数のインスタンスに分散し、複数のGPUで並列計算してトレーニングを完了します。
人間のフィードバックデータに基づくチューニング：大量の人間のフィードバックデータが最適化に使用され、会話がより自然でスムーズかつ論理的になります。

OpenAI は ChatGPT のトレーニングの詳細をあまり公開していないため、上記のデータはやや曖昧な推定値です。

ChatGPT が使用するコア技術は独自のものではないことは注目に値します。そのコアモデル構造である Transformer は、Google の研究成果から生まれたものです。

要約する

ChatGPT のリリース以来、多くの人がこれは人類にとって汎用人工知能に向けた画期的な進歩であると信じていますが、一方で、実際には本質的な改善はないと考える人もいます。多くの人が自分のキャリア開発に深い不安を抱いており、多くの人がSFの世界の未来に触れたと感じており、多くの人がこれはまた一攫千金のチャンスだと考えています。

おそらく、機械学習技術の原理を理解して、それを合理的に理解できるようにすることが、すべての人に必要なのでしょう。