ByteDanceのLi Hang: 言語ビッグモデルに関するいくつかの観察と考察

この記事は、LLM に関する著者の見解を詳しく説明しています。主なポイントは次のとおりです。

ChatGPT のブレークスルーは、主に規模によってもたらされた質的な変化とモデルチューニング方法の発明にあります。
LLM は、人工知能を実現するために 3 つのパスを組み合わせます。
LLM の開発には、サードパーティの経験とファーストパーティの経験の組み合わせが必要です。
LLM は心の言語に近似することができます。
世界を理解するには、LLM をマルチモーダル大規模モデルと組み合わせる必要があります。
LLM自体には論理的推論能力はなく、その基礎の上に推論能力を付加する必要がある。

1. LLMの強み

1.1 LLMの主な進歩

ChatGPTやGPT4に代表されるLLMには主に以下の手法がある[1][2]。

モデル: Transformer は強力な表現機能を備えており、構成性を持つ言語を非常にうまく表現および学習できます。
事前トレーニング: 言語モデリングに大規模なテキストデータを使用します。学習はデータ圧縮、つまり単語シーケンスの生成確率を最大化するか、予測誤差を最小化することです。
教師あり微調整 SFT (教師あり微調整): 入力から出力へのマッピング X→Y、または入力から出力と出力プロセス X へのマッピング C_1⋯,C_n→Y を学習し、モデルの基本的な動作を学習します。ここで、C_1⋯、C_nは思考の連鎖を表します。
人間のフィードバックからの強化学習 RLHF (人間のフィードバックからの強化学習): 人間のフィードバックに基づいてモデルの全体的な動作を調整します。

BERT などの従来のディープラーニング技術と比較して、ChatGPT と GPT4 は主にインテリジェンスと汎用性において大きな進歩を遂げました。言語、知識、単純な推論能力を備えており、人間の知的行動に非常によく近似することができます。ラベル付けされたデータがなくても、さまざまなタスクをさまざまな分野で完了できます。これをゼロサンプル学習または小サンプル学習と呼びます。

LLM によってもたらされる驚異的な進歩は、私たちのほとんどがこれまで予見できなかった影響を及ぼすでしょう。その理由は、ビッグデータ、ビッグモデル、ビッグコンピューティングパワーの活用により、規模の質的な変化がもたらされたからです。 ChatGPT には、トレーニング用に 1750 億のパラメーターと 3000 億のトークンがあります。しかし、パラメータサイズが 1B を超えるモデルはこれまでほとんどありませんでした。第二に、Open AI は、基本的な手順、テクニック、エンジニアリング実装を含む、大規模モデルをトレーニングするための一連の方法を開発しました。言語モデリングの仕組みは、人間の知識や能力を大きなモデルに入力するために使用されます。大規模システムのエンジニアリング実装とモデルチューニング手法は、Open AI のコア競争力となっています。これは関連技術の進化からもわかります。

1.2 歴史的進化

ChatGPT および GPT4 テクノロジーの 1 つのソースは、生成的対話です。

2012年から2017年にかけて、Huawei Noah's Ark Labで対話に関する研究を行い、2015年にこの分野初のシーケンスツーシーケンス（seq2seq）生成対話システムであるNeural Responding Machine [3]を開発しました。当時のシーケンスツーシーケンスモデルはまだ LSTM に基づいていました。しかし、そのようなモデルでも自然な中国語を生成することは可能です。表1に生成された対話の例を示します。 400 万の Weibo データを使用してトレーニングされた 7,000 万のパラメータを持つこのモデルは、特定の発話に対する返答を生成し、会話のラウンドを形成できます。表には上位 5 つの回答が示されています。適切な回答もあれば、不適切な回答もあることがわかります。

シーケンスツーシーケンス学習が時々不合理な結果を生み出すという問題を解決するために、私たちは2017年にシーケンスツーシーケンス（seq2seq）の学習結果をさらに最適化するための深層強化学習ベースの手法を開発しました[4]。 RLHF と同じアルゴリズムを持ち、最初に報酬モデルを学習し、次にポリシー勾配に基づいてシーケンス全体をシーケンスモデル (ポリシーモデル) に調整します。このモデルも LSTM に基づいています。当時の研究では、深層強化学習の微調整を追加することで、シーケンス間の生成結果を改善できることがわかりました。

Google の研究チームは 2017 年に Transformer モデルを公開しました。シーケンス間の生成は、Transformer の使用に移行し始めました。 Transformer の強力な表現力と学習能力により、生成対話の効果が大幅に向上し、単一ラウンドの対話の生成から複数ラウンドの対話の生成へと徐々に進化しました。

2018 年に、Open AI チームは GPT-1 モデルを公開しました。基本的な考え方は、まず大規模なTransformerベースの言語モデルをトレーニングし、そのベースでSFTメソッドの教師あり微調整を通じてシーケンスツーシーケンスモデルを学習し、自然言語の理解と生成タスクをシーケンスツーシーケンス生成タスクに変換し、生成対話を含むすべてのタスクを1つのモデルで実装することです。その後、2019年にGPT-2、2020年にGPT-3が公開され、徐々にChatGPT、GPT-4へと発展していきました。

従来の比較的小規模な生成モデルでも、LSTM に基づくものであっても、自然な人間の言語を生成することができます。学習目標は単語シーケンスの予測誤差を最小限に抑えることだからです。しかし、生成された自然言語で記述された内容の多くは、現実には決して起こらないか、不合理であり、深刻な幻覚があることを意味します。しかし、大規模言語モデルによって生成される自然言語は、その学習方法と規模により、現実に起こりやすく合理的な内容も記述することができ、幻覚現象も効果的に抑制されます。

ChatGPT 以前に、業界では生成的対話などのタスク向けに一連の大規模な生成モデルが開発されていました。全体的な観察では、さまざまなタスクをよりうまく完了できますが、その機能は ChatGPT のレベルには達していません。 GPT-3 [5]やInstructGPTの論文[1]を注意深く読み、ChatGPTなどのさまざまなLLMの結果を観察すると、Open AIのコア競争力は、大規模言語モデル用の完全なトレーニング方法とエンジニアリング実装方法を開発しているという事実にあることがわかります。トレーニング方法には、事前トレーニング、SFT、RLHF などの基本的な手順が含まれますが、さらに重要なのは、高品質の大規模データの準備と、データをモデルに段階的に供給するトレーニングの詳細です。

2. LLMの特徴

2.1 人工知能の3つの道を組み合わせる

人工知能を実現するには 3 つの方法があります。

経験的知識の入力：人がルールなどの形でコンピュータに知識を教えることで、コンピュータが知的な処理を実行できるようになります。
人間の脳の実現: 人間の脳のメカニズムを解明し、同じ原理に基づいて人間の知能を実現します。
データからの学習: データ駆動型の機械学習手法を通じて人間の知能をシミュレートします。

図1. 人工知能を実現するための3つの道

人工知能における従来の記号処理は、最初のパスに属します。機械学習は3番目のパスに属します。ディープラーニングは人間の脳にヒントを得た機械学習であり、3 番目のパスに属しますが、2 番目のパスも利用します。

パス 1 は最も簡単に考えられますが、人工知能の歴史を見ると、これには重大な制限があることがわかります。 2つ目の道は脳科学の進歩に頼るものです。しかし、現在、研究はゆっくりと進んでおり、非常に困難です。 3 番目の道はあまり直接的ではないように思えるかもしれませんが、現在、人工知能を実現するための主な手段です。

著者は、 LLM は主に第 3 のパスに属しますが、第 2 のパスも利用し、第 1 のパスの特徴も備えていると考えています。これは、LLM がディープラーニングであり、モデル内の知識と機能は、慎重に選択されたデータと巧妙なトレーニング方法を通じて人間によって付与されるためです。これら 3 つのパスを統合することで、LLM は現在人工知能を実現するための最も強力な手段となります。

2.2 サードパーティのエクスペリエンスとファーストパーティのエクスペリエンス

外の世界を理解するには、第三者の視点に立って、現象を観察し、ルールをまとめ、結果を共有します。これを第三者体験といいます。科学は第三者の経験に基づいて構築されます。私たちの内なる感情や考えは、私たち自身の精神活動であり、他人と共有することは難しく、大まかにしか説明できません。それらは一人称の経験に属します。

シンボリック処理は開発者の一人称の経験に基づいているのに対し、機械学習は開発者の三人称の経験に基づいていると言えます。例えば、囲碁の達人は囲碁をプレイした経験をまとめ、ルールを定義し、それに基づいて囲碁システムを開発しますが、これは一人称の経験に基づいています。囲碁の名人がチェスをするのを観察し、彼らのプレイデータからルールを自動的に学習し、囲碁システムを開発することはすべて、サードパーティの経験に基づいています。

興味深いことに、 LLM の開発はサードパーティの経験に基づいており、ファーストパーティの経験も組み合わせています。このモデルはディープニューラルネットワークに基づいており、大規模なデータを使用し、予測誤差を最小限に抑えることで学習されるため、これらすべてがサードパーティの経験に基づいていると考えられます。ただし、学習プロセスにおけるデータ収集、データクリーニング、データラベル付け、および推論プロセスで使用されるプロンプトとコンテキスト内学習では、開発者が自分の経験に基づいてモデルに知識と機能を効果的に提供することが求められ、これは一人称の経験に基づくものと見なす必要があります。これは他の機械学習とは根本的に異なります。つまり、LLM を開発するには、スケーリング則などのデータとモデルの統計的指標を観察し、ユーザーの視点からデータを準備してモデルを調整できる必要があります。後者の技術を習得するには、多くの観察と探求が必要です。

2.3 LLMの利点と限界

LLM は汎用性の問題をある程度解決し、さらにインテリジェンスを向上させます。ビッグデータとビッグモデルによって返される結果は、現実に起こるはずの結果であり、合理的である可能性が高いです。開発者は、事前トレーニング、SFT、RLHF、Prompt などを通じてモデルを調整することで、モデルの機能を大幅に向上させることができます。

LLMはすでに非常に強力です。しかし、誰もが指摘しているように、解決する必要がある明らかな問題もあります。1 . モデルを最適化する方法、つまり、処理できる問題の規模を拡大しながら、トレーニングと使用のコストを削減する方法です。 2. モデルによって生成されたコンテンツの信頼性を確保する方法、つまり幻覚を回避する方法。 3. 信頼性の高い大規模モデルを構築する方法、つまり、モデルによって生成された結果の有用性とセキュリティを確保する方法。

ChatGPTが登場する以前から、私はディープラーニングは人間の脳の処理メカニズムからより多くのことを学ぶ必要があり、より多くの理論的な指導が必要であると指摘してきました[6]。これはLLM時代においても依然として当てはまります。 LLM は非常に大きくなっており、モデルの機能を分析および説明するには新しい理論が必要になる可能性があります。モデルが一定の規模に達すると、システム全体のダイナミクスはまったく異なるルールを示すため、さらなる研究が必要になります。

3. 重要な研究テーマ

まとめると、LLM時代の重要な研究課題は以下のとおりです。

LLM最適化
LLMの信頼性
信頼できる LLM と AI 倫理
LLMの理論
マルチモーダル大規模モデル
LLM + 論理的推論
エージェント

将来的には、マルチモーダル大規模モデル、LLM プラス論理的推論、インテリジェントエージェントなどが重要な研究テーマとなります。以下の説明では、最初の 2 つのトピックに焦点を当てます。

4. 人間の知能の観点から見た法学修士

4.1 人間の脳、心、意識

人間の脳は、推定 1,000 億個のニューロンと 1,000 兆個のシナプスを持つ巨大な神経ネットワークです。脳の神経ネットワークは、それぞれが特定の機能を担当する多数の分散サブネットワークで構成されており、サブネットワーク間には特定の接続があります。ニューラルネットワークは並列処理を実行しますが、これは高速で、無意識のうちに実行されます。人間の脳の神経ネットワークの一部が活性化されると、神経表現と呼ばれる特定の状態が生成されます。

心とは、私たち一人ひとりが経験する内なる知覚と認識です。心には意識的な部分と潜在意識的な部分がありますが、主に意識的な部分です。現在、脳科学において有力な仮説は、意識は人間の脳における全体的な情報同期のメカニズムであり、情報同期は作業空間で起こるというものである[7]。意識における情報処理は逐次的かつ遅い。

身体化認知理論では、人間の思考プロセスにおいて、意識における処理によってイメージが生成されると主張し、心の計算理論では、意識における処理によって心的言語（メンテーゼ）が生成されると主張している[8]。現時点では合意が得られておらず、本稿では必要に応じて双方の見解を借用しています。

図2 人間の脳と心の構成

図2は人間の脳と心の構成を示しています。潜在意識の脳（神経ネットワーク）は、聴覚、視覚、運動、言語、数学などの機能を担うさまざまな脳領域に分かれています。意識は、心的言語によって表現された潜在意識の神経ネットワークによる処理結果を取得したり、表象を生成したりして、作業空間においてさまざまな処理を実行します。

心の言語は、フォーダーやピンカーなどの認知科学者によって提唱された仮説です。重要な特徴は、自然言語は曖昧であるのに対し、心的言語は明確であるということです。私たちが概念を理解するとき、脳は曖昧さを解消するために関連するすべてのマルチモーダル情報を呼び出し、精神的な言語表現を取得します。

4.2 LLMの統一実装

これまでのところ、自然言語処理には、分類、マッチング、ラベル付けと意味解析、シーケンス生成、シーケンスからシーケンス、およびシーケンシャルな意思決定の 6 つの主要なタスクがあります。

分類: テキスト分類など、テキストシーケンスからラベルへのマッピング。
マッチング: 検索や読解など、テキストシーケンスと他のテキストシーケンスのマッチング。
注釈と意味解析: 単語の分割、品詞のタグ付け、構文解析など、テキストシーケンスをラベルシーケンスまたは構造表現にマッピングします。
シーケンス生成: テキストシーケンスの生成、つまり言語モデルに基づく生成。
シーケンスからシーケンス (seq2seq): 機械翻訳、生成的対話、要約などのテキストシーケンスからテキストシーケンスへの変換。
順次意思決定: 複数ラウンドのダイアログなど、既存のテキストシーケンスに基づいて新しいテキストシーケンスを生成します。

最初の 3 つは言語理解タスクであり、最後の 3 つは言語生成タスクです。理解タスクの出力はカテゴリーラベルなどであり、これは精神言語の表現とみなすことができます。

すべてのタスクは、シーケンス間 seq2seq モデルを使用して実装できます。言語理解とは、自然言語から精神言語への seq2seq 変換です。言語生成は、精神言語から自然言語への seq2seq です。言語変換とは、ある自然言語を別の自然言語に変換することです。

GPT3、ChatGPTなどは、事前学習に大量の論文データを使用し、その後、seq2seqデータを使用して微調整しますが、seq2seqデータもシーケンスデータ[seq:seq]の形式に変換され、つまり2つがつなぎ合わされます。 ChatGPT 等は生成時に自然言語と内部表現を区別しないことに注意してください。内部表現はプログラムコードにすることもできます。

図3 LLMはすべての自然言語処理タスクを実装する

図 3 は、LLM ベースの言語理解、言語生成、言語変換 (翻訳) を示しています。たとえば、思考の連鎖は精神言語の内容として考えることができます。 LLM に基づく言語理解は、自然言語を精神言語に変換することです。注: 精神的な言語は明確であるべきですが、思考の連鎖を含め、LLM を使用して生成されたコンテンツは曖昧であることが多いです。

したがって、 LLM を言語理解に使用した場合に生成されるコンテンツは、精神言語の近似値であると考えられます。自然言語を使用して精神言語を表現する利点は、思考連鎖データなどのデータを簡単に定義してラベル付けできることですが、欠点は曖昧さがないことを保証できないことです。セクション 6.1 には数学の問題を解く例があります。プログラムを使用して、曖昧さのない精神的な言語を表現することもできます。

5. LLMとマルチモーダル処理

5.1 言語と世界に対する人間の理解

人間の言語理解は、概念と機能という 2 つの観点から定義できます。概念の場合、単語や文章を理解するということは、記憶から関連する概念や出来事を呼び出し、それらを結び付けることを意味し、それによって意識における表現、または精神的な言語における表現が生み出されます。理解の結果は、明確な意味の根拠となります。人間の脳は理解する際に曖昧さを解消するからです。

人間の言語理解は視覚や聴覚などのマルチモーダル処理を通じて行われているという証拠は数多くあります。概念に関連する視覚的および聴覚的表現は、それぞれ視覚および聴覚の脳領域に保存されます。関連する概念が喚起されると、意識の中にマルチモーダル表現が生成されます。たとえば、「ゴリラには鼻がありますか？」と尋ねられたとき、この質問に答えるために、私たちは心の中にゴリラの視覚的なイメージを思い浮かべます。

一方、人々は言語を通じて世界を理解します。人は視覚、聴覚、触覚、味覚、嗅覚を通じて外部環境から情報を得ます。世界理解は、多くの場合、マルチモーダル情報を言語と結び付けるプロセスです。このプロセスは、意識や精神言語における表現も生み出します。例えば、テーブルの上の物体を見ると、それを「カップ」や「ボールペン」などとして認識します。

5.2 マルチモーダル大規模モデル

誰もが関心を持っている疑問の 1 つは、LLM が人間の言語理解を実現するかどうか、そして LLM が世界モデルを確立するかどうかです。著者の答え: はい、そしていいえ。

LLM の世界の理解は完全に言語ベースです。言語データから学習し、学習した知識を言語モデルに保存します。したがって、世界についてのあらゆる質問をされた場合、LLM は、時には幻覚を伴うものの、それに答えることができます。知識の保存方法も人間とは異なり、エンティティや概念に基づくのではなく、Transformer パラメータに保存されます。

LLM をマルチモーダル大規模モデルと組み合わせると、より人間に近い世界モデルが作成できることが予測されます。このとき、知識も実体や概念などを通じて結び付けられることになります。特に将来、ロボットが世界と相互作用することで具現化されたマルチモーダル情報を取得できるようになると、ロボットが生成するマルチモーダル大規模モデルは人間の世界モデルに近づくはずです。注: 誰もが受け入れる世界モデルの厳密な定義は存在しません。

したがって、マルチモーダル処理は、LLM 後の人工知能の将来の発展にとって重要な方向性となるはずです。最近ではマルチモーダル研究でも多くの進歩がありました。例えば、視覚言語モデルに関しては、Open AI が開発した CLIP モデルが、視覚言語アライメントの最も代表的なモデルです。 ByteDanceは、細粒度のマルチモーダル理解タスクで最高のパフォーマンスを発揮するX-VLMモデルも開発しました[9]。

6. LLMと数学的能力

6.1 人間の数学的能力

数学的能力には、論理的推論、算術計算、代数計算、幾何学的概念の理解など、さまざまな能力が含まれます。

数学的能力：哲学的観点

西洋哲学では、数学は人間が生まれながらに持つ独立した能力であると常に考えられてきました。

アリストテレスは、哲学理論は数学、物理学、形而上学に分けられると信じていました。古代ギリシャでは、数学はその抽象的かつ論理的な性質から、「科学」とは別の分野であると考えられていました。

図4: 2×2の正方形の面積を2倍にする方法

『メノン』では、プラトンはソクラテスと若い奴隷との対話を紹介しています。ソクラテスは、継続的に質問することで、若い奴隷を導き、2×2の正方形の面積を2倍にする方法という数学の問題を解かせました（図4を参照）。ソクラテスは、人間の数学的思考能力、そしてより一般的には人間の合理性は生まれつきのものであることを証明しようとしました。

カントは『純粋理性批判』の中で、人間の推論能力は生来のものであり、5+7=12 を計算するなどの数学的推論もこれに含まれる、先験的総合的判断力と呼んだと主張した。

数学的能力：脳科学の視点

近年の脳科学や認知科学の研究では、基本的な計算能力など、人間の基本的な数学的能力は生まれつきのものであることが明らかになっています。数学的思考には主に特定の脳領域が関与します[9]。

生後 4 か月の子どもに、スクリーンの後ろでボールを転がし、次に別のボールを転がす様子を見せた実験がありました。スクリーンを取り除いたとき、2 つのボールではなく 1 つのボールだけが残っているのを見ると、子どもは非常に驚いた表情を見せました。これは、1+1=2 であることを知っていることを意味します。

再帰演算は数学の中核となる能力であり、推測は人間が生まれながらに持っている能力です。脳科学者は、人間の脳の頭頂葉に数学的思考を主な機能とする脳領域があることを発見しました。具体的なメカニズムはまだ不明であり、今後さらに研究が必要です。

もちろん、すべての数学的能力が生まれつきのものではなく、後天的に身につく数学的能力もあります。研究によると、数学者の視覚脳領域の一部は学習過程で数学に再利用されることが明らかになっています[10]。

数学的思考：科学者の自己反省

数学的な思考はしばしば意識に浮かび上がります。科学者はしばしば、数学的思考プロセスを、数学的概念と密接に関連する意識における数学的に関連のある表現の作用として説明します。どのような計算が脳の神経ネットワークに対応するのかは明らかではありません。

アインシュタインはかつて、数学的思考プロセスについて次のように振り返っています。「言葉や言語は、書面であろうと口頭であろうと、私の思考には何の役割も果たしていないようです。思考の要素となる実体は、自発的に再現および組み合わせることができる特定の記号と多かれ少なかれ明確な表現です。さらに、これらの要素と関連する論理概念の間には、特定のつながりがあります。」

6.2 数学的問題解決のための法学修士

LLM 自体は類推的推論の能力はありますが、論理的推論の能力はありません (論理的推論とは三段論法に基づく推論を指します)。したがって、LLM では簡単な数学計算を実行し、数学の問題を解決することができます。人間に例えると、数学を暗記するのと同じことになります。 GPT4 は非常に強力な数学的問題解決能力を示していますが、複雑な数学的問題を解決するには他のメカニズムが必要になる場合があります。

1 つのアイデアは、論理的推論のための LLM + 数学の問題解決です。 LLM を使用して、数学の問題の意味を理解し、それを精神的な言語に変換し、精神的な言語に基づいて論理的推論と数学的計算を実行します。論理的推論と数学的計算は、他の数学的計算メカニズムを必要とします。

人間には、心理学でシステム 1 とシステム 2 と呼ばれる、速い思考 (暗記に基づく) と遅い思考 (詳細な思考) を使って数学の問題を解く 2 つのメカニズムがあります。 LLM を使用して問題を解決することは、システム 1 に直接対応します。 LLM を使用して精神言語を生成し、その精神言語に基づいて問題を解決することは、システム 2 に相当します。

ByteDance では昨年、自然言語理解タスク向けにニューラル処理と記号処理を組み合わせたニューラル記号処理アプローチを提案しました。システム1とシステム2のメカニズムを組み合わせるのも同じ考えに基づいています[11]。この方法は、数学の問題を解く場合と自然言語を理解する場合の両方に使用できます。

6.3 心の言語としてのプログラミング言語

上記の LLM ベースの数学的問題解決および自然言語理解の方法では、プログラミング言語を使用して精神言語を表現するのが自然な考え方です。これは、LLM は一般にプログラムを使用してトレーニングされ、プログラムを生成することもできるためです。

私たちは最近、数学の問題を解くための「精神的な言語」としてPythonプログラムが英語（自然言語）よりも有利であるという事実を検証するための大規模な実験を行いました[12]。この方法の利点の 1 つは、LLM が問題を理解した後、結果のプログラムをインタープリターを介して直接実行し、問題解決手順の正確さを検証できることです。また、自然言語よりも Python プログラムの方が推論しやすいです。

<<: 「メタバージョンChatGPT」の背後にある技術：基本的なLLMが長いコンテキストをより適切に処理できるようにするには、事前トレーニングを継続するだけです

>>: リアルタイム6自由度オブジェクトトラッキングを実現するDeepACが登場