[GPT-4理論] GPT-4のコア技術を探る

序文

GPT-4はリリースされてからしばらく経ちますが、セキュリティなどのさまざまな理由から、OpenAIはGPT-4の技術的な詳細やコードを公開していません。代わりに、100ページに及ぶ技術レポート[1]のみを公開しています。

この技術レポートは GPT-4 の能力に焦点を当てており、いくつかの技術的な方向性の概要のみを示していますが、技術的な詳細を理解したい人にとっては十分ではありません。

この記事では、GPT-4の技術レポート、GPT 3.5/ChatGPTに対するGPT-4の改良点、GPT-4とChatGPTの比較、OpenAIの最近の取り組み、大規模言語モデル（LLM）モデルの科学的研究の進歩、マルチモーダルモデルの科学的研究の進歩などの情報を組み合わせて、GPT-4の技術的な詳細を深く分析します。

GPT-4 がこれを実行するという明確な証拠がないため、ここでは主に OpenAI が GPT-4 のこれらの機能を実現するために使用した可能性のあるテクノロジーについて説明します。したがって、私の推測が間違っている場合は、読者の皆様はコメント欄で議論していただければ幸いです。次に、シャーロック・ホームズに変身して、GPT-4 の原理を分析してみましょう。

1. GPT-4の改良

GPT-4 は ChatGPT に基づいて反復されます。ここでは ChatGPT の原理について詳しく説明しません。詳しく知りたい場合は、「ChatGPT/InstructGPT 詳細説明」の記事で紹介した内容を参照してください。この記事では、まず、GPT-4 が ChatGPT と比較してどのような改善を行ったか、つまり、GPT-4 が ChatGPT と比較してどのような機能改善を行ったかについて説明します。次に、これらの改善を実現するために OpenAI が GPT-4 に適用した可能性のあるテクノロジーについて説明します。最後に、他の大規模言語モデルと GPT-4 の使用に関する考えについて説明します。

1.1 ゼロショット学習と少数ショット学習の機能

GPT-4 をテキスト生成に使用すると、GPT-4 がすべての難しい質問にほぼ完璧に答えられることに驚きます。これは、GPT-4 が非常に強力な教師なし学習機能を備えていることを示しています。

さらに、GPT-4 の技術レポートには、教師なし学習の例も多数掲載されており、シナリオによっては教師あり SOTA 手法に近づいたり、それを上回ったりすることもあります。例えば、HumanEval[3]のコード生成データセットでは、有名なコード生成ツールCodeX[3]を上回りました。さらに、正確性を評価するための質問応答データセットTruthfulQA [26]では、GPT-4はSOTA Anthropic-LM [4]に近づいています。

1.2 論理的推論能力

GPT-4 の技術レポートでは、図 1 に示すように、多くの学術試験で ChatGPT よりも優れた点が強調されています。学術テストの評価では、GPT-4 は ChatGPT よりも論理的推論能力が優れていることが反映されています。 @岳玉涛Maxは、GPT-4とChatGPTの論理的推論問題を19の質問で比較しました[2]。ChatGPTの正解率は37％でしたが、GPT-4の正解率は100％でした。比較例から、GPT-4が論理的推論において質的な飛躍を遂げたことがはっきりとわかります。

図1: 多くの学術試験におけるGPT-4とChatGPTのスコアの比較

ここでも簡単な論理的推論の問題が見つかりました。この橋を渡る例では、ChatGPT は橋を渡る順序を与えたものの、時間の計算が間違っていましたが、GPT-4 はこの問題をシンプルかつ明確に解決したことがわかります。

**質問: **4 人の ABCD が橋を渡っています。一度に渡れるのは最大 2 人です。懐中電灯の持続時間は 17 分です。各人に必要な時間はそれぞれ 1、2、5、10 分です。全員が最も速く橋を渡るのにかかる時間はどれくらいでしょうか。

**ChatGPT: **4 人ができるだけ早く橋を渡るためには、一番遅い人ができるだけ早く橋を渡れるようにする必要があります。したがって、最初に最も遅い 2 人の A と B に橋を渡らせ、次に A を戻らせ、次に 2 番目に遅い C と D に橋を渡り、最後に B を戻らせることで、橋を渡るプロセス全体を完了することができます。

具体的には、以下の手順に従います。

AとBは橋を渡りますが、これには10分かかります。

Aが戻ってきて、1分かかります。

CとDは橋を渡ります。これには5分かかります。

Bが戻ってきて、2分かかります。

AとBは橋を渡ります。これには10分かかります。

したがって、かかった時間の合計は 10 + 1 + 5 + 2 + 10 = 28 分になります。これは橋を渡るのにかかる最速の時間です。

GPT-4 : 4人全員ABCDができるだけ早く橋を渡れるようにするには、次の戦略を採用できます。

AとBは一緒に橋を渡りますが、2分かかります。

Aは1分後に戻ります。

CとDは一緒に橋を渡りますが、所要時間は10分です。

Bは2分後に戻ってきます。

AとBは一緒に橋を渡りますが、2分かかります。

合計時間: 2 + 1 + 10 + 2 + 2 = 17 分。

つまり、全員が橋を渡るのに最も時間がかかるのは 17 分です。

1.3 チャートを理解する能力

GPT-4 の大きな改善点は、マルチモーダル性を取り入れ始めたことです。GPT-4 の画像インターフェースはまだ公開されていないため、ここでは GPT-4 の技術レポートに記載されている例を借用します。図 2 では、GPT-4 は VGA ポートと Lightning ポート間の不一致を正確に理解できます。この例は、GPT-4 が単に画像の内容を理解する以上の機能を備えていることを示しています。その最も強力な機能は、画像内の特別なポイントを識別する機能です。

図2: GPT-4は強力なグラフと表の理解能力を備えている

1.4 より安全なテキスト生成機能

GPT-4 に関する技術レポートでは、GPT-4 には以前のモデルと同じセキュリティ上の問題があるものの、GPT-4 のセキュリティは大幅に改善されているという事実に焦点が当てられています。技術レポートでは、ChatGPT が有害なコンテンツを生成する可能性は GPT-4 よりも約 10 倍高いと指摘されています。図3は、リスク警告付きの初期のGPT-4と成熟したGPT-4によって生成された大量のコンテンツを示しています。成熟したGPT-4の危険性が大幅に軽減されていることがわかりますが、これはGPT-4が完全に無害なモデルであることを意味するものではありません。

図3: 生成されたコンテンツのセキュリティの観点から見た初期のGPT-4と成熟したGPT-4の例

GPT-4 は、モデルのセキュリティを確保するために多くの作業を行ってきました。まず、敵対的テストとレッドチームテストを実施するために、さまざまな分野の 50 人以上の専門家を雇いました。次に、モデルのトレーニングを支援するために、ルールベースの報酬モデル (RBRM) をトレーニングしました。この部分の実装の詳細については、後ほど詳しく説明します。

1.5 プログラミングスキルの向上

GPT-4 の技術レポートにおけるもう 1 つの重要な比較項目は、LeetCode での 3 つの異なる難易度 (簡単、中程度、難しい) での ChatGPT によるコード生成能力です。教師なし学習の場合、HumanEval データセットにおける GPT-4 の評価精度は ChatGPT の 48.1% から 67.0% に向上しました。 GPT-4 の技術レポートでは、ChatGPT は LeetCode の 166 個のプログラミング質問のうち 20 個しか正しく回答しなかったのに対し、GPT-4 は 55 個を正しく回答したと指摘されています。表1は、LeetCodeの166のプログラミング問題におけるGPT-4とChatGPTの具体的な分布を示しています。

	GPT-4	GPT-4 (視覚なし)	チャットGPT
LeetCode (簡単)	31 / 41	31 / 41	12 / 41
LeetCode (中)	21 / 80	21 / 80	8 / 80
LeetCode (難しい)	3 / 45	3 / 45	0 / 45

表1: LeetCodeプログラミング問題におけるGPT-4とChatGPTのパフォーマンス

1.6 他の言語を扱う能力

GPT-4 は英語と非英語の両方で大きな改善を遂げ、ほとんどの言語で英語における ChatGPT のパフォーマンスを上回りました。ここでは、ChatGPT と GPT-4 に、「Let the Bullets Fly」の Master Tang の要件である「風がなければならない、肉がなければならない、鍋がなければならない、霧がなければならない、美女がなければならない、ロバがなければならない」に応じて詩を書いてもらいます。 2 つの詩を比較すると、ChatGPT によって書かれたものは文学的な才能のない現代詩のように聞こえますが、GPT-4 によって生成されたコンテンツは、最初の 2 つの部分に単語が多すぎることと、ある程度韻を踏んでいることを除けば、基本的に古代中国の詩のように見えます。

チャットGPT:

風が丘を吹き抜け、肉の香りが漂い、鍋が湯気を立て、霧が漂い、美しさは優雅で、ロバは楽しそうに駆け回っています。これは、人々にリラックスして幸せな気分を与えるユニークな絵巻です。風が乱暴に吹き、肉の香りが漂い、鍋の具材は人々のよだれを垂らします。霧は神秘に満ち、美しい女性の顔に人々は酔いしれ、ロバの喜びは人々に生命の活力を感じさせます。これは、人々を魅了する生命力に満ちた絵巻です。

GPT-4:

うねる風が渓流を乱暴に吹き抜け、
鍋料理としゃぶしゃぶはまさに最高です。
料理の煙が霧の周りを渦巻き、
美しい女性と優しいロバは一緒に旅をします。

美女はロバの背中を撫でた。
悩みも世の中も吹き飛ばします。
ルージュを弄び、酔ったように微笑み、
ロバは歌いながら山から走り出しました。

燃えるような赤いキノコが熱狂的に回転し、
ペッパービーフは味気ない。
歌と笑い声とともにオシドリ鍋、
時は流れ、夢の中に留まる。

霧は埃っぽい世界を浄化します。
麦わらのレインコートを着て、木のドアのそばを歩くと、危険を冒す準備ができています。
ロバのひずめが世の慣習を踏みにじる、
飛雁の蹄跡は栄光を残します。

1.7 より長いシーケンスを処理する能力

ChatGPT が処理できる最大のシーケンスは 4K トークンであり、OpenAI は 8k と 32k の 2 つのモデルをリリースしており、各漢字は約 2 ～ 2.5 トークンを占めます。 GPT-4 トークンの価格は、命令と応答に基づいて決定されます (表 2)。32k は 8k の 2 倍の値段です。ChatGPT の 1,000 トークンあたり 0.02 ドルと比較すると、GPT-4 は約 15 倍高価です。

モデル	プロンプト	完了
8Kコンテキスト	$0.03 / 1Kトークン	$0.06 / 1Kトークン
32K コンテキスト	$0.06 / 1Kトークン	$0.12 / 1Kトークン

表2: GPT-4の充電詳細

GPT-4のさらなる機能の探求に関しては、マイクロソフトリサーチレドモンドの機械学習理論グループの責任者であるセバスチャン・ブベック氏が、新たに発表された155ページの論文[25]で広範な議論を行った。

彼らは、GPT-4 がテキスト生成モデルが理論的に達成できる範囲をはるかに超えるパフォーマンスを発揮し、汎用人工知能 (AGI) の火を点けるきっかけになったと指摘しました。GPT-4 はすでに、推論、計画、問題解決、抽象的思考、複雑なアイデアの理解、迅速な学習、経験からの学習といった非常に強力な能力を備えています。

2. GPT-4の技術的解決策の推測

私たちが発見した GPT のこれらの改善により、LLM の現在の進歩と OpenAI の取り組みを組み合わせて、GPT-4 の可能な技術的解決策を推測することができます。公開されているアルゴリズムは推測にしか頼れないため、OpenAI が内部的に非公開のアルゴリズムをソリューションとして使用している可能性も否定できません。そのため、私の推測が間違っていたとしても、いくつかの独立したアルゴリズムを学習しているとみなすことができます。

ゼロショットおよび少数ショットの学習能力：この改善の理論的根拠は、大規模モデルの創発能力によるものと考えられる[5]。
論理的推論能力：ビッグモデルの思考連鎖（CoT）[6]と自己改善能力[7]を活用する。
画像理解能力：OpenAIの有名なマルチモーダルモデルCLIP[8]やMicrosoftのマルチモーダルモデルKOSMOS-1[12]をベースにしているのではないかと推測されている。
より安全なテキスト生成機能: 技術レポートのこの部分では、主に専門家によるテスト、幻覚検出、RBRM についてさらに詳しく説明します。
より強力なプログラミング機能: この部分は、OpenAI の有名なコード生成モデルである CodeX に触発されていると思います。
他の言語を処理する能力：これはXLM [9]などの言語間事前トレーニングモデルからアイデアを借用したか、または出現能力がGPT-4の他の言語でのパフォーマンスを向上させたのではないかと推測されています。
より長いシーケンスを処理する能力：この部分では、長い入力を処理するためのTransformer-XLモデル[10]、または長いデータの複雑さを軽減できるOpenAIが提案したSparse Transformer[11]を使用していると推測されます。

以下では、私たちの推測の根拠を示し、これらの推測の手法を簡単に紹介します。

2.1 創発的能力

創発能力は、LLM が画期的な進歩を遂げるための最も重要な中核技術です。創発能力とは、トレーニングプロセス中にモデルが高度で複雑な機能や動作を自動的に学習することを指します。これらの機能や動作は直接エンコードまたは指定されていません。

この機能により、モデルを再トレーニングしたり変更したりすることなく、新しい機能や動作を適応的に学習できるため、新しい未知のタスクを処理するときにモデルのパフォーマンスが向上します。図4は、GPT-3を含む多くのLLMが非常に強力な創発能力を示していることを示しています。つまり、モデルパラメータの数などの指標が特定の指標を超えると、そのパフォーマンスが急速に向上します。ここで、GPT-4 のゼロショットおよび少数ショットの学習機能は、大規模モデルの創発機能から派生したものであると結論付けることができます。

モデルの出現能力は主に以下の 4 つの点に依存します。

このモデルには非常に多くのパラメータがあります。
モデルのアーキテクチャ。
高品質のトレーニングデータ。
より高度なトレーニング戦略。

その中で、モデルパラメータの数は最も重要な要素です。

図4: GPT-3などの多くの大規模モデルは、複数のタスクで新たな能力を発揮している

2.1.1 モデルパラメータ

GPT-4 のパラメータ数は誰もが議論しているトピックです。GPT-4 は ChatGPT や追加の画像エンコードモジュールよりも強力な創発機能を備えていることを考慮すると、GPT-4 のパラメータ数は ChatGPT よりも少なくないはずです。図5は、ARK Investが計算したChatGPT TurboとGPT-4の各トークンの予測時間を示しています。GPT-4にかかる時間はChatGPTの約4倍です。さらに、GPT-4 はモデルの推論速度を加速するためにいくつかの戦略を使用する可能性が高いため、GPT-4 のテキストモデルのパラメーターはおよそ数千億ですが、1 兆に非常に近いです。

GPT-4が画像エンコードにCLIPを使用する場合、OpenAIの論文によると、現在最大の画像エンコーダーは残差ネットワークを64倍に拡大したものなので、GPT-4の画像エンコードは約16億になります。もちろん、GPT-4が他の画像符号化構造を使用している可能性も否定できません。例えば、Transformerを使用しているKOSMOS-1[12]は良い選択です。画像部分のパラメータ数については、より関連性の高い情報が公開されるまで待つしかありません。

図5: ChatGPTとGPT-4が各トークンの予測に費やした時間の割合に関するARK Invest統計

2.1.2 モデルアーキテクチャ

確かなことは、GPT-4 の技術レポートでは、GPT-4 がトランスフォーマーベースのアーキテクチャを採用していること、つまり、コアアーキテクチャが依然として GPT シリーズのデコーダーのみの構造を採用していることが指摘されていることです。 GPT-4 モデルの内部構造については、確認できる詳細はあまりありません。GPT-4 の速度と長いテキストを処理する能力を考慮すると、その内部構造には 2 つの可能性があります。

GPT-4 は長いテキストを処理する能力が大幅に向上したため、GPT-4 が Transformer-XL または Sparse Transformer を使用する可能性が一定程度あります。
GPT-4 は ChatGPT に基づいて反復される可能性が高いため、ネイティブ Transformer を使用し、レイヤー、ヘッド、および非表示ノードを追加する可能性があります。

GPT-4 は画像入力もサポートしているため、画像エンコードに関する部分があり、これについてはセクション 2.3 で詳しく説明します。

2.1.3 トレーニング戦略とトレーニングデータ

GPT-4 は基本的に ChatGPT と同じトレーニング戦略を維持しています。つまり、図 6 に示すように、事前トレーニング + プロンプト + 予測というパラダイムに基本的に従います。ここでは主に3つの点を含むGPT-4の改良点について紹介します。

ルールベース報酬モデル (RBRM) を導入しました。
マルチモーダルキュー学習を導入しました。
思考の連鎖を導入しました。

図6: ChatGPTモデルのトレーニング手順

1) RBRM

GPT-4 の最初の改良点は、ルールに従って記述された 4 つの分類モデルである RBRM の導入です。その 4 つのカテゴリは次のとおりです。

期待されるスタイルの拒否;
望ましくないスタイルの拒否;
許可されていないコンテンツが含まれています。
安全で、拒否されない応答。

GPT-4 は、図 6 のステップ 3 の PPO ステージで使用されます。モデルのセキュリティを向上させるために、ChatGPT はステップ 3 で人間のフィードバックによる強化学習 (RLHF) を使用してモデルをトレーニングします。 ChatGPT のデータのこの部分は、GPT-3 の API ユーザーから取得されます。GPT-4 では、ここで RBRM が追加されます。その目的は、正しい報酬誘導モデルのトレーニングを通じて、有害なリクエストの生成を拒否し、無害なリクエストを拒否しないことです。

ルールを使用して NLP モデルを構築することには長い歴史があります。実際、最も初期の NLP モデルはルールベースのモデルであり、その後に確率ベースのモデル、ニューラルネットワークベースのモデルが続きました。

たとえば、シャノンは離散マルコフ過程の確率モデルを使用して言語オートマトンを記述しました。また、私たちがよく使用する正規表現は、典型的なルールベースのテキストモデルです。ルールベースモデルの利点は、トレーニングデータが必要ないことです。欠点は、ルールを設計するためにドメインエキスパートが必要になることが多く、特定の分野内の問題しか解決できないことが多いことです。ここでの私の推測は、RBRM はドメインエキスパートによって設計され、正規表現、有限状態マシンなどの一連のテキストルールから記述されたゼロショット分類器であるということです。

近年、ルールベースの強化学習も広く言及されています。強化学習の重要な最適化目標は、探索空間の範囲を縮小することであり、このタスクはルールの制約によって完了できます。ルールによって制約された後、強化学習を使用して残りのスペースを探索します。これにより、強化学習の探索スペースが削減され、収束速度を効果的に向上できます。 GPT-4 の RBRM の動作原理を図 7 に大まかに示します。

図7: RBRMの動作原理

2) マルチモーダル手がかり学習

GPT-4 は、マルチモーダル機能に関する詳細な技術的詳細を提供しておらず、画像インターフェースはパブリックベータ版には公開されていません。しかし、GPT-4 レポートのようなマルチモーダル分野でも同様の研究があるかどうかを確認することはできます。偶然にも、今年初めにマイクロソフトがリリースしたKOSMOS-1[12]は非常に強力なマルチモーダルQA機能を備えており、そのコンセプトはGPT-4と非常によく似ています。GPT-4はKOSMOS-1と同様のマルチモーダルプロンプト方式を採用していると推測できます。

KOSMOS-1 は、テキスト生成、画像キャプション生成、マルチモーダル QA の 3 種類のデータセットをサポートしています。図 8 は、画像キャプション生成と QA 生成における KOSMOS-1 の例です。図8(a)の画像記述生成では、モデルの入力は画像の埋め込みであり、出力は予測された画像記述です。図 8 (b) のマルチモーダル QA では、KOSMOS-1 は画像の埋め込みとテキストの埋め込みを一緒に入力し、それらを使用して質問に対する回答を予測します。

図8: KOSMOS-1のマルチモーダル入力の例

3) 思考の連鎖

GPT-4 は ChatGPT よりもはるかに強力な論理的推論機能を備えています。モデルをトレーニングするときは、思考の連鎖を使用してプロンプトサンプルを構築する必要があります。 Thinking Chain は、プレーンテキスト入力だけでなく、テキストと画像のマルチモーダル入力もサポートしています。この重要なコンテンツを紹介するセクションを用意しました。

4) 容量予測

特定のタスクでモデルをトレーニングする場合、そのタスクでのモデルの最終的なパフォーマンスを予測できることが期待されます。これがモデルの能力予測です。自然言語処理および大規模言語モデルの分野では、機能予測とは通常、特定のタスク、ドメイン、またはシナリオにおけるモデルのパフォーマンスを予測および評価することを指します。

能力予測の目的は、モデルのパフォーマンスをより深く理解し、モデルを最適化、調整、または改善できるようにすることです。モデルの機能を予測することで、モデルの長所と限界をより深く理解し、モデルのさらなる開発と改善のための貴重なフィードバックを提供できます。 GPT-4 はトレーニング中に能力予測も使用するため、モデルの有効性をより正確に評価し、トレーニングコストを節約できます。

2.2 論理的推論能力

OpenAIはGPT-4の推論能力を向上させるために、近年非常に重要視されているLLMの思考連鎖と自己改善機能を活用する可能性が高い。これらは、論理的推論能力の学習をターゲットを絞って最適化するためのプロンプトとして見ることができます。以下で、それらを 1 つずつ紹介します。 GPT-4 の技術レポートからは、GPT-4 のトレーニングに思考連鎖や自己改善が使用されたという証拠が多数見つかります。

2.2.1 思考の連鎖

思考の連鎖とは、人々が考えているときに、特定の視点、アイデア、または知覚刺激によって引き起こされる一連の関連する思考の連想とつながりを指します。これらの関連性は、人々の記憶、経験、知識、感情、意識を通じて確立され、強化され、最終的には人々が問題を理解して解決し、決定を下し、行動を起こすのに役立つ有機的な思考の連鎖を形成します。思考の連鎖は人間の思考活動の重要な部分であり、人間の思考スタイル、思考習慣、思考効率を反映しています。思考の連鎖を構築し強化することで、物事の本質と法則をよりよく理解・把握し、より効果的に問題を解決し、意思決定を行うことができます。

人工知能の分野では、研究者たちは機械学習や自然言語処理などの技術を使用して人間の思考チェーンをシミュレートし、機械の思考チェーンを確立して、機械が人間の言語や行動をよりよく理解して処理し、よりインテリジェントなアプリケーションやシステムを実現できるようにする方法も研究しています。 OpenAIの論文[6]は、思考連鎖の方向性において非常に意義深い論文であり、GPT-4が使用する可能性が高い技術的解決策でもあります。この論文では、思考連鎖プロンプトを構築することでモデルの推論能力を向上させることを提案しています。思考連鎖も新たな能力であり、少数のサンプルを提供するだけでモデルの論理的推論能力を大幅に向上させることができます。

思考連鎖と従来のプロンプト学習の違いは、プロンプトに推論プロセスが追加され、入力、思考連鎖、出力の 3 つで構成される 3 つが構築される点です。図 9 は、従来のプロンプトと思考連鎖プロンプトの例です。

図 9: 従来のプロンプト学習と思考チェーンプロンプト学習。思考チェーンは入力に推論プロセスを与え、モデルが推論能力を学習できるようにします。

思考チェーンはマルチモーダル入力もサポートしており、GPT-4 の技術レポートでも GPT-4 がマルチモーダル思考チェーンを使用していることが指摘されています。図 13 の GPT-4 の例は、モデルが思考の連鎖を使用してトレーニングされたため、推論プロセスが含まれた典型的な予測結果です。図10は上海交通大学とアマゾンが最近発表したマルチモーダル思考連鎖フレームワークであるMultimodel-COT [14]である。

2 つのステージで構成され、2 つのステージはパラメータを共有します。最初の段階では、画像とテキストをモデルに入力して、理由や思考の連鎖を生成しました。第 2 段階では、元の入力と生成された理由を組み合わせてモデルに入力し、回答を生成しました。

図10: マルチモデルCOTの推論プロセス

2.2.2 自己宣伝

2022年に発表された論文[7]で、GoogleはLLMとマインドチェーンを組み合わせることで、教師なしデータを使用してモデルが自己改善できることを指摘しました。そのコアメソッドを図11に示します。 GPT-4は、モデルのユーザー意図追従能力を向上させるために[7]のソリューションを使用したことも指摘した。

図11: LLMは大規模モデルを通じて自らを改善できる

計算手順は以下のとおりです。

まず、思考の連鎖に基づいてプロンプトを構築します。
異なる温度係数に応じて、モデルは推論プロセスを含む複数の異なるパスを生成します。
最も正しい回答を選択するために投票を使用します。
この正解を含むすべてのパスは、LLM を最適化するために使用されます。

この方法で得られた答えが必ずしも正しい答えではないことに気づいたかもしれません。著者は実験を通じて 2 つの重要な結論を得ました。

回答の正確さは信頼性と高い相関関係にあるため、投票によって得られた回答は、生成された回答の中で最も正しいものになる可能性が高いです。
たとえ答えが間違っていたとしても、それをトレーニングデータに追加するとモデルのトレーニングに役立ちます。

推論パスを取得した後、著者はこのパスに基づいて次の 4 つの異なる入力データを構築しました。

標準的な思考連鎖プロンプト。これは、（質問、思考連鎖、回答）の 3 つ組を構成します。
従来のプロンプト学習、つまり質問と回答のみ。
入力は質問です。モデルが推論の手順を予測できるように、「ステップごとに考えてみましょう」というプロンプトを追加します。
従来の QA では、質問を入力して回答を予測します。

最後に、データセットを充実させるために、著者らはデータを拡張する 2 つのソリューションを提案しました。1 つは 2 つの質問をランダムに組み合わせて、モデルに新しい質問を生成させることです。もう 1 つは、モデルに推論手順を生成させて、それをトレーニングセットに追加させることです。

2.3 チャートを理解する能力

GPT-4は画像形式でのグラフ入力をサポートしているため、OpenAIの有名なマルチモーダルアルゴリズムCLIP[8]では、図12に示すように、対照学習を通じて画像とテキストを同じ特徴空間にマッピングできると述べています。そして、CLIPの画像エンコーダーと組み合わせることで、GPT-4の画像入力を実現できます。このとき、GPTのテキスト特徴と整合できる画像エンコーダーをトレーニングし、CLIPの画像エンコーダーの出力を画像トークンとして使用する必要があります。最後に、埋め込みレイヤーを追加して、このトークンをGPT-4の特徴ベクトルにエンコードします。

図12: 対照学習により画像とテキストを同じ特徴空間に投影するCLIPの構造。

図 2 のような写真の例を理解できることに加えて、最も驚くべきことは、GPT-4 が図 13 のような多くの詳細を含む学術的な写真も理解できることです。学術画像では、画像に表される記号や物体同士の位置関係が非常に重要になります。GPT-4 がたった 1 枚の画像エンコーディングでこれらの詳細な情報を捉えられるのであれば、この画像エンコーダーは非常に強力な創発能力を発揮しているはずであり、この画像エンコーダーのパラメータ数も数千億に上る可能性が高いです。

図13: GPT-4は学術画像内の特定の詳細を理解する能力を持っている

GPT-4 のマルチモーダル機能のもう 1 つの可能性は、マルチモーダル大規模言語モデル (MLLM) に似ていることです。その中で、マイクロソフトの KOSMOS-1 は、GPT-4 に類似したマルチモーダル言語モデルの機能を実証しました。また、図 14 に示すように、KOSMOS-1 は、マルチモーダル質問応答において非常に強力な出現能力も実証しました。

KOSMOS-1はTransformerデコーダーをベースにしたマルチモーダルモデルであり、異なるモダリティのデータを連結する。例えば、<s>と</s>はテキスト入力を表し、<image>と<\image>は画像入力を表す。画像の埋め込みには、MicrosoftのMETALM[13]によって計算された特徴ベクトルを使用する。 GPT-4 は KOSMO-1S からアイデアを借用し、それを OpenAI 独自のマルチモーダル作業の一部と組み合わせたのではないかと推測しています。

図14: マイクロソフトのKOSMOS-1は非常に強力な画像理解能力を示している

GPT-4 のマルチモダリティに関する技術的な詳細については、GPT-4 の画像インターフェースが公開されるまで待って、さらにテストを行って調べることができます。

2.4 より安全な出力

既存のディープラーニングモデルの考え方は、大規模なモデルを使用してトレーニングセットに適合させることです。生成モデルの場合、その出力内容は完全に制御可能ではなく、GPT-4 も例外ではありません。 GPT-4 の技術レポートでは、テキストモデルには、幻覚、有害コンテンツ、差別、虚偽情報、暴力、プライバシー、ネットワークセキュリティなどの危険な出力が含まれると指摘されています。 GPT-4 はこの問題を大幅に軽減します。

GPT-4 のリスク軽減出力の最初の問題は、敵対的テストのレッドチームとして活動するために、さまざまな分野から 50 人以上の専門家を雇うことでした。レッドチームの仕事は、GPT-4 によって与えられた出力をテストするために危険な質問をし、それを克服しようとすることです。 OpenAI はドメイン専門家間の対決を通じて、GPT-4 のセキュリティを向上させるために、さまざまな方向から大量のドメイン専門家のデータを収集しました。

2.4.1 幻覚

幻覚は、生成モデルが解決するのが非常に難しい問題です。これは、モデルによって生成された不条理または非現実的なコンテンツ、つまり深刻なナンセンスを指します。この幻覚的な動作は、モデルによって生成されたコンテンツがより流暢で説得力のあるものになるにつれて、特に有害になります。モデルが幻覚を生み出す理由は、次のようにまとめることができます。

データバイアス: トレーニングセットには、データエラーなどのバイアスが含まれている可能性があり、モデルの自然言語の理解に影響を与える可能性があります。
データのスパース性: トレーニングセットの特定の側面のデータが少なくなり、この側面でモデル生成機能が制御できなくなる可能性があります。
モデル構造: モデルの構造とパラメータの数は、モデルの一般化と表現能力に影響を及ぼし、モデルがいくつかの側面で幻覚を生み出す原因となる可能性があります。

GPT-4 はこの問題を解決するために 2 つの戦略を使用します。

最初の方法は、ChatGPT データをトレーニングに使用することです。この方法の利点は、当時の ChatGPT がすでに有害コンテンツの生成を拒否する一定の能力を備えており、インターネットからクロールされたデータよりも信頼性が高かったことです。しかし、問題は ChatGPT の問題が GPT-4 に引き継がれる可能性があることです。さらに、あるモデルで生成されたコンテンツを別のモデルのトレーニングデータとして使用すると、モデルの過剰適合につながる可能性があります。

2 番目のアプローチは、自動評価と手動評価の両方を含む、モデルによって生成された幻覚サンプルを検出するために NLP 技術を使用することです。この方法の利点は、モデルによって引き起こされる幻覚の問題を効果的に検出し、修正できることです。自動評価に頼る方法では、評価モデルの欠陥により幻覚サンプルの一部が見逃される可能性があることが欠点であり、手動評価の最大の問題は人件費が非常に高いことです。

Meta は幻覚の検出に非常に重要な貢献をしました。一方で、彼らは幻覚検出タスクを提案し、このタスクのために幻覚検出データセットHadesを作成しました。このモデルは、生成されたコンテンツの信ity性を評価するために文に表示される幻覚的な単語を検出し、それにより幻覚の可能性を減らすことができます。図15は、マシン翻訳のこの方法の例であり、1とラベル付けされた部分は生成された幻覚コンテンツに対応しています。ここでは、Openaiがメタと同様の方法またはデータを使用している可能性があると推測されています。

図15：機械翻訳で公正によって提案された幻覚検出方法の例

具体的には、OpenAIは、GPT-4自体を使用して幻覚があるかどうかに関する比較データを生成するためのマルチステッププロセスを設計し、図6のステップ2の報酬モデルのトレーニングセットに組み込みます。

プロンプトPをGPT-4に入力し、応答R1を取得します。
PとR1をGPT-4に供給し、すべての幻覚トークンをリストするように指示します。幻想がない場合は、幻想H1をリストするまで生成し続けます。
P、R1、およびH1をGPT-4に供給し、幻覚なしで応答R2を生成するように指示します。
PとR2をGPT-4に入力し、すべての幻覚トークンが検出されない場合、R1とR2を比較サンプルペアとして報酬モデルのトレーニングセットに入れることができます。

2.4.2その他の問題

Openaiは、他の可能なリスク出力に関する技術ソリューションの詳細な紹介を提供していませんでしたが、技術的なソリューションから、おそらく次の方法を使用したことがわかります。

RBRMを使用して、可能なリスクを検出します。
迅速な学習を通じて、モデルはそのような質問に答えることを拒否することを学びます。
赤いチームを使用して、これらの可能な問題を発見します。
リスクの問題を引き起こす可能性のあるサンプルをフィルターし、削除します。
有害な出力を罰するために報酬モデルを訓練します。

2.5プログラミングスキル

GPT-4は、ChatGPTと比較してプログラミング能力を大きく進めています。 Codexは、コード生成の分野におけるGPT-3の派生バージョンであり、Copilotプラグインの背後にある基本的なアルゴリズムでもあります。 Codexは、GPTシリーズのデコーダーのみのアーキテクチャを採用しており、モデルパラメーターは12mから12bの範囲の異なるバージョンで使用できます。コーデックストレーニングは、トレーニング前と微調整の2つの段階に分かれています。

トレーニング前の段階では、Openaiは最初にGithubから多数のPythonファイルをrawったので、クリーニング後、サイズが159GBのトレーニングセットを取得しました。 Codexはコード生成モデルであるため、GPT-3でトレーニングされた重みを使用せず、代わりにGPT-3のモデルハイパーパラメーターを完全にコピーしません。

微調整段階では、Openaiは競争ウェブサイト、インタビューWebサイト、およびGitHubでユニットテストスクリプトから約40,000個のデータを収集しました。コードの正確性を評価する際、Codexは従来のBLEUスコアを使用しません。代わりに、コードが評価基準として渡すことができる単体テストの割合を使用し、評価テストセットと評価標準パス@kを確立します。

データの漏れを回避するために、Humanevalのデータはすべて、合計164の質問や多数のテストケースを含む人間によって構築されています。 Humanevalは、各関数を4つのカテゴリ、すなわち関数の署名、関数注釈、関数本体、および単体テストサンプルに分割します。ヒント学習を実行する場合、関数の署名と関数のコメントは入力ヒントとして使用され、関数体は必要な出力として使用され、単体テストは生成されたコードの有効性を評価するために使用されます。

Codexの評価注釈は、LeetCodeのものと似ています。つまり、テストの標準パス@Kは、モデルのすべての回答からランダムに選択された回答を取得する確率を表します。その計算方法は、式（1）に示されているとおりです。ここで、nは各質問に対して生成された回答であり、kはn回答からランダムに選択されたkの回答であり、cはn回答の間で単体テストに合格する回答の数です。

CodexとGPT-4はどちらもGPT-3の次世代モデルです。GPT-4がCodexの既存のアイデアとデータを使用し、モデルのプログラミング機能を改善することができます。

2.6多言語機能

Openaiは、GPT-4の他の言語における能力の大幅な改善の紹介を提供していませんでしたが、関連する説明は見つかりませんでした。ここでは、現在の技術的蓄積に基づいてOpenaiが使用する可能性のある技術的ソリューションについて推測します。

他の言語のトレーニングデータの改善。
大規模なモデルにより、GPT-4は少数言語でより多くの機能を持つことができます。
既存の並列コーパラを使用して迅速な学習ベースの機械翻訳タスクを構築するなど、マイノリティ言語をターゲットにしたタスクが追加されました。また、機械翻訳エンジンを使用してデータの一部を少数言語に変換します。

実際、この部分に関連する情報はあまりありません。コメントセクションで独自の推測をすることを皆さんが歓迎します。

2.7長いシーケンス機能

ここでの長いシーケンスには、GPT-4がマルチラウンドの会話をサポートし、他方では、より長い入力データをサポートします。

2.7.1マルチターンダイアログ

CHATGPTとGPT-4の両方は、継続的な会話をサポートしていますが、Openaiは継続的な会話能力の背後にある技術的なソリューションを提供したことはありません。会話の各ラウンドで、以前の会話は、再び入力としてモデルに大まかに提供されます。理論的には、このアプローチの最大の問題は、会話ラウンドの数が増えると、入力データも急速に増加することです。

この問題をモデルの観点から解決したい場合、この問題を解決できるアルゴリズム、つまりトランス-XL [10]があります。図16に示すように、変圧器-XLの重要な改善は、提案されたフラグメント再回帰メカニズムです。フラグメントの再帰メカニズムは、トランスとRNNの組み合わせに似ています。

図16：トランス-XLのフラグメント再帰メカニズム

ChatGPTとGPT-4の間の複数の会話を振り返ると、OpenaiはTransformer-XLからのフラグメント再帰のアイデアを借りていると推測します。つまり、GPT-4が$ t $ラウンドの計算を実行すると、T-1ラウンドのキャッシュされた機能とT-Theラウンドの特徴が一緒に追加され、現在のラウンドの計算が追加されます。 T-1ラウンドはT-2ラウンドの特性も考慮しているため、理論的には、この方法は予測時間に影響を与えることなく、多くの以前のラウンドの会話コンテンツを取得できます。

2.7.2長いシーケンス入力

入力長nの変圧器の複雑さはO（n^2）であるため、従来の変圧器は長いシーケンスの問題に対処するのに苦手です。トランスのデフォルトの入力長は512です。長さ512を超える入力データのソリューションは、長さ512の複数のテキストブロックに分割することですが、これにより、コンテキストの断片化の問題が発生します。

ここでは、長シーケンス入力を解くために使用されるOpenai独自のアルゴリズムを紹介します[11]。なぜなら、GPT-3は通常のトランスの混合モードであるため、GPT-4は長いシーケンステキストを処理するために使用するモデルでもありますが、通常のトランスと混合される方法は不明です。スパーストランスの特徴は、最も寄与するトップK特性の状態にのみ焦点を当てていることです。従来の変圧器の集中的な注意コアは、ストライプされた注意と固定された注意に分解されます。各注意コアは、列の注意コアとカラムの注意コアに分割されます。分解された注意コアはまばらであり、図17に示すように、モデルの複雑さを大幅に減らします。

図17：高密度でまばらな注意

GPT-4はより長いデータのシーケンスをサポートしているため、長いデータを効率的に処理するために、トランスの2つのバリアントもリストしました。 GPT-4のテクニカルレポートは遠すぎるため、Openaiの公式発表を待つことしかできません。

2.8技術的なソリューションの概要

このセクションでは、多くの技術的ソリューションについて説明しましたが、一部は比較的高い信頼性を持っていますが、他のセクションでは推測が高いものもあります。次の表は、各ソリューションの信頼性を示しています（1から5に徐々に増加します）。

出現する能力	考えているチェーン	自己改善	クリップ	KOSMOS-1	コーデックス	XLM	トランスXL	スパーストランス
5	5	3	3	3	4	1	1	4

上記の推測に基づいて、GPT-4の技術的なソリューションは次のとおりであると推測できます。

最初の段階：マルチモーダルの事前トレーニングモデルを構築し、この段階の主な目的を実行します。その作業の焦点は2つです。1つは、KOSMOS-1または他のマルチモーダルモデルに基づくマルチモーダルの事前訓練モデルを構築し、もう1つは長いテキストの高複雑さの問題を解決することです。
2番目の段階：GPT-4の整列は、この段階の主な目的です。この段階で作成する必要がある2つのモデルがあります。1つは、専門家の知識に基づいてルールベースの報酬モデルRBRMを設計することです。
3番目の段階：RBRMとRMを報酬機能として使用し、RLHFを使用してモデルをトレーニングします。 2番目と3番目の段階のトレーニング方法は、ChatGPTに似ています。
ステージ4：モデルは自己改善です。GPT-4トレーニングは、常に促されているトレーニングプロセスです。この段階では、GPT-4は、モデルの自己改善出力を使用したトレーニングデータ、Expert Redチームからのテストケースのフィードバックなど、より多くのデータを自動的に生成し、これらのデータを使用して最初の段階に戻ってモデルをトレーニングします。

3。GPT-4の開発方向

最近、私はGPT-4とChatGPTを毎日の仕事に適用しました。GPT-4の強力な能力に深くショックを受けました。毎日のプログラミングや記事の執筆作業を完了するのに役立つだけでなく、毎日の些細な問題を解決し、仕事の効率を大幅に改善するのにも役立ちます。ここでは、GPT-4の開発の方向性について説明し、GPT-5の開発の可能性を予測しているGPT-4に関する数え切れないほどの記事があります。

3.1 GPT-4の最適化方向

GPT-4は、テキスト生成、コード生成、画像理解、および論理的な推論能力に強力な能力を示していますが、将来の作業にはまだ多くの重要な方向性があります。

GPT-4を使用するコストは現在非常に高く、GPT-4との会話を行うコストは約1元です。 ChatGPTのメンテナンスコストは、1日あたり100万ドル近くです。 GPT-4をより多くの人々が使用できるようにモデルを明るくする方法、さらに多くの人々が自分のGPT-4を訓練できるようにする方法は、将来研究される方向になります。
GPT-4は絶対に安全ではなく、GPT-4にはまだ幻覚があります。 GPT-4の幻覚検出、レッドチームの対立、RBRMなどは、セキュリティ問題の最終的な解決策ではありません。絶対に安全なシステムはありませんが、Openaiはまた、セキュリティへの投資を増やして、彼らが直面するかもしれない法的リスクを軽減します。
GPT-4は、GPT-4が検索エンジンを置き換えることができない重要な理由です。その知識がリアルタイムで更新されないことです。その知識のレベルは、データをクロールする期限に依存しているため、締め切り後に表示されるニュース、概念、イベントなどを解決できなくなります。
GPT-4は、マルチモダリティとLLMの予備研究でもあります。より多くのモダリティとより多くのアプリケーションを含むマルチモーダル方向にGPT-4の機能をさらに調査する方法が、OpenAIの次の重要なタスクです。

3.2 GPT-4の適用

その強力な世代と論理的推論能力により、GPT-4は私たちの働き方に大きな影響を与えることができます。この記事の多くの読者は、アルゴリズム関連の科学的研究と仕事に従事していると信じています。ここでは、私の経験に基づいてより役立つと思ういくつかの方向をリストします。

機能コードを作成し、GPT-4に特定の関数を満たすフレームワークを作成させると、複雑なヒントを提供する必要がある場合があり、生成するコードを確認する必要があります。ただし、GPT-4がネットワークの構築や機能機能の実装など、いくつかの難しい機能機能を実装している場合、GPT-4によって生成されたコードの使いやすさは依然として非常に高いです。
テキストの研磨をするために、技術的なR＆Dの担当者として、私たちの執筆スタイルは今回は良くないかもしれません。特に英語で論文やメールを書くとき、GPT-4はチングリッシュの問題を解決するのに役立ちます。
論文を読むと、GPT-4は非常に優れた機械翻訳ツールであるだけでなく、試行後、その翻訳効果はプロフェッショナリズムと一貫性の観点から従来の機械翻訳モデルのそれをはるかに上回ります。さらに、GPT-4は、いくつかの要約、要約、抽出作業を作成することもできます。これにより、紙のコアテクノロジーをすばやく理解できるようになります。 chatGPTに基づくCHATPDFは、私たちが論文を読むための非常に効果的なアシスタントです。
図18：GPT-4のテクニカルレポートによって生成されたGPT-4によるセキュリティを改善するためにCHATPDFが行った作業
毎日の仕事では、GPT-4は、いくつかの公式の発表、スピーチ、感謝の手紙などを書くのが非常に優れており、これらの側面での人間の効率を改善することもできます。アイデアがないことについては、GPT-4についても尋ねようとします。

GPT-4は、幻覚などのセキュリティの問題を完全に解決しないことに注意してください。また、GPT-4のセキュリティ問題が解決する前に、専門家が常にチェックする必要があり、GPT-4のセキュリティ問題が生成モデルのライフサイクル全体に伴う可能性があるため、GPT-4はこの分野に従事する専門スタッフを置き換えることができません。

4。その他のLLM

CHATGPTとGPT-4の提案により、国内および外国企業はすぐにフォローアップし、LLMモデルのR＆Dの波を引き起こし、多くの企業も独自のLLMを提案しています。

その中で、中国の代表的な仕事には次の仕事が含まれています。

BaiduのWen Xinyiyan：BaiduのErnie-Botは、中国でフォローアップする最も初期の訓練を受けた大きなモデルですが、Baiduは常に彼らの仕事のスキルについて非常に秘密になっています。しかし、彼のデモンストレーションデモと多くのテスターのテスト結果から判断すると、Wen Xinyiyanはバイドゥに関する多くのAI作業のエンジニアリングの組み合わせのようなものです。
AlibabaのTongyi Qianwen：Tongyi Qianwenは、20億パラメーターを備えたトランスXLで構築されたテキスト生成モデルです。招待状コードを受け取ったネチズンからのフィードバックによると、Tongyi Qianwenのテキスト生成効果は、Wen Xinyiyanよりもわずかに悪化しています。
Sang TangのRirixin：記者会見のディスプレイ効果から判断すると、Sang TangのRirixinは現在中国で最高のLLMであり、ChatGptと同様の効果を達成しました。デイリーニューには、「相談」、「わずかな描画」、「わずかな影」、「Qiongyu」、「Spatting Things」の5つの主要な機能が含まれています。
Tsinghua UniversityのGLM [17]は、TsinghuaとZhipu AIが共同で開始したオープンソースのバイリンガル言語モデルであり、GLM-130Bの効果はGPT-3とCHATGPTです。 GLMはその後、CHATGLMとGLM-6Bを起動しました。これは、現在最良のオープンソース中国の事前訓練の大型モデルであるスタンドアロンマシンで実行および微調整できます。
Moss of Fudan University：Mossは、Fudan UniversityのNLP研究所の教師Qiu Xipengのチームであり、最近関連コードを開きました。現在の結果から判断すると、モスはあまり成熟していませんが、教師のチームがモスを最適化していることは喜ばしいことです。

国内のフォローアップが迅速に行われただけでなく、外国の大手企業は独自のLLMを立ち上げました。その代表者は次のとおりです。

MetaaiのLlama：Llama [19]のパラメーターには、70 億、130億、330億、650億の4つのスケールがあります。 Openaiとは異なり、Metaaiはコードとモデルをオープンソースし、スタンドアロンの展開をサポートします。 LlamaはGPT-4ほど効果的ではありませんが、そのオープンソースとスタンドアロンの運用上の機能は、多くの機関や個人の二次的な発展を引き付けました。
GoogleのPalm and Lamda：Palm [20]は、GPTシリーズに似た構造を持つGoogleが提案した言語モデルで、最近、Googleが画像機能を組み合わせたマルチモーダルモデルPalm-Eを発売しました。 Lamda [22]は、より自然で人間のような言語モデルを生成するためにGoogleによって開始された言語モデルであり、LamdaはGPT-3に基づいて改善され、より多くの対話シナリオと感情的な理解能力が追加され、人間の対話と思考をよりよく模倣できます。 Googleの研究者であるBlake Lemoineでさえ、Lamdaをしばらくテストした後、嘆き悲しみました。Lamdaはすでに個性を持っているかもしれません。
Anthropic's Claude：Anthropicは、Openaiの辞任した従業員によって設立され、GoogleのR＆Dによって支援された人工知能会社です。彼らは最近、LLM：Claudeを発売しました。現在、Cluadeの効果はChatGPTよりわずかに強いですが、GPT-4よりも著しく弱いです。

上記に加えて、外国のLLMには、BigScience's Bloom、Stanford's Alpaca、Microsoft's Metalm、Kosmos-1など、国内のHuaweiのPangue、Tencent's Welmなどが含まれます。これらの一般的なモデルに加えて、LLMは、医療分野のHuatuo [23]、金融分野のBloomberggpt [24]などの細分化された分野でも使用されています。

5. 結論

GPT-4が第4回産業革命をもたらすかどうかは、検証するのに時間を必要とするトピックであり、私はここで結論を出す資格がありませんが、GPT-4の私への影響は個人的には巨大です。

まず第一に、マクロ物理学の多くの定理が有効ではないように、従来の人工知能の私の理解を揺さぶりました。強力なゼロサンプルの学習能力とそれが示す高次の機能は、深い学習に対する私の伝統的な理解をはるかに超えています。

第二に、GPT-4とChatGPTは、この記事を書くだけでなく、いくつかの非労働問題を解決するのに役立つだけでなく、毎日の仕事で最も効果的なアシスタントになります。最後に、雨が雨が降った後にキノコのように現れた多くの異なる大きなモデルは、ますます見苦しい深い学習に新たな自信と活力を注入しました。

GPT-4の技術については、誰もがそれを理解し、それを使用することを学ぶことをお勧めします。あなたの仕事がコンピューターに関係しているかどうかに関係なく、それはあなたを助けます、そしてあなたがシェフであっても、それはあなたにおいしいレシピを生み出すかもしれません。 GPT-4を使用する場合、GPT-4にわずかなリスクの問題がある場合にのみ、合理的に生成されたコンテンツを調べる必要があります。

将来、GPT-4は間違いなく多くの影響をもたらします。まず、GPT-4を使用して生成された大量のコンテンツは、統合されたGPT-4行動パターンの影響を受けるかどうかを熟考する価値があります。第二に、GPT-4は特定のジョブの生産性を大幅に解放し、この機会をつかむことができるかどうかさえ、このcroな環境で新しい機会を見ることができます。最後に、GPT-4の形式は、GPT-4が実際にAGIをもたらす場合、すべての友人がそれを見逃さないことを願っています。

参照

[1] https://cdn.openai.com/papers/gpt-4.pdf
[2] https://zhuanlan.zhihu.com/p/614340292
[3] Chen M、Twok J、et al。
[4] Bai、 Yuntaoなど
[5] Wei J、Tay Y、Bommasani R、et al。
[6] Wei J、Wang X、Schuurmans D、et al。
[7] Huang J、Gu SS、Hou L、et al。
[8 ] Radford、等式。
[9] Guillaume LampleとAlexis Conneau。
[10] Zihang Dai、Zhilin Yang、Yiming Yang、Jaime Carbonell、Quoc V.Le、およびRuslan Salakhutdinov： ARXIV PREPRINT ARXIV：1901.02860 、2019年。
[11] Rewon Child、Scott Gray 、Alec Radford、およびIlya Sutskever。
[12 ] Huang、Shaohan、「言語は必要ではありません。
[13 ] Hao、Yaru、 "言語モデルは汎用インターフェースです。
[14 ] Zhang、et al
[15 ] Liu、Tianyuなど
[16] Zhou 、Chunting et al。
[ 17 ] Zhengxiao、「GLM：Autoregressing Blank Infilling」
[18 ] Zhao、Wayne Xin、「大規模な言語モデルの調査。」
[19] Touvron、Hugo、「Llama： Arxiv Preprint Arxiv：2302.13971 （2023）。
[20] Chowdhery、Aakanksha、 "Palm： Arxiv Preprint Arxiv：2204.02311 （2022）。
[21] Driess、Danny、「Palm-E：具体化されたマルチモーダル言語モデル： 2303.03378 （2023）。
[22] Thoppilan、Roman、「Lamda： Arxiv Preprint Arxiv：2201.08239 （2022）。
[23] Wang、Haochun、 "Huatuo：中国の医療知識を備えたチューニング。
[24] Wu、Shijie、 "Bloomberggpt： Arxiv Preprint Arxiv：2303.17564 （2023）。
[25] Bubeck、 Sébastien 、et al。
[26] Lin、Stephanie 、 Jacob Hilton、およびOwain Evans。