序文GPT-4はリリースされてからしばらく経ちますが、セキュリティなどのさまざまな理由から、OpenAIはGPT-4の技術的な詳細やコードを公開していません。代わりに、100ページに及ぶ技術レポート[1]のみを公開しています。 この技術レポートは GPT-4 の能力に焦点を当てており、いくつかの技術的な方向性の概要のみを示していますが、技術的な詳細を理解したい人にとっては十分ではありません。 この記事では、GPT-4の技術レポート、GPT 3.5/ChatGPTに対するGPT-4の改良点、GPT-4とChatGPTの比較、OpenAIの最近の取り組み、大規模言語モデル(LLM)モデルの科学的研究の進歩、マルチモーダルモデルの科学的研究の進歩などの情報を組み合わせて、GPT-4の技術的な詳細を深く分析します。 GPT-4 がこれを実行するという明確な証拠がないため、ここでは主に OpenAI が GPT-4 のこれらの機能を実現するために使用した可能性のあるテクノロジーについて説明します。したがって、私の推測が間違っている場合は、読者の皆様はコメント欄で議論していただければ幸いです。次に、シャーロック・ホームズに変身して、GPT-4 の原理を分析してみましょう。 1. GPT-4の改良GPT-4 は ChatGPT に基づいて反復されます。ここでは ChatGPT の原理について詳しく説明しません。詳しく知りたい場合は、「ChatGPT/InstructGPT 詳細説明」の記事で紹介した内容を参照してください。この記事では、まず、GPT-4 が ChatGPT と比較してどのような改善を行ったか、つまり、GPT-4 が ChatGPT と比較してどのような機能改善を行ったかについて説明します。次に、これらの改善を実現するために OpenAI が GPT-4 に適用した可能性のあるテクノロジーについて説明します。最後に、他の大規模言語モデルと GPT-4 の使用に関する考えについて説明します。 1.1 ゼロショット学習と少数ショット学習の機能GPT-4 をテキスト生成に使用すると、GPT-4 がすべての難しい質問にほぼ完璧に答えられることに驚きます。これは、GPT-4 が非常に強力な教師なし学習機能を備えていることを示しています。 さらに、GPT-4 の技術レポートには、教師なし学習の例も多数掲載されており、シナリオによっては教師あり SOTA 手法に近づいたり、それを上回ったりすることもあります。例えば、HumanEval[3]のコード生成データセットでは、有名なコード生成ツールCodeX[3]を上回りました。さらに、正確性を評価するための質問応答データセットTruthfulQA [26]では、GPT-4はSOTA Anthropic-LM [4]に近づいています。 1.2 論理的推論能力GPT-4 の技術レポートでは、図 1 に示すように、多くの学術試験で ChatGPT よりも優れた点が強調されています。学術テストの評価では、GPT-4 は ChatGPT よりも論理的推論能力が優れていることが反映されています。 @岳玉涛Maxは、GPT-4とChatGPTの論理的推論問題を19の質問で比較しました[2]。ChatGPTの正解率は37%でしたが、GPT-4の正解率は100%でした。比較例から、GPT-4が論理的推論において質的な飛躍を遂げたことがはっきりとわかります。 図1: 多くの学術試験におけるGPT-4とChatGPTのスコアの比較 ここでも簡単な論理的推論の問題が見つかりました。この橋を渡る例では、ChatGPT は橋を渡る順序を与えたものの、時間の計算が間違っていましたが、GPT-4 はこの問題をシンプルかつ明確に解決したことがわかります。 **質問: **4 人の ABCD が橋を渡っています。一度に渡れるのは最大 2 人です。懐中電灯の持続時間は 17 分です。各人に必要な時間はそれぞれ 1、2、5、10 分です。全員が最も速く橋を渡るのにかかる時間はどれくらいでしょうか。 **ChatGPT: **4 人ができるだけ早く橋を渡るためには、一番遅い人ができるだけ早く橋を渡れるようにする必要があります。したがって、最初に最も遅い 2 人の A と B に橋を渡らせ、次に A を戻らせ、次に 2 番目に遅い C と D に橋を渡り、最後に B を戻らせることで、橋を渡るプロセス全体を完了することができます。 具体的には、以下の手順に従います。 AとBは橋を渡りますが、これには10分かかります。 Aが戻ってきて、1分かかります。 CとDは橋を渡ります。これには5分かかります。 Bが戻ってきて、2分かかります。 AとBは橋を渡ります。これには10分かかります。 したがって、かかった時間の合計は 10 + 1 + 5 + 2 + 10 = 28 分になります。これは橋を渡るのにかかる最速の時間です。 GPT-4 : 4人全員ABCDができるだけ早く橋を渡れるようにするには、次の戦略を採用できます。 AとBは一緒に橋を渡りますが、2分かかります。 Aは1分後に戻ります。 CとDは一緒に橋を渡りますが、所要時間は10分です。 Bは2分後に戻ってきます。 AとBは一緒に橋を渡りますが、2分かかります。 合計時間: 2 + 1 + 10 + 2 + 2 = 17 分。 つまり、全員が橋を渡るのに最も時間がかかるのは 17 分です。 1.3 チャートを理解する能力GPT-4 の大きな改善点は、マルチモーダル性を取り入れ始めたことです。GPT-4 の画像インターフェースはまだ公開されていないため、ここでは GPT-4 の技術レポートに記載されている例を借用します。図 2 では、GPT-4 は VGA ポートと Lightning ポート間の不一致を正確に理解できます。この例は、GPT-4 が単に画像の内容を理解する以上の機能を備えていることを示しています。その最も強力な機能は、画像内の特別なポイントを識別する機能です。 図2: GPT-4は強力なグラフと表の理解能力を備えている 1.4 より安全なテキスト生成機能GPT-4 に関する技術レポートでは、GPT-4 には以前のモデルと同じセキュリティ上の問題があるものの、GPT-4 のセキュリティは大幅に改善されているという事実に焦点が当てられています。技術レポートでは、ChatGPT が有害なコンテンツを生成する可能性は GPT-4 よりも約 10 倍高いと指摘されています。図3は、リスク警告付きの初期のGPT-4と成熟したGPT-4によって生成された大量のコンテンツを示しています。成熟したGPT-4の危険性が大幅に軽減されていることがわかりますが、これはGPT-4が完全に無害なモデルであることを意味するものではありません。 図3: 生成されたコンテンツのセキュリティの観点から見た初期のGPT-4と成熟したGPT-4の例 GPT-4 は、モデルのセキュリティを確保するために多くの作業を行ってきました。まず、敵対的テストとレッドチームテストを実施するために、さまざまな分野の 50 人以上の専門家を雇いました。次に、モデルのトレーニングを支援するために、ルールベースの報酬モデル (RBRM) をトレーニングしました。この部分の実装の詳細については、後ほど詳しく説明します。 1.5 プログラミングスキルの向上GPT-4 の技術レポートにおけるもう 1 つの重要な比較項目は、LeetCode での 3 つの異なる難易度 (簡単、中程度、難しい) での ChatGPT によるコード生成能力です。教師なし学習の場合、HumanEval データセットにおける GPT-4 の評価精度は ChatGPT の 48.1% から 67.0% に向上しました。 GPT-4 の技術レポートでは、ChatGPT は LeetCode の 166 個のプログラミング質問のうち 20 個しか正しく回答しなかったのに対し、GPT-4 は 55 個を正しく回答したと指摘されています。表1は、LeetCodeの166のプログラミング問題におけるGPT-4とChatGPTの具体的な分布を示しています。
表1: LeetCodeプログラミング問題におけるGPT-4とChatGPTのパフォーマンス 1.6 他の言語を扱う能力GPT-4 は英語と非英語の両方で大きな改善を遂げ、ほとんどの言語で英語における ChatGPT のパフォーマンスを上回りました。ここでは、ChatGPT と GPT-4 に、「Let the Bullets Fly」の Master Tang の要件である「風がなければならない、肉がなければならない、鍋がなければならない、霧がなければならない、美女がなければならない、ロバがなければならない」に応じて詩を書いてもらいます。 2 つの詩を比較すると、ChatGPT によって書かれたものは文学的な才能のない現代詩のように聞こえますが、GPT-4 によって生成されたコンテンツは、最初の 2 つの部分に単語が多すぎることと、ある程度韻を踏んでいることを除けば、基本的に古代中国の詩のように見えます。 チャットGPT: 風が丘を吹き抜け、肉の香りが漂い、鍋が湯気を立て、霧が漂い、美しさは優雅で、ロバは楽しそうに駆け回っています。これは、人々にリラックスして幸せな気分を与えるユニークな絵巻です。風が乱暴に吹き、肉の香りが漂い、鍋の具材は人々のよだれを垂らします。霧は神秘に満ち、美しい女性の顔に人々は酔いしれ、ロバの喜びは人々に生命の活力を感じさせます。これは、人々を魅了する生命力に満ちた絵巻です。 GPT-4: うねる風が渓流を乱暴に吹き抜け、 美女はロバの背中を撫でた。 燃えるような赤いキノコが熱狂的に回転し、 霧は埃っぽい世界を浄化します。 1.7 より長いシーケンスを処理する能力ChatGPT が処理できる最大のシーケンスは 4K トークンであり、OpenAI は 8k と 32k の 2 つのモデルをリリースしており、各漢字は約 2 ~ 2.5 トークンを占めます。 GPT-4 トークンの価格は、命令と応答に基づいて決定されます (表 2)。32k は 8k の 2 倍の値段です。ChatGPT の 1,000 トークンあたり 0.02 ドルと比較すると、GPT-4 は約 15 倍高価です。
表2: GPT-4の充電詳細 GPT-4のさらなる機能の探求に関しては、マイクロソフトリサーチレドモンドの機械学習理論グループの責任者であるセバスチャン・ブベック氏が、新たに発表された155ページの論文[25]で広範な議論を行った。 彼らは、GPT-4 がテキスト生成モデルが理論的に達成できる範囲をはるかに超えるパフォーマンスを発揮し、汎用人工知能 (AGI) の火を点けるきっかけになったと指摘しました。GPT-4 はすでに、推論、計画、問題解決、抽象的思考、複雑なアイデアの理解、迅速な学習、経験からの学習といった非常に強力な能力を備えています。 2. GPT-4の技術的解決策の推測私たちが発見した GPT のこれらの改善により、LLM の現在の進歩と OpenAI の取り組みを組み合わせて、GPT-4 の可能な技術的解決策を推測することができます。公開されているアルゴリズムは推測にしか頼れないため、OpenAI が内部的に非公開のアルゴリズムをソリューションとして使用している可能性も否定できません。そのため、私の推測が間違っていたとしても、いくつかの独立したアルゴリズムを学習しているとみなすことができます。
以下では、私たちの推測の根拠を示し、これらの推測の手法を簡単に紹介します。 2.1 創発的能力創発能力は、LLM が画期的な進歩を遂げるための最も重要な中核技術です。創発能力とは、トレーニング プロセス中にモデルが高度で複雑な機能や動作を自動的に学習することを指します。これらの機能や動作は直接エンコードまたは指定されていません。 この機能により、モデルを再トレーニングしたり変更したりすることなく、新しい機能や動作を適応的に学習できるため、新しい未知のタスクを処理するときにモデルのパフォーマンスが向上します。図4は、GPT-3を含む多くのLLMが非常に強力な創発能力を示していることを示しています。つまり、モデルパラメータの数などの指標が特定の指標を超えると、そのパフォーマンスが急速に向上します。ここで、GPT-4 のゼロショットおよび少数ショットの学習機能は、大規模モデルの創発機能から派生したものであると結論付けることができます。 モデルの出現能力は主に以下の 4 つの点に依存します。
その中で、モデルパラメータの数は最も重要な要素です。 図4: GPT-3などの多くの大規模モデルは、複数のタスクで新たな能力を発揮している 2.1.1 モデルパラメータGPT-4 のパラメータ数は誰もが議論しているトピックです。GPT-4 は ChatGPT や追加の画像エンコード モジュールよりも強力な創発機能を備えていることを考慮すると、GPT-4 のパラメータ数は ChatGPT よりも少なくないはずです。図5は、ARK Investが計算したChatGPT TurboとGPT-4の各トークンの予測時間を示しています。GPT-4にかかる時間はChatGPTの約4倍です。さらに、GPT-4 はモデルの推論速度を加速するためにいくつかの戦略を使用する可能性が高いため、GPT-4 のテキスト モデルのパラメーターはおよそ数千億ですが、1 兆に非常に近いです。 GPT-4が画像エンコードにCLIPを使用する場合、OpenAIの論文によると、現在最大の画像エンコーダーは残差ネットワークを64倍に拡大したものなので、GPT-4の画像エンコードは約16億になります。もちろん、GPT-4が他の画像符号化構造を使用している可能性も否定できません。例えば、Transformerを使用しているKOSMOS-1[12]は良い選択です。画像部分のパラメータ数については、より関連性の高い情報が公開されるまで待つしかありません。 図5: ChatGPTとGPT-4が各トークンの予測に費やした時間の割合に関するARK Invest統計 2.1.2 モデルアーキテクチャ確かなことは、GPT-4 の技術レポートでは、GPT-4 がトランスフォーマーベースのアーキテクチャを採用していること、つまり、コアアーキテクチャが依然として GPT シリーズのデコーダーのみの構造を採用していることが指摘されていることです。 GPT-4 モデルの内部構造については、確認できる詳細はあまりありません。GPT-4 の速度と長いテキストを処理する能力を考慮すると、その内部構造には 2 つの可能性があります。
GPT-4 は画像入力もサポートしているため、画像エンコードに関する部分があり、これについてはセクション 2.3 で詳しく説明します。 2.1.3 トレーニング戦略とトレーニングデータGPT-4 は基本的に ChatGPT と同じトレーニング戦略を維持しています。つまり、図 6 に示すように、事前トレーニング + プロンプト + 予測というパラダイムに基本的に従います。ここでは主に3つの点を含むGPT-4の改良点について紹介します。
図6: ChatGPTモデルのトレーニング手順 GPT-4 の最初の改良点は、ルールに従って記述された 4 つの分類モデルである RBRM の導入です。その 4 つのカテゴリは次のとおりです。
GPT-4 は、図 6 のステップ 3 の PPO ステージで使用されます。モデルのセキュリティを向上させるために、ChatGPT はステップ 3 で人間のフィードバックによる強化学習 (RLHF) を使用してモデルをトレーニングします。 ChatGPT のデータのこの部分は、GPT-3 の API ユーザーから取得されます。GPT-4 では、ここで RBRM が追加されます。その目的は、正しい報酬誘導モデルのトレーニングを通じて、有害なリクエストの生成を拒否し、無害なリクエストを拒否しないことです。 ルールを使用して NLP モデルを構築することには長い歴史があります。実際、最も初期の NLP モデルはルールベースのモデルであり、その後に確率ベースのモデル、ニューラル ネットワーク ベースのモデルが続きました。 たとえば、シャノンは離散マルコフ過程の確率モデルを使用して言語オートマトンを記述しました。また、私たちがよく使用する正規表現は、典型的なルールベースのテキスト モデルです。ルールベース モデルの利点は、トレーニング データが必要ないことです。欠点は、ルールを設計するためにドメイン エキスパートが必要になることが多く、特定の分野内の問題しか解決できないことが多いことです。ここでの私の推測は、RBRM はドメイン エキスパートによって設計され、正規表現、有限状態マシンなどの一連のテキスト ルールから記述されたゼロ ショット分類器であるということです。 近年、ルールベースの強化学習も広く言及されています。強化学習の重要な最適化目標は、探索空間の範囲を縮小することであり、このタスクはルールの制約によって完了できます。ルールによって制約された後、強化学習を使用して残りのスペースを探索します。これにより、強化学習の探索スペースが削減され、収束速度を効果的に向上できます。 GPT-4 の RBRM の動作原理を図 7 に大まかに示します。 図7: RBRMの動作原理 2) マルチモーダル手がかり学習 GPT-4 は、マルチモーダル機能に関する詳細な技術的詳細を提供しておらず、画像インターフェースはパブリックベータ版には公開されていません。しかし、GPT-4 レポートのようなマルチモーダル分野でも同様の研究があるかどうかを確認することはできます。偶然にも、今年初めにマイクロソフトがリリースしたKOSMOS-1[12]は非常に強力なマルチモーダルQA機能を備えており、そのコンセプトはGPT-4と非常によく似ています。GPT-4はKOSMOS-1と同様のマルチモーダルプロンプト方式を採用していると推測できます。 KOSMOS-1 は、テキスト生成、画像キャプション生成、マルチモーダル QA の 3 種類のデータセットをサポートしています。図 8 は、画像キャプション生成と QA 生成における KOSMOS-1 の例です。図8(a)の画像記述生成では、モデルの入力は画像の埋め込みであり、出力は予測された画像記述です。図 8 (b) のマルチモーダル QA では、KOSMOS-1 は画像の埋め込みとテキストの埋め込みを一緒に入力し、それらを使用して質問に対する回答を予測します。 図8: KOSMOS-1のマルチモーダル入力の例 3) 思考の連鎖 GPT-4 は ChatGPT よりもはるかに強力な論理的推論機能を備えています。モデルをトレーニングするときは、思考の連鎖を使用してプロンプト サンプルを構築する必要があります。 Thinking Chain は、プレーンテキスト入力だけでなく、テキストと画像のマルチモーダル入力もサポートしています。この重要なコンテンツを紹介するセクションを用意しました。 4) 容量予測 特定のタスクでモデルをトレーニングする場合、そのタスクでのモデルの最終的なパフォーマンスを予測できることが期待されます。これがモデルの能力予測です。自然言語処理および大規模言語モデルの分野では、機能予測とは通常、特定のタスク、ドメイン、またはシナリオにおけるモデルのパフォーマンスを予測および評価することを指します。 能力予測の目的は、モデルのパフォーマンスをより深く理解し、モデルを最適化、調整、または改善できるようにすることです。モデルの機能を予測することで、モデルの長所と限界をより深く理解し、モデルのさらなる開発と改善のための貴重なフィードバックを提供できます。 GPT-4 はトレーニング中に能力予測も使用するため、モデルの有効性をより正確に評価し、トレーニング コストを節約できます。 2.2 論理的推論能力OpenAIはGPT-4の推論能力を向上させるために、近年非常に重要視されているLLMの思考連鎖と自己改善機能を活用する可能性が高い。これらは、論理的推論能力の学習をターゲットを絞って最適化するためのプロンプトとして見ることができます。以下で、それらを 1 つずつ紹介します。 GPT-4 の技術レポートからは、GPT-4 のトレーニングに思考連鎖や自己改善が使用されたという証拠が多数見つかります。 2.2.1 思考の連鎖思考の連鎖とは、人々が考えているときに、特定の視点、アイデア、または知覚刺激によって引き起こされる一連の関連する思考の連想とつながりを指します。これらの関連性は、人々の記憶、経験、知識、感情、意識を通じて確立され、強化され、最終的には人々が問題を理解して解決し、決定を下し、行動を起こすのに役立つ有機的な思考の連鎖を形成します。思考の連鎖は人間の思考活動の重要な部分であり、人間の思考スタイル、思考習慣、思考効率を反映しています。思考の連鎖を構築し強化することで、物事の本質と法則をよりよく理解・把握し、より効果的に問題を解決し、意思決定を行うことができます。 人工知能の分野では、研究者たちは機械学習や自然言語処理などの技術を使用して人間の思考チェーンをシミュレートし、機械の思考チェーンを確立して、機械が人間の言語や行動をよりよく理解して処理し、よりインテリジェントなアプリケーションやシステムを実現できるようにする方法も研究しています。 OpenAIの論文[6]は、思考連鎖の方向性において非常に意義深い論文であり、GPT-4が使用する可能性が高い技術的解決策でもあります。この論文では、思考連鎖プロンプトを構築することでモデルの推論能力を向上させることを提案しています。思考連鎖も新たな能力であり、少数のサンプルを提供するだけでモデルの論理的推論能力を大幅に向上させることができます。 思考連鎖と従来のプロンプト学習の違いは、プロンプトに推論プロセスが追加され、入力、思考連鎖、出力の 3 つで構成される 3 つが構築される点です。図 9 は、従来のプロンプトと思考連鎖プロンプトの例です。 図 9: 従来のプロンプト学習と思考チェーン プロンプト学習。思考チェーンは入力に推論プロセスを与え、モデルが推論能力を学習できるようにします。 思考チェーンはマルチモーダル入力もサポートしており、GPT-4 の技術レポートでも GPT-4 がマルチモーダル思考チェーンを使用していることが指摘されています。図 13 の GPT-4 の例は、モデルが思考の連鎖を使用してトレーニングされたため、推論プロセスが含まれた典型的な予測結果です。図10は上海交通大学とアマゾンが最近発表したマルチモーダル思考連鎖フレームワークであるMultimodel-COT [14]である。 2 つのステージで構成され、2 つのステージはパラメータを共有します。最初の段階では、画像とテキストをモデルに入力して、理由や思考の連鎖を生成しました。第 2 段階では、元の入力と生成された理由を組み合わせてモデルに入力し、回答を生成しました。 図10: マルチモデルCOTの推論プロセス 2.2.2 自己宣伝2022年に発表された論文[7]で、GoogleはLLMとマインドチェーンを組み合わせることで、教師なしデータを使用してモデルが自己改善できることを指摘しました。そのコアメソッドを図11に示します。 GPT-4は、モデルのユーザー意図追従能力を向上させるために[7]のソリューションを使用したことも指摘した。 図11: LLMは大規模モデルを通じて自らを改善できる 計算手順は以下のとおりです。
この方法で得られた答えが必ずしも正しい答えではないことに気づいたかもしれません。著者は実験を通じて 2 つの重要な結論を得ました。
推論パスを取得した後、著者はこのパスに基づいて次の 4 つの異なる入力データを構築しました。
最後に、データセットを充実させるために、著者らはデータを拡張する 2 つのソリューションを提案しました。1 つは 2 つの質問をランダムに組み合わせて、モデルに新しい質問を生成させることです。もう 1 つは、モデルに推論手順を生成させて、それをトレーニング セットに追加させることです。 2.3 チャートを理解する能力GPT-4は画像形式でのグラフ入力をサポートしているため、OpenAIの有名なマルチモーダルアルゴリズムCLIP[8]では、図12に示すように、対照学習を通じて画像とテキストを同じ特徴空間にマッピングできると述べています。そして、CLIPの画像エンコーダーと組み合わせることで、GPT-4の画像入力を実現できます。このとき、GPTのテキスト特徴と整合できる画像エンコーダーをトレーニングし、CLIPの画像エンコーダーの出力を画像トークンとして使用する必要があります。最後に、埋め込みレイヤーを追加して、このトークンをGPT-4の特徴ベクトルにエンコードします。 図12: 対照学習により画像とテキストを同じ特徴空間に投影するCLIPの構造。 図 2 のような写真の例を理解できることに加えて、最も驚くべきことは、GPT-4 が図 13 のような多くの詳細を含む学術的な写真も理解できることです。学術画像では、画像に表される記号や物体同士の位置関係が非常に重要になります。GPT-4 がたった 1 枚の画像エンコーディングでこれらの詳細な情報を捉えられるのであれば、この画像エンコーダーは非常に強力な創発能力を発揮しているはずであり、この画像エンコーダーのパラメータ数も数千億に上る可能性が高いです。 図13: GPT-4は学術画像内の特定の詳細を理解する能力を持っている GPT-4 のマルチモーダル機能のもう 1 つの可能性は、マルチモーダル大規模言語モデル (MLLM) に似ていることです。その中で、マイクロソフトの KOSMOS-1 は、GPT-4 に類似したマルチモーダル言語モデルの機能を実証しました。また、図 14 に示すように、KOSMOS-1 は、マルチモーダル質問応答において非常に強力な出現能力も実証しました。 KOSMOS-1はTransformerデコーダーをベースにしたマルチモーダルモデルであり、異なるモダリティのデータを連結する。例えば、<s>と</s>はテキスト入力を表し、<image>と<\image>は画像入力を表す。画像の埋め込みには、MicrosoftのMETALM[13]によって計算された特徴ベクトルを使用する。 GPT-4 は KOSMO-1S からアイデアを借用し、それを OpenAI 独自のマルチモーダル作業の一部と組み合わせたのではないかと推測しています。 図14: マイクロソフトのKOSMOS-1は非常に強力な画像理解能力を示している GPT-4 のマルチモダリティに関する技術的な詳細については、GPT-4 の画像インターフェースが公開されるまで待って、さらにテストを行って調べることができます。 2.4 より安全な出力既存のディープラーニング モデルの考え方は、大規模なモデルを使用してトレーニング セットに適合させることです。生成モデルの場合、その出力内容は完全に制御可能ではなく、GPT-4 も例外ではありません。 GPT-4 の技術レポートでは、テキスト モデルには、幻覚、有害コンテンツ、差別、虚偽情報、暴力、プライバシー、ネットワーク セキュリティなどの危険な出力が含まれると指摘されています。 GPT-4 はこの問題を大幅に軽減します。 GPT-4 のリスク軽減出力の最初の問題は、敵対的テストのレッドチームとして活動するために、さまざまな分野から 50 人以上の専門家を雇うことでした。レッドチームの仕事は、GPT-4 によって与えられた出力をテストするために危険な質問をし、それを克服しようとすることです。 OpenAI はドメイン専門家間の対決を通じて、GPT-4 のセキュリティを向上させるために、さまざまな方向から大量のドメイン専門家のデータを収集しました。 2.4.1 幻覚幻覚は、生成モデルが解決するのが非常に難しい問題です。これは、モデルによって生成された不条理または非現実的なコンテンツ、つまり深刻なナンセンスを指します。この幻覚的な動作は、モデルによって生成されたコンテンツがより流暢で説得力のあるものになるにつれて、特に有害になります。モデルが幻覚を生み出す理由は、次のようにまとめることができます。
GPT-4 はこの問題を解決するために 2 つの戦略を使用します。 最初の方法は、ChatGPT データをトレーニングに使用することです。この方法の利点は、当時の ChatGPT がすでに有害コンテンツの生成を拒否する一定の能力を備えており、インターネットからクロールされたデータよりも信頼性が高かったことです。しかし、問題は ChatGPT の問題が GPT-4 に引き継がれる可能性があることです。さらに、あるモデルで生成されたコンテンツを別のモデルのトレーニング データとして使用すると、モデルの過剰適合につながる可能性があります。 2 番目のアプローチは、自動評価と手動評価の両方を含む、モデルによって生成された幻覚サンプルを検出するために NLP 技術を使用することです。この方法の利点は、モデルによって引き起こされる幻覚の問題を効果的に検出し、修正できることです。自動評価に頼る方法では、評価モデルの欠陥により幻覚サンプルの一部が見逃される可能性があることが欠点であり、手動評価の最大の問題は人件費が非常に高いことです。 Meta は幻覚の検出に非常に重要な貢献をしました。一方で、彼らは幻覚検出タスクを提案し、このタスクのために幻覚検出データセットHadesを作成しました。このモデルは、生成されたコンテンツの信ity性を評価するために文に表示される幻覚的な単語を検出し、それにより幻覚の可能性を減らすことができます。図15は、マシン翻訳のこの方法の例であり、1とラベル付けされた部分は生成された幻覚コンテンツに対応しています。ここでは、Openaiがメタと同様の方法またはデータを使用している可能性があると推測されています。 図15:機械翻訳で公正によって提案された幻覚検出方法の例 具体的には、OpenAIは、GPT-4自体を使用して幻覚があるかどうかに関する比較データを生成するためのマルチステッププロセスを設計し、図6のステップ2の報酬モデルのトレーニングセットに組み込みます。
2.4.2その他の問題Openaiは、他の可能なリスク出力に関する技術ソリューションの詳細な紹介を提供していませんでしたが、技術的なソリューションから、おそらく次の方法を使用したことがわかります。
2.5プログラミングスキルGPT-4は、ChatGPTと比較してプログラミング能力を大きく進めています。 Codexは、コード生成の分野におけるGPT-3の派生バージョンであり、Copilotプラグインの背後にある基本的なアルゴリズムでもあります。 Codexは、GPTシリーズのデコーダーのみのアーキテクチャを採用しており、モデルパラメーターは12mから12bの範囲の異なるバージョンで使用できます。コーデックストレーニングは、トレーニング前と微調整の2つの段階に分かれています。 トレーニング前の段階では、Openaiは最初にGithubから多数のPythonファイルをrawったので、クリーニング後、サイズが159GBのトレーニングセットを取得しました。 Codexはコード生成モデルであるため、GPT-3でトレーニングされた重みを使用せず、代わりにGPT-3のモデルハイパーパラメーターを完全にコピーしません。 微調整段階では、Openaiは競争ウェブサイト、インタビューWebサイト、およびGitHubでユニットテストスクリプトから約40,000個のデータを収集しました。コードの正確性を評価する際、Codexは従来のBLEUスコアを使用しません。代わりに、コードが評価基準として渡すことができる単体テストの割合を使用し、評価テストセットと評価標準パス@kを確立します。 データの漏れを回避するために、Humanevalのデータはすべて、合計164の質問や多数のテストケースを含む人間によって構築されています。 Humanevalは、各関数を4つのカテゴリ、すなわち関数の署名、関数注釈、関数本体、および単体テストサンプルに分割します。ヒント学習を実行する場合、関数の署名と関数のコメントは入力ヒントとして使用され、関数体は必要な出力として使用され、単体テストは生成されたコードの有効性を評価するために使用されます。 Codexの評価注釈は、LeetCodeのものと似ています。つまり、テストの標準パス@Kは、モデルのすべての回答からランダムに選択された回答を取得する確率を表します。その計算方法は、式(1)に示されているとおりです。ここで、nは各質問に対して生成された回答であり、kはn回答からランダムに選択されたkの回答であり、cはn回答の間で単体テストに合格する回答の数です。 CodexとGPT-4はどちらもGPT-3の次世代モデルです。GPT-4がCodexの既存のアイデアとデータを使用し、モデルのプログラミング機能を改善することができます。 2.6多言語機能Openaiは、GPT-4の他の言語における能力の大幅な改善の紹介を提供していませんでしたが、関連する説明は見つかりませんでした。ここでは、現在の技術的蓄積に基づいてOpenaiが使用する可能性のある技術的ソリューションについて推測します。
実際、この部分に関連する情報はあまりありません。コメントセクションで独自の推測をすることを皆さんが歓迎します。 2.7長いシーケンス機能ここでの長いシーケンスには、GPT-4がマルチラウンドの会話をサポートし、他方では、より長い入力データをサポートします。 2.7.1マルチターンダイアログCHATGPTとGPT-4の両方は、継続的な会話をサポートしていますが、Openaiは継続的な会話能力の背後にある技術的なソリューションを提供したことはありません。会話の各ラウンドで、以前の会話は、再び入力としてモデルに大まかに提供されます。理論的には、このアプローチの最大の問題は、会話ラウンドの数が増えると、入力データも急速に増加することです。 この問題をモデルの観点から解決したい場合、この問題を解決できるアルゴリズム、つまりトランス-XL [10]があります。図16に示すように、変圧器-XLの重要な改善は、提案されたフラグメント再回帰メカニズムです。フラグメントの再帰メカニズムは、トランスとRNNの組み合わせに似ています。 図16:トランス-XLのフラグメント再帰メカニズム ChatGPTとGPT-4の間の複数の会話を振り返ると、OpenaiはTransformer-XLからのフラグメント再帰のアイデアを借りていると推測します。つまり、GPT-4が$ t $ラウンドの計算を実行すると、T-1ラウンドのキャッシュされた機能とT-Theラウンドの特徴が一緒に追加され、現在のラウンドの計算が追加されます。 T-1ラウンドはT-2ラウンドの特性も考慮しているため、理論的には、この方法は予測時間に影響を与えることなく、多くの以前のラウンドの会話コンテンツを取得できます。 2.7.2長いシーケンス入力入力長nの変圧器の複雑さはO(n^2)であるため、従来の変圧器は長いシーケンスの問題に対処するのに苦手です。トランスのデフォルトの入力長は512です。長さ512を超える入力データのソリューションは、長さ512の複数のテキストブロックに分割することですが、これにより、コンテキストの断片化の問題が発生します。 ここでは、長シーケンス入力を解くために使用されるOpenai独自のアルゴリズムを紹介します[11]。なぜなら、GPT-3は通常のトランスの混合モードであるため、GPT-4は長いシーケンステキストを処理するために使用するモデルでもありますが、通常のトランスと混合される方法は不明です。スパーストランスの特徴は、最も寄与するトップK特性の状態にのみ焦点を当てていることです。従来の変圧器の集中的な注意コアは、ストライプされた注意と固定された注意に分解されます。各注意コアは、列の注意コアとカラムの注意コアに分割されます。分解された注意コアはまばらであり、図17に示すように、モデルの複雑さを大幅に減らします。 図17:高密度でまばらな注意 GPT-4はより長いデータのシーケンスをサポートしているため、長いデータを効率的に処理するために、トランスの2つのバリアントもリストしました。 GPT-4のテクニカルレポートは遠すぎるため、Openaiの公式発表を待つことしかできません。 2.8技術的なソリューションの概要このセクションでは、多くの技術的ソリューションについて説明しましたが、一部は比較的高い信頼性を持っていますが、他のセクションでは推測が高いものもあります。次の表は、各ソリューションの信頼性を示しています(1から5に徐々に増加します)。
上記の推測に基づいて、GPT-4の技術的なソリューションは次のとおりであると推測できます。
3。GPT-4の開発方向最近、私はGPT-4とChatGPTを毎日の仕事に適用しました。GPT-4の強力な能力に深くショックを受けました。毎日のプログラミングや記事の執筆作業を完了するのに役立つだけでなく、毎日の些細な問題を解決し、仕事の効率を大幅に改善するのにも役立ちます。ここでは、GPT-4の開発の方向性について説明し、GPT-5の開発の可能性を予測しているGPT-4に関する数え切れないほどの記事があります。 3.1 GPT-4の最適化方向GPT-4は、テキスト生成、コード生成、画像理解、および論理的な推論能力に強力な能力を示していますが、将来の作業にはまだ多くの重要な方向性があります。
3.2 GPT-4の適用その強力な世代と論理的推論能力により、GPT-4は私たちの働き方に大きな影響を与えることができます。この記事の多くの読者は、アルゴリズム関連の科学的研究と仕事に従事していると信じています。ここでは、私の経験に基づいてより役立つと思ういくつかの方向をリストします。
GPT-4は、幻覚などのセキュリティの問題を完全に解決しないことに注意してください。また、GPT-4のセキュリティ問題が解決する前に、専門家が常にチェックする必要があり、GPT-4のセキュリティ問題が生成モデルのライフサイクル全体に伴う可能性があるため、GPT-4はこの分野に従事する専門スタッフを置き換えることができません。 4。その他のLLMCHATGPTとGPT-4の提案により、国内および外国企業はすぐにフォローアップし、LLMモデルのR&Dの波を引き起こし、多くの企業も独自のLLMを提案しています。 その中で、中国の代表的な仕事には次の仕事が含まれています。
国内のフォローアップが迅速に行われただけでなく、外国の大手企業は独自のLLMを立ち上げました。その代表者は次のとおりです。
上記に加えて、外国のLLMには、BigScience's Bloom、Stanford's Alpaca、Microsoft's Metalm、Kosmos-1など、国内のHuaweiのPangue、Tencent's Welmなどが含まれます。これらの一般的なモデルに加えて、LLMは、医療分野のHuatuo [23]、金融分野のBloomberggpt [24]などの細分化された分野でも使用されています。 5. 結論GPT-4が第4回産業革命をもたらすかどうかは、検証するのに時間を必要とするトピックであり、私はここで結論を出す資格がありませんが、GPT-4の私への影響は個人的には巨大です。 まず第一に、マクロ物理学の多くの定理が有効ではないように、従来の人工知能の私の理解を揺さぶりました。強力なゼロサンプルの学習能力とそれが示す高次の機能は、深い学習に対する私の伝統的な理解をはるかに超えています。 第二に、GPT-4とChatGPTは、この記事を書くだけでなく、いくつかの非労働問題を解決するのに役立つだけでなく、毎日の仕事で最も効果的なアシスタントになります。最後に、雨が雨が降った後にキノコのように現れた多くの異なる大きなモデルは、ますます見苦しい深い学習に新たな自信と活力を注入しました。 GPT-4の技術については、誰もがそれを理解し、それを使用することを学ぶことをお勧めします。あなたの仕事がコンピューターに関係しているかどうかに関係なく、それはあなたを助けます、そしてあなたがシェフであっても、それはあなたにおいしいレシピを生み出すかもしれません。 GPT-4を使用する場合、GPT-4にわずかなリスクの問題がある場合にのみ、合理的に生成されたコンテンツを調べる必要があります。 将来、GPT-4は間違いなく多くの影響をもたらします。まず、GPT-4を使用して生成された大量のコンテンツは、統合されたGPT-4行動パターンの影響を受けるかどうかを熟考する価値があります。第二に、GPT-4は特定のジョブの生産性を大幅に解放し、この機会をつかむことができるかどうかさえ、このcroな環境で新しい機会を見ることができます。最後に、GPT-4の形式は、GPT-4が実際にAGIをもたらす場合、すべての友人がそれを見逃さないことを願っています。 参照
|
>>: メタは昨年、同社への信頼の欠如によりAI研究者の3分の1を失った。
人工知能は非常にホットな話題になっています。普通のプログラマーとして、人工知能に転向する方法。プログ...
二足歩行ロボットは高価で複雑、そして壊れやすい。バランスという観点で言えば、二足歩行は四足歩行よりは...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ジェフ・ディーン氏は数万語に及ぶ長文の記事を公開し、過去1年間のGoogleのさまざまな分野での成果...
1.ブロックチェーン + IP著作権最近、フェニックスオンライン書店は「フェニックスエッグ」と呼ば...
[[357996]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...
第3回HUAWEI CONNECT 2018が2018年10月10日に上海万博展示コンベンションセン...
3月26日、エマージング・リサーチが発表した最新レポートによると、世界の人工知能医療画像ソリューシ...
最近、中国科学技術大学の李伝鋒氏のチームが朗報を報告した。彼らは機械学習を量子力学の基本問題の研究に...
計算知能から知覚知能、そして認知知能へと、人工知能の鍋はついに沸騰しようとしています。最近、3E 2...
11月2日、市場調査会社IDCが発表した最新の予測レポートによると、世界のAIソフトウェア市場規模...