1. 自然言語理解と言語モデル1.1 自然言語処理自然言語処理 (NLP) は人工知能 (AI) の分野です。これにより、コンピュータは人間の言語を理解、生成、処理できるようになり、機械言語と人間の言語の間にコミュニケーションの架け橋を構築して、人間とコンピュータのコミュニケーションの目的を達成できます。言語学、コンピュータサイエンス、人工知能などの学際的な科目が関係します。 NLP の主な開発の歴史を振り返ると、大きく 3 つの段階に分けられます。
自然言語処理 NLP は、自然言語理解 (NLU) と自然言語生成 (NLG) の 2 つの部分に分けられます。 自然言語理解 (NLU) とは、機械が人間のように言語を理解できるようにすることです。しかし、自然言語の理解には多くの困難 (多様性、曖昧さ、知識の依存性、言語のコンテキストなど) があるため、NLU は依然として人間のパフォーマンスにはるかに劣っています。 自然言語生成 (NLG) は、非言語データを記事やレポートなどの人間が理解できる言語形式に変換することで、人間と機械の間のコミュニケーションギャップを埋めるように設計されています。 自然言語処理は、コンピュータサイエンスと人工知能の分野における重要な方向性であり、「人工知能の至宝」として知られています。 NLP分野の世界的マスター 自然言語処理は近年急速に発展しており、特に2017年にTransformerが導入されて以来、NLPの分野で広く使用され、良好な成果を上げています。実際、人間は脳が言語のあいまいな認識や論理的判断をどのように行うかをまだ理解していないため、NLP が画期的な進歩を遂げるにはまだまだ長い道のりが残っています。 NLPテキスト処理のさまざまな難しさ 1.2 言語モデル2. 言語モデルの進化言語モデルの研究パラダイムは、ルールから統計へ、統計的機械学習からニューラルネットワークに基づくディープラーニングへと変化してきました。これは、自然言語処理(NLP)の発展の歴史でもあります。 言語モデルの開発と進化 2.1 統計言語モデル言語モデルの連鎖定義式から判断すると、関係するパラメータの数が膨大であるため、条件付き確率を計算するのは困難です。その後、大きなパラメータ空間の問題を解決するためにマルコフ仮定が導入されました。単語の共起の長さを考慮して、N-gram ML は次のように定義されます。 Nが大きい場合:
Nが小さい場合:
パープレキシティは N の変化に応じて変化します。N が大きいほど、パラメータの大きさは指数関数的に増加し、パープレキシティは小さくなります。 2.2 ニューラルネットワーク言語モデルNNLM モデル構造: ニューラルネットワーク言語モデル構造図
欠点:
さらに、NNLM の登場は直接的に単語ベクトル化ツール word2vec の誕生につながり、単語ベクトル化の段階に入りました。自然言語で表現された単語をコンピュータが理解できるベクトル形式に変換する技術です。単語ベクトルが取得されると、ベクトル間の類似性を使用して単語間の意味的関連性を測定するなど、さまざまなベクトルベースの計算を実行できます。これは、同じ文脈に現れる単語は同様の意味を持つはずだという分布仮定に基づいています。単語埋め込みにも限界があります。例えば、フレーズを分散的に表現することが難しく、多義語の問題を解決できません。さらに、Word Embedding はアプリケーション シナリオに大きく依存するため、特殊なアプリケーション シナリオでは再トレーニングが必要になる場合があり、多くの時間とリソースが消費されます。 word2vecのネットワーク構造はNNMLと似ていますが、対象単語と文脈の予測という点では、CBOW(文脈情報→中間単語)モデルとSkip-gram(中間単語→文脈情報)モデルの2種類に分かれます。 Word2vecの技術的原理 2.3 ランダムニューラルネットワークリカレントニューラルネットワーク (RNN) は、シーケンスデータを入力として受け取り、シーケンスの進化の方向に再帰を実行し、すべてのノード (リカレントユニット) がチェーン状に接続されるタイプのネットワーク構造です。 RNN ネットワーク構造図 RNN 設計は、ニューラル ネットワーク言語モデルの制限を打ち破ります。フィードフォワード ニューラル ネットワークや N グラムのように各単語が前の単語にのみ依存するのではなく、単語の意味情報は単語とそのコンテキスト情報によって決定されると考えられているため、フィードフォワード ニューラル ネットワーク言語モデルのパフォーマンスが制限されます。 欠点:
RNN は、音声認識、言語モデリング、機械翻訳などの自然言語処理タスクに応用されており、さまざまな時系列予測にも使用されます。 2.4 LSTM長短期記憶 (LSTM) は、その名前が示すように、長期および短期の情報を記憶する能力を持つニューラル ネットワークです。 1997 年に Hochreiter と Schmidhuber によって提案された LSTM は、2012 年にディープラーニングが台頭した後、専門家によって数世代にわたる反復を経て、比較的体系的で完全な LSTM フレームワークを形成し、多くの分野で広く使用されるようになりました。 LSTM の目的は、前述の RNN の長期依存性の問題を解決し、長いシーケンスのトレーニング中に発生する勾配消失および勾配爆発の問題を解決することです。通常の RNN と比較して、LSTM はより長いシーケンスでより優れたパフォーマンスを発揮します。 RNN モデルの構造から判断すると、単語数が増えるにつれて、以前のより長い時間スライスの特徴がカバーされるようになります。その結果、RNN は遠く離れた情報を接続するための学習能力を失います。長期依存性の理由は、ニューラル ネットワークのノードが多くの計算段階を経た後に特徴情報がカバーされるためです。 例えば、 「今朝、小李は面白い授業活動に参加しました。そこには面白い友達がたくさんいました。彼らは勉強や人生についておしゃべりし、一緒に踊ったり歌ったりしました。彼はとても幸せを感じました。」 「彼」は「小李」を指します。単語間の距離が長いため、「小李」の意味情報は減衰しており、「小李」と「彼」には長い依存関係の問題があります。 LSTM の中核はセル状態であり、これは忘却ゲート、入力ゲート、出力ゲートの 3 つのゲート メカニズムによって制御されます。 LSTM はゲート メカニズムを通じて特徴の流れと損失を制御します。 LSTM ネットワーク構造は次のとおりです。 LSTMネットワーク構造図 忘却ゲート: LSTM の最初のステップは、セル状態で破棄する必要がある情報を決定することです。この操作部分は、忘却ゲートと呼ばれるシグモイド ユニットによって処理されます。情報を合計して 0 から 1 までのベクトルを出力します。ベクトル内の 0 から 1 の値は、セル状態のどの情報が保持され、どれだけが破棄されるかを表します。 0 は保持しないことを意味し、1 はすべてを保持することを意味します。 忘却ゲートを下の図に示します。 LSTM-忘却ゲート 入力ゲート:セルの状態を更新するために使用されます。まず、前の隠し状態と現在の入力がシグモイド関数に渡されます。これは、値を 0 から 1 に変換することによって、どの値を更新するかを決定します。 0 は重要ではないことを意味し、1 は重要であることを意味します。隠れ状態と現在の入力も tanh 関数に渡され、ネットワークの調整を助けるためにそれらを -1 と 1 の間で圧縮します。次に、シグモイド出力に tanh 出力を掛けます。次の図に示すように: LSTM入力ゲート 出力ゲート:出力ゲートは、次の隠し状態が何になるかを決定します。隠れ状態は予測にも使用されます。まず、前の隠し状態と現在の入力がシグモイド関数に渡されます。新しいセルの状態は tanh 関数に渡されます。 tanh 出力はシグモイド出力と乗算され、隠れ状態が運ぶべき情報を決定します。その出力は隠し状態です。新しいセル状態と新しい隠し状態が次のタイム ステップに渡されます。次の図に示すように: LSTM出力ゲート 欠点:
LSTM 長短期ニューラル ネットワークの主な用途は次のとおりです。
2.5 エルモWord Embedding の代表的な例である Word2vec は、本質的に静的な単語ベクトルです。つまり、単語の意味はトレーニング後に固定され、コンテキスト シナリオの変化によって変化しません。この問題を解決するために、ELMO (言語モデルからの埋め込み) トレーニング スキームが登場しました。 ELMO は典型的な 2 段階のプロセスを採用しています。第 1 段階では、言語モデルを使用して事前トレーニングを行います。第 2 段階では、事前トレーニングされたネットワークから、単語に対応するネットワークの各層の単語埋め込みを新しい特徴として抽出し、下流タスクを実行するときに下流タスクを補完します。二重層の双方向 LSTM ネットワーク構造とコンテキストを導入する ELMo を追加して単語の埋め込みを動的に調整することで、多義性の問題が解決されます。さらに、ELMo は事前トレーニングのメカニズムを初めて提案しました。 ELMoモデル構造図 損失関数: 損失関数は、順方向 LSTM 言語モデルの損失関数と逆方向 LSTM 言語モデルの損失関数の合計の 2 つの部分で構成されます。単語の意味情報は、単語とそのコンテキスト情報によって決定されると考えられています。
欠点:
2.6 トランスフォーマーTransformer は、シーケンス データを処理するために Google が提案した自己注意メカニズムに基づくニューラル ネットワーク モデルです。自然言語処理では、シーケンスデータの入力には、一連のテキスト、音声信号、画像、ビデオなどが含まれます。従来のリカレント ニューラル ネットワーク (RNN、LSTM) モデルはこれらのタスクで良好な結果を達成していますが、このモデルには 2 つの主な問題があります。1 つ目は、計算を並列化することが難しく、長いトレーニング時間を必要とすること、2 つ目は、長距離の依存関係をキャプチャすることが難しいことです。これらの問題を解決するために、Transformer モデルが誕生しました。 2017年、Google Machine Translationチームは「Attention is All You Need」という古典的な著作を発表しました。この著作では、RNNやCNNなどのネットワーク構造を完全に放棄し、Attentionメカニズムのみを使用して機械翻訳タスクを実行し、非常に優れた結果を達成しました。その後、Attentionメカニズムは研究と応用の分野でもホットな話題になりました。 トランスフォーマーの古典論文: 必要なのは注目だけ Transformer を紹介する前に、まず Attention メカニズム、Self-Attention、残差ネットワークについて理解しましょう。 2.6.1 注意メカニズム2014年、ベンジオのチームはAttentionメカニズムを提案し、これは後にディープラーニングのさまざまな分野で広く使用されるようになりました。たとえば、コンピュータービジョンで画像の受容野を捉えたり、NLP で重要なトークンや特徴を特定したりするために使用され、その後の BERT および GPT シリーズ モデルは、その後の NLP タスクで最先端の結果を達成しています。 注意メカニズムの計算プロセス: Attention メカニズムの計算ロジックは、大きく分けて 3 つのステップに分かれています。 利点:
欠点:
Transformer では、Self-Attention メカニズムが使用されます。 Attention メカニズムでは、Q=K=V の場合、それは Self-Attention であり、主に入力データのさまざまな部分間の関連性を反映します。 2.6.2 残差ネットワーク(ResNet)ディープネットワークの学習では、ネットワークが深くなるほど、より多くの情報が得られ、より豊富な機能が得られます。しかし、現実にはネットワークが深くなるにつれて最適化の効果が悪くなり、テストデータやトレーニングデータの精度が低下します。これは、ネットワークが深くなると、勾配爆発や勾配消失の問題が発生するためです。この問題を解決するために、Microsoft Labs の He Kaiming 氏らは 2015 年に ResNet ネットワークを提案しました。このネットワークは問題を軽減し、その年の ImageNet コンテストで分類タスクとオブジェクト検出でそれぞれ 1 位を獲得しました。 COCOデータセットにおけるオブジェクト検出と画像セグメンテーションで1位を獲得しました。 残差ネットワークは最適化が容易で、深さを増やすことで精度を向上させることができます。その内部の残差ブロックはスキップ接続を使用して、ディープ ニューラル ネットワークの深さを増やすことによって発生する勾配消失の問題を軽減します。ネットワーク構造は次のとおりです。 残余ネットワーク構造
2.6.3 位置埋め込みTransformer での位置埋め込みの役割は、シーケンス モデルに単語の位置情報を導入して、モデルがシーケンス内の単語の順序と位置関係をよりよく理解できるようにし、モデルのパフォーマンスと精度を向上させることです。 Transformer では、絶対位置エンコーディングである Sinusoidal Position Embedding が使用されます。利点は、エンコーディングが単純で、パラメータ空間を占有しないことです。欠点は、最大入力長が制限されることです。絶対位置エンコーディングの欠点を考慮して、相対位置エンコーディング (Bert で適用) と回転位置エンコーディング (RoFormer で適用) がその後導入されました。 位置エンコーディング:
2.6.4 変圧器の原理従来の再帰型ニューラル ネットワーク (RNN) や畳み込みニューラル ネットワーク (CNN) とは異なり、Transformer は入力シーケンスと出力シーケンスを処理するために自己注意メカニズムのみを使用します。このモデルには複数のエンコーダーとデコーダーの層が含まれており、各層は複数の注意メカニズム モジュールとフィードフォワード ニューラル ネットワーク モジュールで構成されています。エンコーダーは入力シーケンスを高次元の特徴ベクトル表現にエンコードするために使用され、デコーダーはベクトル表現をターゲットシーケンスにデコードするために使用されます。複数の自己注意層とフィードフォワードニューラルネットワーク層を連続的に積み重ねることで、Transformer モデルを構築できます。 Transformer モデルでは、残差接続やレイヤー正規化などの手法も使用され、モデルの収束を加速し、モデルのパフォーマンスを向上させます。ネットワーク構造図は以下のとおりです。 トランスフォーマーエンコーダーおよびデコーダーモジュール マルチヘッドアテンション 自己注意メカニズムの計算プロセスには、次の 3 つのステップが含まれます。
Transformer モデルのトレーニングでは、通常、教師なし事前トレーニングが採用され、その後に教師あり微調整が行われます。事前トレーニング プロセスでは、入力シーケンスの表現を学習することを目的として、通常、オートエンコーダーまたはマスクされた言語モデルがトレーニングに使用されます。微調整では、通常、教師ありトレーニングが使用されます。たとえば、機械翻訳タスクでは、並列コーパスがトレーニングに使用され、入力シーケンスからターゲットシーケンスへのマッピング関係を学習することが目標となります。 Transformer の Multi-Head Attention は複数の Self-Attention を連結したもので、複数の次元で単語間の相関係数の注意スコアをキャプチャできます。 Transformer モデルの欠点:
自然言語処理のタスクにおいて、Transformer モデルはテキスト データを処理する方法を真に変え、自然言語処理の発展を促進しました。Google の BERT や OpenAI の GPT シリーズなどのモデルは、Transformer を使用して特徴を抽出します。 2.7 バートBERT は Bidirectional Encoder Representation from Transformers の略で、事前トレーニング済みの言語表現モデルです。従来の単方向言語モデルや 2 つの単方向言語モデルの浅い連結は、以前のように事前トレーニングには使用されなくなり、新しいマスク言語モデル (MLM) を使用して深い双方向言語表現が生成されることを強調しています。モデル構造図は以下のとおりです。 BERT モデル構造図 BERT入力構成
論文が発表された際、11のNLP(自然言語処理)タスクで新たな最先端の結果が達成され、特に機械読解力のトップレベルテストであるSQuAD1.1では、2つの測定指標すべてで人間を上回るという驚くべき結果を示したと述べられていたことは特筆に値します。 3. GPTシリーズモデルの紹介ChatGPTはサークル内外で人気を博し、Weiboのホット検索にも登場しました。突然、長い間連絡を取っていなかった多くのクラスメートやさまざまな分野の友人から「挨拶」が送られてきました。ChatGPT とは何ですか? 実際、ChatGPT の成功は一夜にして起こったものではなく、OpenAI の 4 年以上にわたる継続的な努力とたゆまぬ追求の結果です。 2018 年の第 1 世代 GPT-1 から、GPT-2、GPT-3、InstructGPT、GPT-4、そして今日の GPT-4 に至るまで、すべてのステップが不可欠です。したがって、ChatGPT は偉大なイノベーションの産物ではなく、段階的なイノベーションの継続的な積み重ねの結果です。 GPTシリーズモデルの開発プロセス 3.1 GPT-12018 年 6 月、OpenAI は GPT モデルの最初のバージョンをリリースしました。GPT-1 は、Transformer の Decoder フレームワークの MaskSelf-attention メカニズムを使用しました。 GPT-1 のトレーニング方法は依然としてデータのラベル付けとモデルの微調整に依存しています。同時に、GPT-1 の言語一般化能力はまだ不十分です。そのため、GPT-1 は一般的な言語モデルというよりも、特定の言語タスクを処理するためのエキスパートモデルに近いと言えます。 GPT-1 のモデルトレーニングでは、2 段階のトレーニング モードを採用しています。第 1 段階では、事前トレーニングに教師なし学習を使用し、ラベルなしデータを使用して言語モデルを生成します。第 2 段階では、分類タスク、自然言語推論、意味的類似性、質問応答、常識的推論などの特定の下流タスクに応じて、モデルを手動で微調整します。したがって、以前の NLP モデルと比較すると、GPT-1 は実際には半教師あり学習言語モデルです。 GPT-1 は、自然言語推論、分類、質問応答、比較類似性などの複数の評価で以前のモデルを上回り、複数の言語タスクで優れた結果を達成しました。同時に、GPT-1 の言語一般化能力はまだ不十分であり、一般的な言語タスクを解決することはできません。現代の BERT モデルと比較すると、GPT-1 は能力の面で BERT より劣っています。 GPT-1 モデル構造 モデル構造:
損失関数: 利点:
デメリット
3.2 GPT-22019年2月、GPT-2が正式にリリースされました。GPT-1と比較すると、GPT-2はモデルの微調整を放棄し、大規模なデータを通じて直接事前トレーニングを実行することで、モデルが複数の言語タスクを解決する能力を持ち始め、より強力な一般化能力を備えた言語モデルを実現しました。これにより、モデルの汎用性も完全に発揮され始めました。 GPT-1 はこれまで特定のタスクで優れた結果を達成してきましたが、実際には、このタイプのモデルでは、単一の言語タスクに対して大量のラベル付きデータの使用とモデルの微調整が必要になるため、特定の言語タスクを解決するためにしか使用できません。 GPT-2 の一般化能力は、特別なトレーニングを必要とせずにモデルをさまざまなタスクに適用できるという事実に反映されています。これは、人間の脳が言語情報を処理するプロセスともより一致しています。人間の脳は小説を読んだりニュースを見たりすることができ、さまざまな言語処理タスクを実行でき、これらの能力は相互に関連しているからです。人間の脳が文章に関する情報を取得する場合、この情報は普遍的です。したがって、分類タスクだけでなく、質問応答や常識推論などのタスクにも使用できる普遍的な言語モデルが期待されます。 GPT-1とGPT-2のネットワーク構造の比較: GPT-1とGPT-2のネットワーク構造の比較 モデルパラメータ
損失関数: 損失関数から、タスクの教師あり微調整損失部分を放棄する GPT-1 と比較して、損失関数は言語モデルの生成部分のみを対象としており、NLG に新たな章が開かれていることがわかります。 利点:
デメリット
3.3 GPT-32020年5月、GPT-3が正式にリリースされました。GPT-3は、トレーニング方法にコンテキスト内学習を革新的に導入しました。つまり、モデルをトレーニングするときに、入力テキストに1つ以上の例を追加して、モデルが対応するコンテンツを出力するように誘導します。たとえば、「次の中国語を英語に翻訳してください:苹果=>apple;自然言語処理の発展の歴史」は、例付きの典型的な入力テキストです。インコンテキスト学習には、ゼロショット学習、ワンショット学習、少数ショット学習の 3 つのモードがあります。ゼロショットは例のないプロンプトのみを意味し、ワンショットは 1 つの例のみを意味し、少数ショットは複数の例を意味します。実際、表現の点ではゼロショットは人間の言語表現に近いです。インコンテキスト学習の利点は、標準化された言語テンプレートを入力し、人間の例や類推から学習することで、モデルの微調整やデータのラベル付け、特に大量のラベル付けデータには高い人件費がかかる必要がないことです。インコンテキスト学習の導入後、最終的な実際の結果から、GPT-3 は少数ショットでは非常に優れたパフォーマンスを発揮しますが、ワンショットとゼロショットの効果は十分ではありません。 GPT-3はFew-shotで優れたパフォーマンスを発揮する GPT-3のパラメータ数はGPT-2に比べて2桁増加し、1750億に達します。処理前のデータセットの容量は45TBに達しており、まさに超大規模言語モデルとなっています。 GPT-3 は、多くの NLP タスク、特に機械翻訳、チャットの質問と回答、テキスト補完において、GPT-2 や他の言語モデルよりも優れたパフォーマンスを発揮します。同時に、膨大なパラメータとトレーニング データのサポートにより、GPT-3 はより困難な NLP タスクを完了できるようになります。たとえば、GPT-3 はニュース レポートを生成したり記事を書いたりすることもできますが、機械が書いた記事と人間が書いた記事を区別するのは困難です。GPT-3 は、SQL クエリ ステートメント、React、または JavaScript コードの記述でも非常に優れたパフォーマンスを発揮します。 GPT-3の強力な機能の背後には、膨大な計算能力の消費があります。GPT-3の計算能力はBERTベースの数千倍です。OpenAIが公開したデータによると、GPT-3のトレーニングコストは1200万ドルを超えています。したがって、この段階では、大規模な言語モデルは徐々に巨人だけが参加できるゲームになっていることがわかります。 GPT-3 ネットワーク構造図: GPT-3モデルネットワーク構造図 損失関数は次のとおりです。
ゼロショット、ワンショット、少数ショットの違い 欠点:
GPT-3 はより大きなトレーニングデータを使用し、パラメータモデルは 1,750 億に達しています。また、GPT-3 によって生成された複数の結果に手動で注釈を付け、強化学習を使用して注釈付きの結果を再学習することで、より比較的一貫性があり正確な生成結果を取得します。 GPT-3は手動アノテーション結果を導入 GPT-1、GPT-2、GPT-3のトレーニングデータとパラメータの大きさの比較 3.4 チャットGPTOpenAIはGPT-3とChatGPTの間で複数の反復バージョンをリリースしており、2021年7月にはCodexシリーズが発売され、2022年1月にはRLHF(人間のフィードバックに基づく強化学習)が導入されてInstructGPTが実現され、2022年後半にはCodexとInstructGPTを組み合わせたChatGPTが発売され、人間のフィードバックに基づく強化学習に基づく命令微調整モデルのバージョンが使用されました。 ChatGPTはGPT-3と比較して、テキスト生成などの面で非常に強力な機能を発揮し、人間との会話における知能を大幅に向上させるだけでなく、膨大なデータとパラメータのサポートにより、論理的推論と思考チェーンにおけるモデルの機能も現れ始めています。 ChatGPT は、自動テキスト生成、自動質疑応答、複数ラウンドの会話など、比較的複雑な言語タスクを多数実行でき、積極的に間違いを認めたり、間違った質問をしたりすることもできます。さらに、ChatGPT はコンピュータ プログラムの作成とデバッグも行えます。 ChatGPTトレーニングプロセス 強化学習トレーニングプロセス
欠点:
現在、ChatGPT の主な用途は次のとおりです。
3.5 GPT-4GPT-4は2023年3月にリリースされました。GPTモデルの以前のバージョンと比較して、推論、テキスト生成、対話などを大幅に改善しました。GPT-4は、言語モデルからマルチモーダルモデルへの進化において最初の一歩を踏み出しました。 GPT-4の最大の変更は、画像入力を受け入れてテキスト言語を生成できることであり、画像読み取り能力に驚くべきパフォーマンスがあることです。同時に、25,000語以上のテキストを処理できます。その執筆能力は大幅に改善され、スクリプトを作成し、同時に学習することができます。 GPT-4は、機械学習モデルの設計に基づいてさまざまなベンチマークで評価されます。 GPT-4トレーニングプロセスは、主に3つの段階に分かれています。
GPT-4モデルはGPT-3.5に基づいて構築され、視覚言語モデルコンポーネント(グラフィックトランスステージで完了した視覚化前モデル)が追加されています。マルチモーダルフィールドで事前に訓練されたモデルの予備チューニングを実行するために、最初にテキストデータセットとマルチモーダルデータセットから抽出され、ヒトアノテーターは、これらの手動で注釈付きのデータを使用してGPT-4初期モデルを微調整します。
まず、セキュリティルールと完全な検証に基づいたルールベースの報酬モデルを設計します。このモデルは、従来のNLPフィールドのルールモデル設計法と一致しています。 次に、データセットから質問が抽出され、最初の段階で生成されたモデルが使用されて、各質問に対して複数の異なる回答を生成します。人間のアノテーターは、これらの結果を包括的に検討し、ランク付けします。次に、このランキング結果データを使用して、GPT-4報酬モデルをトレーニングします。複数のソート結果を組み合わせて、複数のトレーニングデータペアを形成します。 RMモデルは入力を受け入れ、答えの品質を評価するためのスコアを提供します。このようにして、トレーニングデータのペアの場合、高品質の回答のスコアが低品質の回答のスコアよりも高いように、パラメーターが調整されます。このプロセスは、コーチングやメンタリングに似ています。
PPOの中心的なアイデアは、ポリシーグラデーションのポリシートレーニングプロセスをオフポリティに変換することです。つまり、オンライン学習をオフライン学習に変換することです。この段階では、第2段階で訓練された報酬モデルとルールベースの報酬モデルを使用して、報酬スコアに基づいて事前に訓練されたモデルパラメーターを更新します。質問はGPT-4データセットから抽出され、PPOモデルは回答を生成するために使用され、前の段階でトレーニングされたRM+RBRMモデルを使用して品質スコアが与えられます。報酬スコアは、ポリシーグラデーションを生成するために順番に渡され、PPOモデルパラメーターは強化学習を通じて更新されます。 4. 結論大規模な言語モデルの出現は、新しいアイデアを提供します。つまり、大規模なトレーニング前および微調整技術を通じて、モデルにはより強力な言語理解機能があり、より多くのNLPタスクに適用できます。将来的には、よりインテリジェントで柔軟で効率的な言語モデルの出現が期待できます。これにより、より新しい可能性と優れたアプリケーションシナリオがもたらされます。 大規模な言語モデル開発タイムライン トランスの導入により、近年、大規模な言語モデルが急速に発展しています。モデルパラメーターの大きさも劇的に増加しているため、モデル効果が改善され、他の問題も導入されています。
業界のリーダーは、大規模なモデルの開発についてもさまざまな見解を保持しています。 5。[1]神経確率論的言語モデル
|
>>: ザッカーバーグがAlpaca 2をベースにしたChatGPTのMetaバージョンを正式にリリース。Appleに先駆けて初のMRヘッドセットをリリース、価格は1/7以下
翻訳者 | 李睿校正 | 梁哲、孫淑娟人工知能 (AI) テクノロジーはここ数年で急速に発展し、ビジ...
すべてがうまくいけば、インジェニュイティは火星上空を飛行する最初の航空機となる。 「インジェニュイテ...
導入ハードウェアの性能向上と顔データ量の増加に伴い、顔認識はますます成熟し、商業的な用途もますます増...
みなさんこんにちは、カソンです。最近、ウェブページ作成ツールframer[1]は、プロンプトワードに...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
アーキテクチャの革新を待つことができず、Nvidia は生成 AI 専用のチップを「先行して」リリー...
人工知能とは、人間のように考え行動するようにプログラムされたロボットで人間の理解を再現することを指し...
2月29日、工業情報化省は2023年第4四半期の電気通信サービスの品質に関する通知を発行した。通知で...
過去 1 年間、生成型人工知能の開発におけるキーワードは「ビッグ」でした。強化学習の先駆者であるリッ...
執筆者 | 王 瑞平AutoGPT に続いて、GPT ファミリーに新しいメンバーである GPT-En...
教育省は最近、「高等教育機関における人工知能イノベーションのための行動計画」を発行しました。計画によ...
[[329518]]企業が損失を避けるために機械学習の博士号取得者にどれくらいの金額を要求すべきでし...