貧困が私を訓練した

1. 事前のトレーニングは必要ですか?

事前トレーニングの効果はすぐに現れますが、必要なリソースが法外な場合がよくあります。このような事前トレーニング方法があれば、必要な計算能力、データ、人的リソースは非常に少なく、1 人の人間と元のコーパスのカード 1 枚だけで開始できるほどです。教師なしデータ処理と独自の分野への移行のための事前トレーニングの後、ゼロサンプル NLG、NLG、ベクトル表現推論機能を取得できます。他のベクトル表現のリコール機能は BM25 を超えています。試してみませんか?

何かを行うかどうかは、入力と出力を比較検討して決定する必要があります。事前トレーニングは重要な作業であり、いくつかの前提条件とリソースが必要であり、十分な効果が期待できる場合にのみ実施されます。通常必要な条件は、十分なコーパス構築です。一般的に言えば、量よりも質の方が価値があるため、コーパスの質は緩和できますが、量は十分でなければなりません。次に、対応する人材の予備と人的予算が必要です。比較すると、小さなモデルはトレーニングが容易で障害が少なく、大きなモデルはより多くの問題に遭遇します。最後に、コンピューティングリソースがあります。シナリオと人材に応じて選択するのはあなた次第です。大容量メモリを備えたグラフィックカードを使用するのが最適です。事前トレーニングによってもたらされるメリットも非常に直感的です。モデルを移行すると、結果が直接改善されます。改善の程度は、事前トレーニングへの投資と分野の違いに直接関係しています。最終的なメリットは、モデルの改善とビジネス規模によって共同で得られます。

私たちのシナリオでは、データドメインは一般的なドメインとは大きく異なり、語彙の大幅な置き換えも必要ですが、ビジネス規模は十分です。事前トレーニングされていない場合、モデルは各下流タスクに合わせて微調整されます。事前トレーニングの期待されるメリットは確かです。私たちのコーパスは質は低いですが、量は十分です。コンピューティング能力のリソースは非常に限られていますが、対応する人材の確保によって補うことができます。この時点で、事前トレーニングの条件はすべて整っています。

事前学習を開始する直接的な決定要因は、メンテナンスが必要な下流モデルが多すぎて、多くのマシンと人的リソースを消費していたことです。タスクごとに専用モデルを学習するために大量のデータを用意する必要があり、モデル管理の複雑さが劇的に増加しました。そこで私たちは、すべての下流モデルが恩恵を受けられるように、統一された事前トレーニングタスクを構築することを目指して、事前トレーニングを検討しました。これを一夜にして成し遂げたわけではありません。維持しなければならないモデルの数が多いということは、モデルの経験も豊富であることを意味します。自己教師学習、対照学習、マルチタスク学習、その他のモデルを含む複数の過去のプロジェクトの経験を組み合わせ、実験と反復を繰り返してモデルを構築しました。

上図は、従来の NLP パイプラインパラダイムを示しています。これは、既存の一般的な事前トレーニング済みモデルに基づいています。オプションの移行事前トレーニングが完了すると、下流のタスクごとにデータセットが収集され、微調整トレーニングが実行されます。また、複数の下流モデルとサービスを維持するには、多くの人材とグラフィックカードが必要です。

下の図は、私たちが提案した新しいパラダイムを示しています。事前トレーニングのために私たちの分野に移行する際、共同言語モデリングタスクと対照学習タスクを使用して、出力モデルにゼロサンプル NLU、NLG、およびベクトル表現機能を持たせます。これらの機能はモデル化されており、オンデマンドで使用できます。この方法により、特にプロジェクトの開始時には、モデルを研究に直接使用できるため、維持するモデルが少なくなります。さらに微調整が必要な場合でも、必要なデータの量が大幅に削減されます。

2. 事前トレーニングの方法

これは、Transformer エンコーダー、デコーダー、ベクトル表現ヘッドを含む、事前トレーニング済みのモデルアーキテクチャです。

事前トレーニングの目標には、言語モデリングと対照表現が含まれます。損失関数は、Total Loss = LM Loss + α CL Loss です。言語モデリングタスクと対照表現タスクは共同でトレーニングされ、α は重み係数を表します。言語モデリングでは、マスクされた部分のみをデコードする T5 に似たマスクモデルが使用されます。対照的表現タスクは CLIP に似ています。バッチには、関連するトレーニングポジティブサンプルのペアがあり、その他はネガティブサンプルです。各サンプルペア (i、I) には、ポジティブサンプル I があり、その他はネガティブサンプルです。対称クロスエントロピー損失を使用して、ポジティブサンプルの表現を類似させ、ネガティブサンプルの表現を大きく離します。 T5 デコードを使用すると、デコードの長さを短縮できます。非線形ベクトル表現ヘッドがエンコーダーの上にロードされます。 1 つの理由は、ベクトル表現シナリオではより高速な速度が求められるためであり、もう 1 つの理由は、トレーニング目標の競合を防ぐために 2 つの関数が離れているためです。質問は、穴埋め問題は非常に一般的でサンプルを必要としないので、類似サンプルのペアはどこから来るのかということです。

もちろん、事前トレーニング方法として、サンプルペアは教師なしアルゴリズムによってマイニングされる必要があります。通常、情報検索の分野で肯定的なサンプルをマイニングするために使用される基本的な方法は、文書内の複数の断片が関連していると仮定してマイニングする逆クローズです。ここでは、ドキュメントを文に分割し、文のペアを列挙します。 2 つの文が関連しているかどうかを判断するには、最長の共通部分文字列を使用します。図に示すように、肯定文と否定文のペアを 2 つ取ります。最長の共通部分文字列が十分に長い場合は類似しているとみなされ、そうでない場合は類似していないとみなされます。閾値は自分で選択します。たとえば、長い文には 3 つの漢字が必要で、英語の文字にはそれ以上の文字が必要で、短い文にはより緩やかにできます。

2 つの目標が矛盾しているため、意味的等価性ではなく相関をサンプルペアとして使用します。上の図に示すように、「猫がネズミを捕まえる」と「ネズミが猫を捕まえる」は意味的には反対ですが、関連性があります。私たちの検索は主にシナリオに基づいており、関連性を重視しています。さらに、関連性は意味的等価性よりも範囲が広く、関連性に基づいてさらに微調整するには意味的等価性の方が適しています。

いくつかの文は複数回スクリーニングされ、いくつかはスクリーニングされませんでした。選択される文の頻度に上限を設定します。拒否された文については、正のサンプルとしてコピーしたり、選択した文に組み込んだり、逆クローズテストで正のサンプルとして使用したりできます。

SpanBert などの従来のマスキング方法では、幾何分布を使用してマスクの長さをサンプリングします。短いマスクの確率が高く、長いマスクの確率が低いため、長い文に適しています。しかし、私たちのコーパスは断片的です。1 語または 20 語の短い文に直面した場合、従来のアプローチでは 1 つの二重語ではなく 2 つの単一語がマスクされる傾向があり、これは私たちの期待に応えられません。そこで、最適な長さをサンプリングする確率が最も高くなり、他の長さの確率がラクダのこぶのように徐々に減少し、短い文が多数あるシナリオでより堅牢なこぶ幾何分布になるように、この分布を改良しました。

3. 実験結果

私たちは制御された実験を実施しました。言語モデルとベクトル対比表現を使用する GUR-FULL を含みます。UR-LCS のサンプルペアは LCS によってフィルター処理されません。UR-CL には、従来の言語モデルに相当する対比表現学習がありません。GUR-LM にはベクトル対比表現学習のみがあり、下流のタスクに特化した微調整に相当する言語モデル学習はありません。NLPC は Baidu 内の word2vec 演算子です。

実験はT5-smallから始まり、事前トレーニングを継続しました。トレーニングコーパスには、Wikipedia、Wikisource、CSL、および独自のコーパスが含まれます。私たち自身のコーパスはマテリアルライブラリからキャプチャされたもので、品質が非常に悪いです。最も品質が良いのはマテリアルライブラリのタイトルです。したがって、他のドキュメントで肯定的なサンプルをマイニングする場合、ほぼすべてのテキストペアがスクリーニングされますが、コーパスでは、タイトルを使用してテキスト内のすべての文が一致します。 GUR-LCS は LCS 選択されていません。これを行わないと、サンプルペアが悪すぎます。これを行った場合、GUR-FULL との差ははるかに小さくなります。

いくつかの検索タスクでモデルのベクトル表現のパフォーマンスを評価します。左の図は、いくつかのモデルのリコールのパフォーマンスを示しています。ベクトル表現を通じて学習されたモデルが最も優れたパフォーマンスを示し、BM25 を上回ることがわかりました。ランキング対象も比較してみましたが、今度はBM25が勝利しました。これは、密なモデルには強力な一般化能力があり、疎なモデルには強力な決定論があり、2つが互いに補完できることを示しています。実際、情報検索の分野における下流タスクでは、密なモデルと疎なモデルが一緒に使用されることがよくあります。

上図は、異なるトレーニングサンプルサイズの NLU 評価タスクを示しています。各タスクには数十から数百のカテゴリがあり、その効果は ACC スコアによって評価されます。 GUR モデルは、分類ラベルをベクトルに変換して、各文に最も近いラベルを見つけます。上の図の左から右にかけて、評価はトレーニングサンプル数の増加（サンプル 0、サンプル小、十分な微調整）に基づいています。右の図は、十分な微調整後のモデルのパフォーマンスを示しており、各サブタスク自体の難易度と、ゼロサンプルおよび小サンプルのパフォーマンスの上限も示しています。 GUR モデルは、ベクトル表現に依存することで、いくつかの分類タスクでゼロサンプル推論を実現できることがわかります。そして、GUR モデルの小規模サンプル機能が最も優れています。

これは NLG におけるゼロショットパフォーマンスです。タイトルを生成し、クエリを拡張する際には、高品質のトラフィックを持つタイトルをマイニングし、キーワードを保持し、非キーワードをランダムにマスクします。言語モデリングでトレーニングされたモデルは優れたパフォーマンスを発揮します。この自動プロンプト効果は手動で構築されたターゲット効果に似ていますが、多様性が広く、大量生産のニーズを満たすことができます。言語モデリングタスクにおけるいくつかのモデルのパフォーマンスは似ています。上の図は GUR モデルの例を使用しています。

IV. 結論

この論文では新しい事前トレーニングパラダイムを提案しており、上記の制御実験では共同トレーニングによって目標の衝突が発生しないことを示しています。 GUR モデルは、事前トレーニングを継続することで、言語モデリング能力を維持しながらベクトル表現能力を高めることができます。一度事前トレーニングすれば、どこでも元のサンプルなしで推論できます。業務部門における低コストの事前トレーニングに最適です。

上記のリンクには、トレーニングの詳細が記録されています。参考文献については、論文の引用を参照してください。コードのバージョンは、論文よりも少し新しいです。 AIの民主化に少しでも貢献できればと思います。大規模モデルと小規模モデルにはそれぞれ独自の適用シナリオがあり、下流のタスクに直接使用されるだけでなく、GUR モデルは大規模モデルと組み合わせて使用することもできます。パイプラインでは、まず小さなモデルを使用して識別し、次に大きなモデルを使用してタスクを指示します。大きなモデルは小さなモデルのサンプルを生成することもでき、GUR の小さなモデルは大きなモデルのベクトル検索を提供できます。

論文のモデルでは、複数の実験を検討するために小さなモデルを使用しています。実際には、より大きなモデルを使用すると、その効果は明らかです。私たちの調査はまだ十分とは言えず、さらなる作業が必要です。ご興味がおありの方は、[email protected] までご連絡ください。皆様と共に前進できることを楽しみにしています。

<<: 任意のデータセットに基づいて LLM (大規模言語モデル) ロボットを作成する

>>: プロフェッショナルスキルを向上させる: 10のNLPテクニックを理解して習得する