Meituanが小サンプル学習リストFewCLUEで1位にランクイン！迅速な学習 + 自己トレーニングの実践

著者: Luo Ying、Xu Jun、Xie Rui など

1 概要

CLUE（中国語言語理解評価） ^[1]は中国語言語理解の権威ある評価リストであり、テキスト分類、文間関係、読解など多くの意味解析と意味理解のサブタスクが含まれており、学界と産業界の両方に大きな影響を与えてきました。

図1 FewCLUEリスト（2022-04-18現在）

FewCLUE ^[2,3]は、中国語の小サンプル学習評価に特化したCLUEのサブリストです。事前学習済み言語モデルの普遍性と強力な一般化能力を組み合わせて、最良の小サンプル学習モデルと中国語でのその実践を探ることを目的としています。 FewCLUEの一部のデータセットにはラベル付きサンプルが100個以上しかなく、非常に少ないラベル付きサンプルでモデルの一般化性能を測定できます。リリース後、NetEase、WeChat AI、Alibaba、IDEA Research Institute、Inspur Artificial Intelligence Research Instituteなど、多くの企業や研究機関が参加しました。つい最近、美団プラットフォーム検索・NLP部門NLPセンター意味理解チームの小サンプル学習モデルFSL++が優れた性能でFewCLUEリストの1位を獲得し、SOTAレベルに達しました。

2 方法の紹介

大規模な事前トレーニング済みモデルはさまざまなタスクで非常に優れた結果を達成していますが、特定のタスクには依然として大量のラベル付きデータが必要です。 Meituan のさまざまな事業には豊富な NLP シナリオがあり、多くの場合、手作業によるラベル付けに高額なコストがかかります。ビジネス開発の初期段階や、新しいビジネスニーズを迅速に立ち上げる必要がある場合、ラベル付きサンプルが不足することがよくあります。従来の事前トレーニング+ 微調整のディープラーニングトレーニング方法では、理想的なパフォーマンス要件を満たせないことがよくあります。そのため、小さなサンプルシナリオでモデルトレーニングの問題を研究する必要があります。

本論文では、モデル構造の最適化、大規模な事前トレーニング、サンプルの強化、アンサンブル学習、自己トレーニングを組み合わせた大規模モデル + 小規模サンプルの共同トレーニングスキーム FSL++ を提案しています。最終的には、中国語の言語理解に関する権威ある評価ベンチマークである FewCLUE リストで優れた結果を達成し、一部のタスクではそのパフォーマンスが人間のレベルを超えました。ただし、一部のタスク ( CLUEWSC など) ではまだ改善の余地があります。

FewCLUEのリリース後、NetEase Fuxiは自社開発のEETモデル^[4]を使用し、二次トレーニングを通じてモデルの意味理解能力を強化し、マルチタスク学習用のテンプレートを追加しました。IDEA Research InstituteのErlang Shenモデル^[5]は、より高度な事前トレーニング技術を使用してBERTモデルに基づく大規模モデルをトレーニングし、下流タスクを微調整する過程で動的マスク戦略を備えたMasked Language Model（MLM）を補助タスクとして使用しました。これらの方法はすべて、プロンプト学習を基本的なタスクアーキテクチャとして使用します。これらの独自開発の大規模モデルと比較すると、私たちの方法は主に、プロンプト学習フレームワークに基づいてサンプル拡張、アンサンブル学習、自己学習などのモデル最適化戦略を追加し、モデルのタスクパフォーマンスと堅牢性を大幅に向上させます。同時に、この方法はさまざまな事前トレーニング済みモデルに適用できるため、より柔軟で便利です。

FSL++ の全体的なモデル構造を図 2 に示します。 FewCLUE データセットは、各タスクに対して 160 個のラベル付きデータと約 20,000 個のラベルなしデータを提供します。この FewCLUE 実践では、まず Fine-Tune 段階でマルチテンプレートのプロンプト学習を構築し、ラベル付きデータに対して敵対的トレーニング、対照学習、Mixup などの強化戦略を採用しました。これらのデータ強化戦略は異なる強化原理を使用するため、これらのモデル間の違いは非常に大きく、統合学習後にはより良い結果が得られると考えられます。したがって、データ拡張戦略を使用してトレーニングした後、複数の弱教師モデルを取得し、これらの弱教師モデルを使用してラベルなしデータの予測を行い、ラベルなしデータの疑似ラベル分布を取得します。その後、複数の異なるデータ拡張モデルによって予測されたラベルなしデータの疑似ラベル分布を統合して、ラベルなしデータの合計疑似ラベル分布を取得しました。次に、マルチテンプレートプロンプト学習を再構築し、データ拡張戦略を再度使用して最適な戦略を選択しました。現在、私たちの実験では 1 ラウンドの反復のみを実行しています。複数ラウンドの反復を試すこともできますが、反復回数が増えると、改善は明らかではなくなります。

図2 FSL++モデルフレームワーク

2.1 強化された事前トレーニング

事前トレーニング済みの言語モデルは、大規模なラベルなしコーパスでトレーニングされます。例えば、RoBERTa ^[6]は、百科事典、ニュース記事、文学作品、ウェブコンテンツなど160GB以上のテキストでトレーニングされました。これらのモデルによって学習された表現は、複数のソースからのさまざまなサイズのデータセットを含むタスクで優れたパフォーマンスを実現します。

FSL++モデルは、RoBERTa-largeモデルをベースモデルとし、ドメイン知識を取り入れたDomain-Adaptive Pretraining( DAPT ) ^[7]事前学習法とタスク知識を取り入れたTask-Adaptive Pretraining( TAPT ) ^[7]事前学習法を採用している。 DAPT は、事前トレーニング済みのモデルに基づいて言語モデルのトレーニングを継続するために、フィールドに大量のラベルなしテキストを追加し、指定されたタスクのデータセットで微調整することを目的としています。

ターゲットテキストドメインでの事前トレーニングを継続すると、特にターゲットテキストドメインに関連する下流のタスクで言語モデルのパフォーマンスが向上します。さらに、事前トレーニングテキストがタスクドメインに関連性が高いほど、改善は大きくなります。この練習では、最終的に、エンターテイメント番組、スポーツ、健康、国際情勢、映画、有名人など、さまざまな分野の100Gコーパスを含むCLUE Vocab ^[8]で事前トレーニングされたRoBERTa Largeモデルを使用しました。 TAPT とは、事前トレーニング済みのモデルに基づいて、タスクに直接関連する少量のラベルなしコーパスを追加して事前トレーニングすることを指します。 TAPT タスクの場合、使用することを選択した事前トレーニングデータは、各タスクの FewCLUE リストによって提供されるラベルなしデータです。

さらに、中国語自然言語推論タスクOCNLIや中国語対話短文マッチングタスクBUSTMなどの文間関係タスクの実践では、中国語自然言語推論データセットCMNLIや中国語短文類似性データセットLCQMCなどの他の文間関係タスクで事前トレーニングされたモデルパラメータを初期パラメータとして使用しており、元のモデルを直接使用してタスクを完了する場合と比較して、効果をある程度向上させることもできます。

2.2 モデル構造

FewCLUE にはさまざまなタスク形式が含まれており、タスクごとに適切なモデル構造を選択します。テキスト分類タスクと機械読解（ MRC）タスクのカテゴリ語はそれ自体が情報を持っているため、マスク言語モデル（ MLM ）の形式でのモデリングに適しています。一方、文間関係タスクは2つの文の関連性を判断するため、次文予測（ NSP ） ^[9]タスク形式に近いです。そのため、分類と読解タスクにはPET ^[10]モデルを選択し、文の関係タスクにはEFL ^[11]モデルを選択する。EFL法は、グローバルサンプリングを通じて負のサンプルを構築し、より堅牢な分類器を学習することができる。

2.2.1 迅速な学習

プロンプト学習の主な目標は、事前トレーニングターゲットと下流の微調整ターゲット間のギャップを最小限に抑えることです。通常、既存の事前トレーニングタスクには MLM 損失関数が含まれていますが、下流のタスクでは MLM は使用されません。代わりに、新しい分類器が導入され、事前トレーニングタスクと下流のタスクの間に不整合が生じます。 Prompt Learning では、追加の分類器やその他のパラメータは導入されません。代わりに、テンプレートスプライシング (つまり、入力データの言語フラグメントをスプライシングしてタスクを MLM 形式に変換する) とラベル単語マッピング (言語化、つまり、各ラベルの語彙から対応する単語を見つけて MLM タスクの予測ターゲットを設定する) を使用して、サンプル数が少ない下流のタスクでモデルを使用できるようにします。

図3 感情分析タスクを完了するためのプロンプト学習法のフローチャート

図 3 に示す e コマースレビュー感情分析タスク EPRSTMT を例に挙げます。「この映画は本当に素晴らしい、2度見る価値がある！」というテキストが与えられた場合、従来のテキスト分類では、分類器を CLS 部分の埋め込みに接続し、0-1 分類 ( 0: 否定、1: 肯定) にマッピングします。この方法では、小さなサンプルのシナリオで新しい分類器をトレーニングする必要があり、良好な結果を得るのは困難です。プロンプト学習に基づく方法は、「これは [MASK] レビューです。」というテンプレートを作成し、そのテンプレートを元のテキストと連結します。トレーニング中は、言語モデルを使用して [MASK] の位置にある単語を予測し、対応するカテゴリ (良い: 肯定的、悪い: 否定的) にマッピングします。

十分なデータがないため、最適なテンプレートとラベル単語のマッピングを決定することが困難な場合があります。したがって、マルチテンプレートおよびマルチラベルの単語マッピングの設計も採用できます。複数のテンプレートを設計することで、最終結果は複数のテンプレートの結果を統合したもの、または 1 つのラベルが複数の単語に対応するように 1 対多のラベル単語マッピングを設計したものになります。上記の例と同様に、次のテンプレートの組み合わせを設計できます (左: 同じ文の複数のテンプレート、右: マルチラベルマッピング)。

図4 PETマルチテンプレートおよびマルチラベルマッピング

タスクの例

表1 FewCLUEデータセットにおけるPETテンプレートの構築

2.2.2 英語

EFL モデルは 2 つの文を連結し、出力層の [CLS] 位置で埋め込みを使用し、その後に分類器を使用して予測を完了します。 EFL のトレーニングプロセスでは、トレーニングセット内のサンプルに加えて、ネガティブサンプルも構築されます。トレーニングプロセスでは、各バッチで他のデータからの文章がネガティブサンプルとしてランダムに選択され、ネガティブサンプルを構築することでデータ強化が行われます。 EFL モデルでは新しい分類器をトレーニングする必要がありますが、現在、CMNLI や LCQMC など、公開されているテキスト含意/文間関係データセットが多数あります。これらのサンプルで学習 ( continue-train ) を継続し、学習したパラメータを小さなサンプルシナリオに移行して、FewCLUE タスクデータセットを使用してさらに微調整することができます。

タスクの例

表2 FewCLUEデータセットにおけるEFLテンプレートの構築

2.3 データ拡張

主なデータ強化方法には、サンプル強化と埋め込み強化があります。 NLP の分野では、データ拡張の目的は、テキストデータを意味を変えずに拡張することです。主な方法としては、単純なテキストの置き換えや、言語モデルを使用して類似の文章を生成する方法などがあります。テキストデータを拡張するためにEDAなどの方法を試してきましたが、単語の変更によって文章全体の意味が逆転する可能性があり、置き換えたテキストには多くのノイズが含まれるため、単純な定期的なサンプルの変更では十分な拡張データを生成することは困難です。一方、埋め込み強化は入力に対して動作するのではなく、埋め込みレベルで動作します。埋め込みに摂動や補間を追加することで、モデルの堅牢性を向上させることができます。

したがって、この実践では、埋め込み強化を主に実行します。私たちが使用したデータ拡張戦略には、Mixup ^[12] 、Manifold-Mixup ^[13] 、敵対的トレーニング（AT ） ^[14] 、および対照学習R-drop ^[15]が含まれます。

表3. データ拡張戦略の簡単な説明

Mixup は、入力データに対して単純な線形変換を実行し、新しい結合サンプルと結合ラベルを構築することで、モデルの一般化能力を高めることができます。さまざまな教師ありまたは半教師ありタスクにおいて、Mixup を使用するとモデルの一般化能力が大幅に向上します。 Mixup メソッドは、モデルによって特徴レベルで生成された複合特徴が線形制約を満たすことを要求し、この制約を使用してモデルを正規化する正規化操作と見なすことができます。直感的に言えば、モデルの入力が他の 2 つの入力の線形結合である場合、その出力も、これら 2 つのデータがモデルに個別に入力されたときに得られる出力の線形結合になります。実際、これにはモデルを線形システムとして近似する必要があります。

Manifold Mixup は、上記の Mixup 操作を機能に一般化します。特徴には高次の意味情報があるため、その次元にわたって補間すると、より意味のあるサンプルが生成される可能性があります。 BERT ^[9]やRoBERTa ^[6]に似たモデルでは、層の数kがランダムに選択され、この層の特徴表現が混合されます。通常の Mixup の補間は出力層の Embedding 部分で行われますが、Manifold Mixup は、この一連の補間操作を言語モデル内の Transformers 構造のランダム層に追加するのと同じです。

敵対的トレーニングでは、入力サンプルに小さな変動を加えることで、モデルの損失が大幅に改善されます。敵対的トレーニングとは、元のサンプルと敵対的サンプルを効果的に識別できるモデルをトレーニングすることです。基本的な原理は、摂動を加えていくつかの敵対的サンプルを構築し、それをモデルに与えてトレーニングすることで、敵対的サンプルに遭遇したときのモデルの堅牢性を向上させ、同時にモデルのパフォーマンスと一般化能力を向上させることです。敵対的サンプルには次の 2 つの特性が必要です。

追加された摂動は、元の入力に比べてごくわずかです。
モデルに間違いが生じる可能性があります。敵対的トレーニングには、悪意のある攻撃に対するモデルの堅牢性を向上させることと、モデルの一般化能力を向上させることという 2 つの機能があります。

R-Drop は、同じ文に対して Dropout を 2 回実行し、Dropout によって生成された異なるサブモデルの出力確率の一貫性を維持します。 Dropout の導入はうまく機能しますが、トレーニングと推論のプロセスで不整合の問題が発生します。トレーニングと推論プロセスの不一致を軽減するために、R-Drop は Dropout を正規化し、2 つのサブモデルによって生成された出力内の出力データ分布に制限を追加し、データ分布測定の KL ダイバージェンス損失を導入して、バッチ内の同じサンプルによって生成された 2 つのデータ分布が可能な限り近くなり、分布の一貫性が保たれるようにします。具体的には、各トレーニングサンプルについて、R-Drop は、異なる Dropout によって生成されたサブモデルの出力確率間の KL ダイバージェンスを最小化します。トレーニングのアイデアとして、R-Drop はほとんどの教師ありまたは半教師ありトレーニングで使用でき、汎用性が非常に高いです。

私たちは 3 つのデータ拡張戦略を使用します。Mixup は、言語モデルと言語モデル内のトランスフォーマーのランダムレイヤーの出力レイヤーの埋め込みで、出力レイヤーの 2 つのサンプルに線形変更を加えます。敵対的トレーニングは、サンプルに小さな摂動を追加します。対照学習は、同じ文で Dropout を 2 回実行して正のサンプルペアを形成し、KL ダイバージェンスを使用して 2 つのサブモデルの一貫性を保つように制約します。これら 3 つの戦略はすべて、埋め込みでいくつかの操作を完了することで、モデルの一般化を強化します。異なる戦略によって取得されたモデルには異なる設定があり、それが統合学習の次のステップの条件となります。

2.4 アンサンブル学習と自己トレーニング

アンサンブル学習では、複数の弱教師モデルを組み合わせて、より優れた包括的な強教師モデルを取得できます。アンサンブル学習の基本的な考え方は、1 つの弱い分類器が誤った予測を行った場合でも、他の弱い分類器がそのエラーを修正できるというものです。結合するモデル間の違いが大きい場合、通常は統合学習の方がより良い結果を生み出します。

自己トレーニングでは、少量のラベル付きデータと大量のラベルなしデータを使用してモデルを共同でトレーニングします。まず、トレーニングされた分類器を使用してすべてのラベルなしデータのラベルを予測し、次に信頼性が高いラベルを疑似ラベル付きデータとして選択します。疑似ラベル付きデータは、手動でラベル付けされたトレーニングデータと組み合わせて、分類器を再トレーニングします。

アンサンブル学習 + 自己トレーニングは、複数のモデルとラベルなしデータを活用できるソリューションです。その中で、アンサンブル学習の一般的な手順は、複数の異なる弱教師モデルをトレーニングし、各モデルを使用してラベルなしデータのラベル確率分布を予測し、ラベル確率分布の加重合計を計算し、ラベルなしデータの疑似ラベル確率分布を取得することです。自己トレーニングとは、モデルをトレーニングして他のモデルを組み合わせることです。一般的な手順は、複数の教師モデルをトレーニングし、学生モデルが疑似ラベル確率分布で信頼性の高いサンプルのソフト予測を学習し、学生モデルが最終的な強力な学習者として機能することです。

図5 統合学習＋自己トレーニング構造

この FewCLUE 実践では、まず Fine-Tune 段階でマルチテンプレートのプロンプト学習を構築し、ラベル付きデータに対して敵対的トレーニング、対照学習、Mixup などの強化戦略を採用しました。これらのデータ強化戦略は異なる強化原理を使用するため、これらのモデル間の違いは非常に大きく、統合学習後にはより良い結果が得られると考えられます。

データ拡張戦略でトレーニングした後、複数の弱教師モデルを取得し、これらの弱教師モデルを使用してラベルなしデータの予測を行い、ラベルなしデータの疑似ラベル分布を取得します。その後、複数の異なるデータ拡張モデルによって予測されたラベルなしデータの疑似ラベル分布を統合して、ラベルなしデータの合計疑似ラベル分布を取得します。疑似ラベルデータをスクリーニングするプロセスでは、必ずしも最も高い信頼度を持つサンプルを選択するわけではありません。各データ拡張モデルによって与えられた信頼度が非常に高い場合、このサンプルは学習しやすいサンプルであり、あまり価値がない可能性があるからです。

複数のデータ拡張モデルによって与えられた信頼度レベルを組み合わせ、信頼度レベルは高いが学習が容易ではないサンプル（たとえば、複数のモデルの予測がすべて一貫していない）を選択しようとします。次に、ラベル付きデータと疑似ラベル付きデータのセットを使用してマルチテンプレートプロンプト学習を再構築し、データ拡張戦略を再度使用して、最適な戦略を選択します。現在、私たちの実験では 1 ラウンドの反復のみを実行しています。複数ラウンドの反復を試すこともできますが、反復回数が増えるにつれて改善は減少し、有意ではなくなります。

3 実験結果

3.1 データセットの紹介

FewCLUE リストには、4 つのテキスト分類タスク、2 つの文間関係タスク、および 3 つの読解タスクを含む 9 つのタスクが用意されています。テキスト分類タスクには、電子商取引レビューの感情分析、科学文献の分類、ニュースの分類、アプリアプリケーションの説明トピックの分類タスクが含まれます。主な分類は、短いテキストのバイナリ分類、短いテキストのマルチ分類、長いテキストのマルチ分類です。これらのタスクの中には、100 を超える多数のカテゴリを持つものもあり、カテゴリの不均衡の問題が発生しています。文間の関係タスクには、自然言語推論と短いテキストのマッチングタスクが含まれます。読解課題には、慣用句読解、多肢選択式空欄補充、要約判断、キーワード識別、代名詞の曖昧さ解消課題が含まれます。各タスクでは通常、160 個のラベル付きデータと約 20,000 個のラベルなしデータが提供されます。長いテキストの分類タスクには多くのカテゴリがあり、非常に難しいため、より多くのラベル付きデータも提供されます。詳細なタスクデータは表 4 に示されています。

表4. FewCLUEデータセットのタスク紹介

3.2 実験比較

表5は、異なるモデルとパラメータ量の実験結果の比較を示しています。 RoBERTa Base 実験では、PET/EFL モデルを使用すると、従来の直接 Fine-Tune モデルの結果よりも 2-28PP 上回ります。 PET/EFL モデルに基づいて、小規模サンプルのシナリオでの大規模モデルの効果を調べるために、RoBERTa Large で実験を行いました。RoBERTa Base と比較して、大規模モデルはモデルを 0.5 ～ 13PP 改善できます。ドメイン知識をより有効に活用するために、CLUE データセットで強化され事前トレーニングされた RoBERTa Large Clue モデルの実験をさらに行いました。ドメイン知識を組み込んだ大規模モデルでは、結果がさらに 0.1 ～ 9pp 改善されました。これを踏まえて、以降の実験では、RoBERTa Large Clue に関する実験を行いました。

表5 異なるモデルとパラメータ量の実験結果の比較（太字の赤いフォントは最良の結果を示す）

表 6 は、PET/EFL モデルにおけるデータ拡張とアンサンブル学習の実験結果を示しています。大規模なモデルでデータ拡張戦略を使用した場合でも、モデルは 0.8 ～ 9PP の改善をもたらすことがわかります。さらにアンサンブル学習と自己トレーニングを行うと、モデルのパフォーマンスは 0.4 ～ 4PP 向上し続けます。

表6 基本モデル+データ強化+統合学習の実験結果（太字の赤字は最良の結果を示す）

統合学習 + 自己トレーニングのステップでは、いくつかのスクリーニング戦略を試しました。

最も信頼度の高いサンプルを選択します。この戦略によってもたらされる改善は 1PP 以内です。最も信頼度の高い疑似ラベルサンプルの多くは、複数のモデルからの一貫した予測と高い信頼度を持つサンプルです。これらのサンプルは学習が容易であり、それらを統合する利点は限られています。
信頼性と論争性の高いサンプルを選択します (他のモデルと予測結果が一致しないモデルが少なくとも 1 つありますが、複数のモデルの全体的な信頼性がしきい値 1 を超えています)。この戦略では、特に学習しやすいサンプルを回避し、しきい値を設定することで汚れたデータが多すぎることを回避します。これにより、0-3PP の改善がもたらされる可能性があります。
上記の 2 つの戦略を組み合わせると、サンプルに対する複数のモデルの予測結果が一貫している場合は、信頼レベルがしきい値 2 未満のサンプルを選択します。他のモデルとの予測結果が一致しないモデルが少なくとも 1 つある場合は、信頼レベルがしきい値 3 を超えるサンプルを選択します。この方法では、出力の信頼性を確保するために信頼度の高いサンプルを選択し、選択された疑似ラベルサンプルの学習難易度を高めるために物議を醸すサンプルをより多く選択することで、0.4 ～ 4PP の改善を実現できます。

4 美団シナリオにおける小サンプル学習戦略の応用

美団のさまざまな事業には、豊富な NLP シナリオがあります。一部のタスクは、テキスト分類タスクと文章関係タスクに分類できます。上記の小規模サンプル学習戦略は、データリソースが不足しているときに優れたモデルをトレーニングすることを目的として、美団点評のさまざまなシナリオに適用されています。さらに、小サンプル学習戦略は、Meituan 社内の自然言語処理 ( NLP ) プラットフォームのさまざまな NLP アルゴリズム機能に広く使用されており、多くのビジネスシナリオに実装され、大きなメリットを実現しています。Meituan 社内のエンジニアは、このプラットフォームを通じて NLP センターに関連する機能を体験できます。

テキスト分類タスク

医療美容トピックの分類：美団と大衆点評のノートでは、トピックに応じて、好奇心、店舗訪問、評価、実際のケース、治療プロセス、落とし穴の回避、効果の比較、科学普及の 8 つのカテゴリに分かれています。ユーザーは特定のトピックをクリックすると、対応するメモの内容に戻り、オンラインで美団と大衆点評アプリの医療美容チャンネルの百科事典ページとソリューションページにアクセスして、自分の経験を共有します。2,989のトレーニングデータを使用した小規模サンプル学習により、精度は1.8PP向上して89.24%になりました。

ガイド識別：UGCとメモから旅行ガイドをマイニングし、旅行ガイドのコンテンツ供給を提供し、観光スポット検索のガイドモジュールに適用します。呼び出されるコンテンツは、旅行ガイドを説明するメモです。小サンプル学習では、384のトレーニングデータを使用して、精度を2PP向上させ、87％に達します。

Xuecheng テキスト分類: Xuecheng ( Meituan の内部知識ベース) には大量のユーザーテキストがあり、誘導後に 17 のカテゴリに分類されます。既存のモデルは 700 のデータでトレーニングされています。小規模サンプル学習を通じて、モデルの精度は既存のモデルより 2.5PP 向上し、84% に達します。

プロジェクトのスクリーニング：LEライフサービス/ビューティーとその他の事業の現在の混合評価リストページでは、ユーザーが意思決定情報をすばやく見つけることができないため、ユーザーのニーズを満たすには、より構造化された分類ラベルが必要です。小規模サンプル学習では、これら2つの事業に対して300〜500のデータを使用し、精度率は95％以上に達します（複数のデータセットはそれぞれ1.5〜4PP改善されます）。

文間関係タスク

医療美容効果のラベル付け：美団と大衆点評のノートを効果別にリコールしました。効果の種類には、保湿、美白、小顔、しわ取りなどが含まれ、医療美容チャンネルのページにアップロードされました。ラベル付けが必要な効果は110種類あります。小サンプル学習では、わずか2,909のトレーニングデータを使用し、精度率91.88％（ 2.8PP増加）を達成しました。

医療美容ブランドのラベリング：上流ブランド企業には、自社製品のブランドプロモーションとマーケティングを行う需要があり、コンテンツマーケティングは現在主流かつ効果的なマーケティング手法の1つです。ブランドラベルは、「易福泉」や「秀微科」など、各ブランドの詳細な紹介文を想起させるもので、合計103のブランドがあり、医療美容ブランドホールで発売されています。小サンプル学習では、わずか1,676のトレーニングデータを使用し、精度は88.59％（ 2.9PP増加）に達しました。

5 結論

このリストへの投稿では、RoBERTa に基づく意味理解モデルを構築し、事前トレーニング、PET/EFL モデル、データ拡張、統合学習と自己トレーニングを強化することでモデルのパフォーマンスを向上させました。このモデルは、テキスト分類、文間関係の推論タスク、およびいくつかの読解タスクを完了できます。

この評価タスクに参加することで、小規模なサンプルシナリオにおける自然言語理解の分野におけるアルゴリズムと研究についてより深い理解を得ることができました。また、この機会を利用して、最先端のアルゴリズムの中国語実装能力に関する予備テストを実施し、さらなるアルゴリズムの研究と実装の基盤を築きました。さらに、このデータセットのタスクシナリオは、Meituan Search および NLP 部門のビジネスシナリオと非常に類似しており、モデルの多くの戦略も実際のビジネスに直接適用され、ビジネスに直接力を与えます。