今年、大規模言語モデルが急速に発展したため、BERT のようなモデルは「小規模」モデルと呼ばれるようになりました。 Kaggle LLMコンペティションのLLM Science Examで4位になったのはDebertaのみを使用したということで、非常に優秀な成績だと言えます。そのため、特定の分野やニーズでは、大規模な言語モデルが必ずしも最適なソリューションとは限らず、「小規模」なモデルにも適した場所があります。そこで本日は、ドメイン固有のコーパスを使用して BERT をゼロから事前トレーニングする PubMedBERT を紹介します。これは、2022 年に Microsoft Research が ACM で発表した論文です。 論文の主なポイントは次のとおりです。 バイオメディカルなど、ラベルのないテキストが大量に含まれる特定のドメインの場合、言語モデルを最初から事前トレーニングする方が、一般ドメインの言語モデルを継続的に事前トレーニングするよりも大幅に効果的です。生物医学言語理解および推論ベンチマーク (BLURB) は、ドメイン固有の事前トレーニング用に提案されています。 パブメドバート1. 特定分野の事前トレーニング最初からドメイン固有の事前トレーニングを行うと、一般的な言語モデルの継続的な事前トレーニングよりも大幅に優れていることが示され、混合ドメインの事前トレーニングをサポートする一般的な仮定が常に当てはまるわけではないことが示唆されています。 2. モデルBERT を使用します。マスク言語モデル (MLM) の場合、単語全体のマスキング (WWM) では、単語全体をマスクする必要があります。 3. BLURBデータセット著者らによると、BLUE[45]はバイオメディカル分野でNLPベンチマークを作成する最初の試みである。しかし、BLUE のカバー範囲は限られています。 PubMed に基づく生物医学アプリケーション向けに、著者らは生物医学言語理解および推論ベンチマーク (BLURB) を提案しました。 PubMedBERT は、より大きなドメイン固有のコーパス (21GB) を使用します。 結果PubMedBERT は、ほとんどの生物医学 NLP タスクにおいて、他のすべての BERT モデルを一貫して上回り、多くの場合、大幅な差をつけて優れています。 |
>>: LLMLingua: LlamaIndex を統合してプロンプトを圧縮し、大規模な言語モデルに効率的な推論を提供します。
モバイル決済は今や人々の生活の一部となり、人々に迅速で便利なショッピング体験をもたらしています。現在...
勉強計画(いつも顔を叩かれるような気分です)煙台での仕事を辞めて北京に来ました。アルゴリズムが苦手だ...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
大気汚染は常に国家経済と国民の健康を悩ませる重要な要因となっている。大気中の汚染物質をタイムリーかつ...
2019年12月30日に武漢で新型肺炎が発生してから1か月以上が経ちました。マスクの値上げや品切れ...
【CNMOニュース】科技日報によると、「中国裁判所情報化発展報告第5号(2021年)」がこのほど正...
[[417323]]この記事は、張張が執筆したWeChatパブリックアカウント「建築改善への道」から...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[222058]]無人運転車、ドローン、無人倉庫、無人駅、配達ロボットなどの「無人技術」が、電子...
中国自動車工程協会と国家インテリジェントコネクテッドビークルイノベーションセンターは、「2021年第...
[51CTO.com クイック翻訳] 人工知能ツールを導入する IT リーダーは、責任の取り方、プラ...
[[414221]]この記事はWeChatの公開アカウント「UP Technology Contro...