PubMedBERT: 生物医学的自然言語処理のためのドメイン固有の事前トレーニング済みモデル

PubMedBERT: 生物医学的自然言語処理のためのドメイン固有の事前トレーニング済みモデル

今年、大規模言語モデルが急速に発展したため、BERT のようなモデルは「小規模」モデルと呼ばれるようになりました。 Kaggle LLMコンペティションのLLM Science Examで4位になったのはDebertaのみを使用したということで、非常に優秀な成績だと言えます。そのため、特定の分野やニーズでは、大規模な言語モデルが必ずしも最適なソリューションとは限らず、「小規模」なモデルにも適した場所があります。そこで本日は、ドメイン固有のコーパスを使用して BERT をゼロから事前トレーニングする PubMedBERT を紹介します。これは、2022 年に Microsoft Research が ACM で発表した論文です。

論文の主なポイントは次のとおりです。

バイオメディカルなど、ラベルのないテキストが大量に含まれる特定のドメインの場合、言語モデルを最初から事前トレーニングする方が、一般ドメインの言語モデルを継続的に事前トレーニングするよりも大幅に効果的です。生物医学言語理解および推論ベンチマーク (BLURB) は、ドメイン固有の事前トレーニング用に提案されています。

パブメドバート

1. 特定分野の事前トレーニング

最初からドメイン固有の事前トレーニングを行うと、一般的な言語モデルの継続的な事前トレーニングよりも大幅に優れていることが示され、混合ドメインの事前トレーニングをサポートする一般的な仮定が常に当てはまるわけではないことが示唆されています。

2. モデル

BERT を使用します。マスク言語モデル (MLM) の場合、単語全体のマスキング (WWM) では、単語全体をマスクする必要があります。

3. BLURBデータセット

著者らによると、BLUE[45]はバイオメディカル分野でNLPベンチマークを作成する最初の試みである。しかし、BLUE のカバー範囲は限られています。 PubMed に基づく生物医学アプリケーション向けに、著者らは生物医学言語理解および推論ベンチマーク (BLURB) を提案しました。

PubMedBERT は、より大きなドメイン固有のコーパス (21GB) を使用します。

結果

PubMedBERT は、ほとんどの生物医学 NLP タスクにおいて、他のすべての BERT モデルを一貫して上回り、多くの場合、大幅な差をつけて優れています。

>>: LLMLingua: LlamaIndex を統合してプロンプトを圧縮し、大規模な言語モデルに効率的な推論を提供します。

AI はどのようにして人間の写真レタッチ技術を超えることができるのでしょうか? Meitu CloudのAI写真編集ソリューションを理解するための10,000語の記事

AI はどのようにして人間の写真レタッチ技術を超えることができるのでしょうか? Meitu CloudのAI写真編集ソリューションを理解するための10,000語の記事

ブログ

ブログ

自動運転と軌道予測についてはこちらの記事をお読みください。

自動運転と軌道予測についてはこちらの記事をお読みください。

ブログ

アダムはまた「引退」するのでしょうか？イェール大学のチームがAdaBeliefを提案

アダムはまた「引退」するのでしょうか？イェール大学のチームがAdaBeliefを提案

ブログ

ブログ

自動運転車向けのディープラーニングは課題にどのように対処するのでしょうか?

自動運転車向けのディープラーニングは課題にどのように対処するのでしょうか?

ブログ

フェイフェイ・リーがツイッターの取締役に就任：AI技術を活用して変革を推進し続ける

フェイフェイ・リーがツイッターの取締役に就任：AI技術を活用して変革を推進し続ける

ブログ

ブログ

Daguan 推奨アルゴリズムの実装: 協調フィルタリングのアイテム埋め込み

Daguan 推奨アルゴリズムの実装: 協調フィルタリングのアイテム埋め込み

ブログ

電子鼻のウイスキー識別精度は96％にも達する。ネットユーザー：茅台酒にも作ってみよう

電子鼻のウイスキー識別精度は96％にも達する。ネットユーザー：茅台酒にも作ってみよう

ブログ

推薦する

...

顔認証＋総合決済、モバイル決済が新たな形を生む

モバイル決済は今や人々の生活の一部となり、人々に迅速で便利なショッピング体験をもたらしています。現在...

基本的なアルゴリズムの学習ルートとランダムな考え

勉強計画（いつも顔を叩かれるような気分です）煙台での仕事を辞めて北京に来ました。アルゴリズムが苦手だ...

6 つの基本的な AI 用語: 優れた人工知能コンサルティングサービスを提供するには?

この記事は公開アカウント「Reading Core Technique」（ID: AI_Discov...

ドローン空気検知器は環境保護にどのように役立つのでしょうか?

大気汚染は常に国家経済と国民の健康を悩ませる重要な要因となっている。大気中の汚染物質をタイムリーかつ...

AIが初めて新型コロナウイルスの警告を発するのか？人工知能はあなたが思っている以上に信頼できるものです!

2019年12月30日に武漢で新型肺炎が発生してから1か月以上が経ちました。マスクの値上げや品切れ...

人工知能が司法裁判に影響を与えている！人間と機械のコラボレーションが標準になるかもしれない

【CNMOニュース】科技日報によると、「中国裁判所情報化発展報告第5号（2021年）」がこのほど正...

...

合意アルゴリズムRaftの簡単な紹介

[[417323]]この記事は、張張が執筆したWeChatパブリックアカウント「建築改善への道」から...

ICLR 2022: AI が「目に見えないもの」を認識する方法

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載...

無人配送はJD.com、Alibaba、SF Expressの「新たなお気に入り」となっているが、全国的に普及するには10年かかるかもしれない！

[[222058]]無人運転車、ドローン、無人倉庫、無人駅、配達ロボットなどの「無人技術」が、電子...

「ICV革新的アルゴリズム研究タスク」が正式にリリースされました！登録は11月18日に開始されます

中国自動車工程協会と国家インテリジェントコネクテッドビークルイノベーションセンターは、「2021年第...

AI倫理: CIOが問うべき5つの質問

[51CTO.com クイック翻訳] 人工知能ツールを導入する IT リーダーは、責任の取り方、プラ...

Redis に基づく分散ロックと Redlock アルゴリズム

[[414221]]この記事はWeChatの公開アカウント「UP Technology Contro...

...