PubMedBERT: 生物医学的自然言語処理のためのドメイン固有の事前トレーニング済みモデル

PubMedBERT: 生物医学的自然言語処理のためのドメイン固有の事前トレーニング済みモデル

今年、大規模言語モデルが急速に発展したため、BERT のようなモデルは「小規模」モデルと呼ばれるようになりました。 Kaggle LLMコンペティションのLLM Science Examで4位になったのはDebertaのみを使用したということで、非常に優秀な成績だと言えます。そのため、特定の分野やニーズでは、大規模な言語モデルが必ずしも最適なソリューションとは限らず、「小規模」なモデルにも適した場所があります。そこで本日は、ドメイン固有のコーパスを使用して BERT をゼロから事前トレーニングする PubMedBERT を紹介します。これは、2022 年に Microsoft Research が ACM で発表した論文です。

論文の主なポイントは次のとおりです。

バイオメディカルなど、ラベルのないテキストが大量に含まれる特定のドメインの場合、言語モデルを最初から事前トレーニングする方が、一般ドメインの言語モデルを継続的に事前トレーニングするよりも大幅に効果的です。生物医学言語理解および推論ベンチマーク (BLURB) は、ドメイン固有の事前トレーニング用に提案されています。

パブメドバート

1. 特定分野の事前トレーニング

最初からドメイン固有の事前トレーニングを行うと、一般的な言語モデルの継続的な事前トレーニングよりも大幅に優れていることが示され、混合ドメインの事前トレーニングをサポートする一般的な仮定が常に当てはまるわけではないことが示唆されています。

2. モデル

BERT を使用します。マスク言語モデル (MLM) の場合、単語全体のマスキング (WWM) では、単語全体をマスクする必要があります。

3. BLURBデータセット

著者らによると、BLUE[45]はバイオメディカル分野でNLPベンチマークを作成する最初の試みである。しかし、BLUE のカバー範囲は限られています。 PubMed に基づく生物医学アプリケーション向けに、著者らは生物医学言語理解および推論ベンチマーク (BLURB) を提案しました。

PubMedBERT は、より大きなドメイン固有のコーパス (21GB) を使用します。

結果

PubMedBERT は、ほとんどの生物医学 NLP タスクにおいて、他のすべての BERT モデルを一貫して上回り、多くの場合、大幅な差をつけて優れています。

<<: 

>>:  LLMLingua: LlamaIndex を統合してプロンプトを圧縮し、大規模な言語モデルに効率的な推論を提供します。

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

深層強化学習入門: TensorFlow で初めてのゲーム AI を構築する

[[210667]]昨年、DeepMindのAlphaGoは世界囲碁チャンピオンのイ・セドルを4対1...

設計原則、テスト指標...顔アルゴリズムテストのハードコアスキルを体系的に整理

ビジュアル AI 分野の開発者にとって、適切なアルゴリズムを選択することはプロジェクトの戦いの半分を...

ドローンやAIなどハイテクが大学入試特別編をエスコート!

昨日(7月7日)、流行病の影響で延期されていた2020年度大学入試センター試験が正式に始まりました。...

顔認識防止技術の登場により、顔をスキャンするのはまだ安全でしょうか?

現在、より成熟し、広く使用されているインテリジェント テクノロジーにはどのようなものがありますか? ...

人工知能産業は各地で花開いています。この7つのロボットがあなたに近づいてきます!

現在、中国の製造業、農業、飲食業、企業、機関はすべて、自動化からインテリジェンス化、デジタル化への変...

AI 株神: 機械学習を使って株価を予測するには?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

人工知能ロボットの開発にはどのプログラミング言語を選択すればよいでしょうか?

この記事では、ロボット開発で使用される最も人気のあるプログラミング言語のトップ10を見ていきます。そ...

人工知能の時代に、人間の知能は不可欠なのでしょうか?

今日のビジネスは急速に変化しています。意思決定をするのに人間の知恵だけに頼るだけでは不十分です。その...

みんなが話題にしている人工知能とは一体何なのでしょうか?

現在の科学技術分野で最もホットな技術の一つとして、人工知能は業界内外の多くの人々の注目を集めています...

信頼できるAIの基礎は、適切なタイミングで適切なデータを得ることです

私たちは人工知能の存在に慣れ始めており、生成型人工知能(GenAI)の普及により、人工知能が世界に与...

海外メディア:GoogleはマーケティングのためにGeminiをリリースしたが、依然としてGPT-4に遅れをとっている

12月8日のニュース、今週の水曜日、Googleは最新の人工知能モデルGeminiをリリースしました...

ジェフリー・ヒントンの最新インタビュー: 5年以内に脳の仕組みを解明できるだろうが、それはバックプロパゲーションによるものではない

過去10年間で、AIはコンピュータービジョン、音声認識、機械翻訳、ロボット工学、医学、計算生物学、タ...

...