今年、大規模言語モデルが急速に発展したため、BERT のようなモデルは「小規模」モデルと呼ばれるようになりました。 Kaggle LLMコンペティションのLLM Science Examで4位になったのはDebertaのみを使用したということで、非常に優秀な成績だと言えます。そのため、特定の分野やニーズでは、大規模な言語モデルが必ずしも最適なソリューションとは限らず、「小規模」なモデルにも適した場所があります。そこで本日は、ドメイン固有のコーパスを使用して BERT をゼロから事前トレーニングする PubMedBERT を紹介します。これは、2022 年に Microsoft Research が ACM で発表した論文です。 論文の主なポイントは次のとおりです。 バイオメディカルなど、ラベルのないテキストが大量に含まれる特定のドメインの場合、言語モデルを最初から事前トレーニングする方が、一般ドメインの言語モデルを継続的に事前トレーニングするよりも大幅に効果的です。生物医学言語理解および推論ベンチマーク (BLURB) は、ドメイン固有の事前トレーニング用に提案されています。 パブメドバート1. 特定分野の事前トレーニング最初からドメイン固有の事前トレーニングを行うと、一般的な言語モデルの継続的な事前トレーニングよりも大幅に優れていることが示され、混合ドメインの事前トレーニングをサポートする一般的な仮定が常に当てはまるわけではないことが示唆されています。 2. モデルBERT を使用します。マスク言語モデル (MLM) の場合、単語全体のマスキング (WWM) では、単語全体をマスクする必要があります。 3. BLURBデータセット著者らによると、BLUE[45]はバイオメディカル分野でNLPベンチマークを作成する最初の試みである。しかし、BLUE のカバー範囲は限られています。 PubMed に基づく生物医学アプリケーション向けに、著者らは生物医学言語理解および推論ベンチマーク (BLURB) を提案しました。 PubMedBERT は、より大きなドメイン固有のコーパス (21GB) を使用します。 結果PubMedBERT は、ほとんどの生物医学 NLP タスクにおいて、他のすべての BERT モデルを一貫して上回り、多くの場合、大幅な差をつけて優れています。 |
>>: LLMLingua: LlamaIndex を統合してプロンプトを圧縮し、大規模な言語モデルに効率的な推論を提供します。
[[210667]]昨年、DeepMindのAlphaGoは世界囲碁チャンピオンのイ・セドルを4対1...
ビジュアル AI 分野の開発者にとって、適切なアルゴリズムを選択することはプロジェクトの戦いの半分を...
昨日(7月7日)、流行病の影響で延期されていた2020年度大学入試センター試験が正式に始まりました。...
現在、より成熟し、広く使用されているインテリジェント テクノロジーにはどのようなものがありますか? ...
現在、中国の製造業、農業、飲食業、企業、機関はすべて、自動化からインテリジェンス化、デジタル化への変...
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
この記事では、ロボット開発で使用される最も人気のあるプログラミング言語のトップ10を見ていきます。そ...
今日のビジネスは急速に変化しています。意思決定をするのに人間の知恵だけに頼るだけでは不十分です。その...
現在の科学技術分野で最もホットな技術の一つとして、人工知能は業界内外の多くの人々の注目を集めています...
私たちは人工知能の存在に慣れ始めており、生成型人工知能(GenAI)の普及により、人工知能が世界に与...
12月8日のニュース、今週の水曜日、Googleは最新の人工知能モデルGeminiをリリースしました...
過去10年間で、AIはコンピュータービジョン、音声認識、機械翻訳、ロボット工学、医学、計算生物学、タ...