「ドメイン外」テキストは不要、Microsoft: NLP はターゲットを絞った方法で事前トレーニングする必要がある

「ドメイン外」テキストは不要、Microsoft: NLP はターゲットを絞った方法で事前トレーニングする必要がある

[[337084]]

バイオメディカルなどの専門分野では、NLP モデルのトレーニングには、特定のデータセットに加えて、「ドメイン外」のテキストも有用であると見なされる必要があります。しかし最近、マイクロソフトの研究者は「そうは思わない」と叫んでいます。

事前トレーニングとは何ですか?

これは、人工知能に詳しくない人にとっては、魂を問う質問です。

人間である私たちは、すべてを一から学ぶ必要はありません。しかし、私たちは「古い知識を使って新しいことを学ぶ」、つまり過去に学んだ古い知識を使って新しい知識を理解し、さまざまな新しいタスクを処理することになります。

人工知能では、事前トレーニングは人間のこのプロセスを模倣することです。

事前トレーニングという用語は論文でよく見られ、これはモデルを 1 つのタスクでトレーニングして、他のタスクで使用できるパラメータを形成することを指します。

学習したタスクのモデル パラメータを使用して、新しいタスクのモデル パラメータを初期化します。このように、古い知識は、新しいモデルがゼロから始めるのではなく、古い経験から新しいタスクを正常に実行するのに役立ちます。

これまでの研究では、バイオメディカルなどの専門分野では、ドメイン固有のデータセットを使用すると、NLP モデルのトレーニングの精度が向上することが示されています。しかし、「外国語」のテキストも有用であるという一般的な認識もあります。

[[337085]]

しかし!マイクロソフトの研究者たちはその仮定に異議を唱えた。

[[337086]]

最近、マイクロソフトの研究者は、生物医学 NLP 用のドメイン固有言語モデルを事前トレーニングするための人工知能テクノロジを提案しました。そして、公開データセットから「包括的な」生物医学NLPベンチマークをコンパイルすることで、固有表現認識、証拠に基づく医療情報抽出、文書分類などのタスクで最先端の結果を達成したと自信を持って述べています。

彼らは、「混合ドメイン」の事前トレーニングを考えていますか?それは転移学習の別の形ではないでしょうか?ソース ドメインは一般的なテキスト (ニュースなど) であり、ターゲット ドメインは専門的なテキスト (生物医学論文など) です。

これに基づくと、特定のドメイン向けの生物医学 NLP モデルの事前トレーニングは、一般的な言語モデルの事前トレーニングよりも常に優れており、「混合ドメイン」の事前トレーニングは完璧ではないことがわかります。

ニューラル言語モデルを事前トレーニングするための 2 つのパラダイム。 「混合ドメイン」事前トレーニング(上);ドメイン内テキストのみを使用した事前トレーニング(下)

研究者たちはその自信を裏付ける証拠を持っている。

彼らは、バイオメディカル NLP アプリケーションへの影響を調べることで、事前トレーニング モデリングとタスク固有の微調整を比較しました。

最初のステップとして、彼らは生物医学言語理解および推論ベンチマーク (BLURB) と呼ばれるベンチマークを作成しました。これは、PubMed (生物医学関連のデータベース) が提供する出版物に焦点を当て、関係抽出、文の類似性、質問応答などのタスクと、はい/いいえの質問応答などの分類タスクをカバーしています。要約スコアを計算するには、BLURB のコーパスをタスク タイプ別にグループ化し、個別にスコアを付けてから、全体の平均を計算します。

評価のために、彼らは語彙を生成し、最新の PubMed 文書 (1,400 万件の要約と 32 億語、合計 21 GB) でモデルをトレーニングしました。トレーニングには、16 枚の V100 グラフィック カードを搭載した 1 台の Nvidia DGX-2 マシンで約 5 日間かかりました。このモデルのステップ長とバッチ サイズは 62,500 で、これは以前の生物医学事前トレーニング実験で使用された計算量に匹敵します。

研究者らは、自分たちのモデルである PubMedBERT が Google の BERT をベースに構築されているという点も確信していると述べた。

あのすごいBERT? 2018年にGoogleが提案したNLPモデルは、近年のNLP分野において最も画期的な技術となっています。

[[337087]]

しかし興味深いことに、事前トレーニング テキスト (168 億語) に PubMed の全文を追加すると、事前トレーニング時間が長くなるまでパフォーマンスがわずかに低下します。しかし研究者たちは、これは部分的にはデータ内のノイズによるものだと考えている。

「本論文では、ニューラル言語事前トレーニング モデル (つまり、「混合ドメイン」事前トレーニング) における一般的な仮定に異議を唱え、特定のドメインでゼロから事前トレーニングを行うことで、「混合ドメイン」事前トレーニングよりも大幅に優れたパフォーマンスが得られることを示します。 「私たちはバイオメディカルNLPアプリケーションにおいて、新たな最先端の成果を達成しました」と研究者らは記している。「今後は、分野固有の事前トレーニング戦略をさらに探求し、BLURBベンチマークを臨床分野やその他の価値の高い分野に拡張していきます。」

バイオメディカル NLP の研究を促進するために、研究者は BLURB ベンチマークを特集したリーダーボードを作成しました。彼らはまた、事前にトレーニングされたタスク固有のモデルをオープンソースとしてリリースしました。

この研究はプレプリントウェブサイトarxivに掲載されました。

<<:  ファーウェイはAscend AIフルスタックソフトウェアプラットフォームをリリースし、AI開発がコンピューティングパワーとアプリケーションのギャップを埋めるのを支援します。

>>:  スノーフレークアルゴリズムの実装原理を理解する

ブログ    
ブログ    

推薦する

論文の90%はモデル中心です。AIの分野では、データとモデルのどちらが重要ですか?

モデルとデータは AI システムの基盤であり、これら 2 つのコンポーネントはモデルの開発において重...

張震: AIOps の 6 つの技術的難しさと CreditEase の運用と保守における大きな変化

[51CTO.com からのオリジナル記事] 運用と保守の発展プロセスは産業革命に似ています。3 つ...

李開復:人工知能に取って代わるのが最も難しい10の仕事

[[246854]]私の意見では、警告、悲観、パニックはすべて「廬山の本当の顔を知らない」根拠のない...

MetaはQualcommチップの使用を拒否し、そのサポートソフトウェアの成熟度に疑問を呈している

クアルコムは、計算能力とエネルギー効率の点で優れたチップを備えた、世界最大のスマートフォンプロセッサ...

未来を形作るAIのトレンド

多くの人が人工知能技術の導入に非常に興味を持っていることは間違いありません。しかし、世界的な調査によ...

AIは人類にとって脅威でしょうか?人工知能には強いものと弱いものがあるが、本当の危険は強い人工知能である

近年、科学技術分野で最もホットな言葉は人工知能であり、これは近年の人工知能の急速な発展によるものです...

自動運転の未来 - 4Dミリ波レーダー

現在、自動運転車の知覚の実現は、車両に搭載されたレーザーレーダー、車載カメラ、ミリ波レーダーなどのセ...

中国の新世代人工知能レポートが発表:中国はAI論文数で世界一

[[266390]] 5月24日、浦江イノベーションフォーラムで「中国の新世代人工知能発展報告書20...

OpenAI CEO: GPT-4 は週当たり 1 億人のアクティブ ユーザーを抱え、依然として世界で最も強力な AI モデルです

米国現地時間11月7日月曜日に開催された第1回OpenAI開発者会議で、同社CEOのサム・アルトマン...

今後 5 年間で最も収益性の高い業界は何ですか?人工知能を勝ち取る者はインターネットを勝ち取るのでしょうか?

[[221537]]今後 5 年間で最も価値のある起業の方向性は何でしょうか?どの起業分野を選択す...

...

AIの「不確実な時代」にどう向き合うか

AIの拡大する影響私たちの日常生活における AI の影響はますます明らかになってきています。 AI ...

...

ハーバード大学の研究者がAIを活用して世界中の密猟を阻止

ハーバード大学ジョン・A・ポールソン工学応用科学大学院のリリー・シューさんは、幼いころから環境と保護...

埋め込みアルゴリズム空間ベクトル角度式とその応用

[[350122]]一部のデバイスは、正しく動作するために適切な方向に設置する必要があります。たとえ...