NLPは単語を分割せずに実行できます。ハルビン工科大学の最新モデルは、複数のタスクでBERTに勝ちました

NLPは単語を分割せずに実行できます。ハルビン工科大学の最新モデルは、複数のタスクでBERTに勝ちました

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

ご存知のとおり、BERT は事前トレーニング中にいくつかの単語を分割します   (この用語は「WordPiece」と呼ばれます)

たとえば、「loved」、 loving」、 loves」を lov」、 ed」、 ing」、「es」に分割します。

目標は語彙を減らしてトレーニングを高速化することですが、これによりモデルの理解能力が妨げられる場合があります

たとえば、「lossless」を「loss」と「less」に分割する場合です。

現在、ハルビン工業大学とテンセントAIラボの研究者たち、単語分割のない語彙を使用して、 BERTスタイルの事前トレーニング済みモデルであるWordBERTの開発に取り組んでいます

その結果、 WordBERTの穴埋めテストと機械読解におけるパフォーマンスは BERT に比べて大幅に向上しました。

品詞タグ付け (POS-Tagging)、チャンキング(Chunking) 、固有表現抽出(NER)など他の NLP タスクでも、WordBERT は BERT よりも優れたパフォーマンスを発揮します。

単語の分割を必要としないため、この WordBERT は中国語で直接トレーニングすることもできます

さらに特筆すべきは、性能が向上したにもかかわらず、推論速度が低下していないことです

一石二鳥とも言えるでしょう。

ワードピースなし

BERT と同様に、WordBERT は単語埋め込みとトランスフォーマー レイヤーの 2 つのコンポーネントで構成されています。

以前のモデルと同様に、WordBERT はコンテキスト化された表現を学習するために多層双方向トランスフォーマーを使用します

単語埋め込みは、単語ベクトル表現を取得するために使用されるパラメータ マトリックスです。単語を WordPiece に分割する BERT と比較すると、WordBERT の語彙は完全な単語で構成されています。

彼らは自然言語処理パッケージ Spacy を使用してデータを処理し、サイズが 500K と 1M の 2 つの語彙を生成しました。

語彙に5つの特殊単語[PAD]、[UNK]、[CLS]、[SEP]、[MASK]が追加されました。

語彙のサイズ、初期化構成、言語を変更することで、研究者は最終的WordBERT の 4 つのバージョンをトレーニングしました。

WordBERT-500K、WordBERT-1M、WordBERT-Glove、および WordBERT-ZH

構成は上記のとおりで、埋め込みパラメータはランダムに初期化され、埋め込み次元はベースライン BERT と一致しています。

WordBERT-Glove で使用される語彙は、約 190 万のエンコードされていない単語を含む既存の Glove 語彙です。モデルは、対応する単語ベクトルからWordBERT 上で初期化されます

WordBERT-ZH は中国語の語彙でトレーニングされた WordBERT であり、単語埋め込み次元 768 も維持します。

パフォーマンスとスピード

テスト段階では、中学校の教師によって設計され、通常は中国の中学生と高校生の入学試験に使用される CLOTH から穴埋めテスト データセットを取得します。

現在の文章内での推論のみを必要とする簡単な質問と、テキスト全体内での推論を必要とする難しい質問の両方があります。

結果は次のとおりです。

△Mは中学校、Hは高校を表します

WordBERT-1M は最高の結果を達成し、人間のパフォーマンスに近いです。

高校生向けの問題ではBERTよりも3.18ポイント、中学生向けの問題では2.59ポイント高いスコアを獲得しており、WordBERTは複雑なタスクにおいて理解力と推論能力が高いことが示されています

品詞タグ付け、チャンク分析、固有表現認識(NER)などの分類タスクでは、WordBERT のパフォーマンスは次のようになります。

比較すると、NER タスクにおけるその利点はより明白です(最後の 2 つの列)

研究者らは、名前付きエンティティは一般的ではなく稀な単語であることが多いため、WordBERT は低頻度の単語の表現を学習するのに有利であるためではないかと推測しています。

「中国語版」WordBERT-ZHについては、研究者らがCLUEベンチマークでさまざまなタスクにおけるパフォーマンスをテストした。

BERT に加えて、比較モデルには WoBERT と MarkBERT も含まれます。これらも BERT 事前トレーニングに基づく 2 つの中国モデルです。

その結果、WordBERT-ZH は 4 つのタスクすべてで比較対象の他のすべてのモデルに勝ち、5 つのタスクすべてでベースライン BERT を上回り TNEWS (分類) 、OCNLI (推論) 、CSL (キーワード検出)タスクで 3 ポイント以上の差を達成しました

これは、単語ベースのモデルが中国語にも非常に効果的であることを示しています。

最後に、実験では次のことも判明しました。

WordBERT は優れたパフォーマンスを備えており、さまざまなタスクにおける推論速度劣っていません。

著者について

1. ハルビン工業大学でコンピューターサイエンスを専攻する博士課程の学生である Feng Zhangyin さんは、NLP とテキスト生成に興味を持っています。

彼は、Microsoft Research Asia の自然言語コンピューティング グループ、ハルビン工業大学と iFLYTEK の合同研究所でインターンシップを経験し、NLP 分野のトップ カンファレンスである ENNLP で第一著者として論文を発表しました。

責任著者は Tencent AI Lab の Shi Shuming です。

論文の宛先:

https://arxiv.org/abs/2202.12142

<<:  NVIDIA はフーリエ モデルを使用して前例のない天気予報精度を実現

>>:  AIファースト戦略への移行に向けた5つのポイント

ブログ    
ブログ    
ブログ    

推薦する

...

...

李開復氏:将来、人間の仕事の半分はAIに奪われるが、失業しない分野は2つだけ

中関村オンラインニュース:李開復氏は先日、未来フォーラムで人工知能をテーマにしたメディアインタビュー...

顔認識の今後の発展は、どうすればより「面子を保つ」ことができるでしょうか?

顔認識技術の利用が増えるにつれ、さまざまなリスクが徐々に明らかになってきています。 CCTVの「3....

次世代IoTシステムにおける環境CV技術

現在、コンピューター ビジョン (CV) テクノロジは転換点を迎えており、主要なトレンドが収束して、...

人工知能について知っておくべき12の秘密

人類は、自分たちの仕事を担ってくれる全知全能のエルフを持つことを常に夢見てきました。現在、研究室のコ...

チャットボットの機械学習セキュリティの重要性

人工知能は、大手テクノロジー企業、新興企業、大学の研究チームによって推進されている成長産業です。 A...

大規模言語モデルの効率的なパラメータ微調整 - BitFit/Prefix/Prompt 微調整シリーズ

2018年にGoogleはBERTをリリースしました。リリース後すぐに11のNLPタスクで最先端(S...

ハイパースケールクラウドコンピューティングプロバイダーはAIクラウドサービスへの投資に注力している

今日、AI クラウド サービスは、データ サイエンティストや開発者を惹きつけ、自社のプラットフォーム...

交換されますか? GPT4コードインタープリター完全自動

こんにちは、みんな。今日は、GPT-4 コード インタープリターがデータ分析、科学研究の描画、機械学...

シンプルなアルゴリズムで分散システムのパフォーマンスが瞬時に10倍以上向上

1. 概要この記事では、多数のクライアントが同時にデータを書き込む場合に、分散ファイルシステム HD...

RPAにより業務効率が大幅に向上、40%の企業が効果を確認

効率性、俊敏性、生産性に対する需要が高まるにつれ、新しいテクノロジーとアプリケーションが、企業と企業...

SaaS アプリケーションで AI スノーボールはどのように大きくなるのでしょうか?

Shopify の不正防止機械学習から Salesforce の Einstein まで、過去数年...

シーメンスとマイクロソフトが共同でAIアシスタントを立ち上げ、製造業における人間と機械の連携を強化

シーメンスとマイクロソフトは協力し、人間と機械のコラボレーションを強化し、生産性を向上させるように設...