この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 ご存知のとおり、BERT は事前トレーニング中にいくつかの単語を分割します。 (この用語は「WordPiece」と呼ばれます) 。 たとえば、「loved」、 「 loving」、 「 loves」を「 lov」、 「 ed」、 「 ing」、「es」に分割します。 目標は語彙を減らしてトレーニングを高速化することですが、これによりモデルの理解能力が妨げられる場合があります。 たとえば、「lossless」を「loss」と「less」に分割する場合です。 現在、ハルビン工業大学とテンセントAIラボの研究者たちは、単語分割のない語彙を使用して、 BERTスタイルの事前トレーニング済みモデルであるWordBERTの開発に取り組んでいます。 その結果、 WordBERTの穴埋めテストと機械読解におけるパフォーマンスは BERT に比べて大幅に向上しました。 品詞タグ付け (POS-Tagging)、チャンキング(Chunking) 、固有表現抽出(NER)などの他の NLP タスクでも、WordBERT は BERT よりも優れたパフォーマンスを発揮します。 単語の分割を必要としないため、この WordBERT は中国語で直接トレーニングすることもできます。 さらに特筆すべきは、性能が向上したにもかかわらず、推論速度が低下していないことです。 一石二鳥とも言えるでしょう。 ワードピースなしBERT と同様に、WordBERT は単語埋め込みとトランスフォーマー レイヤーの 2 つのコンポーネントで構成されています。 以前のモデルと同様に、WordBERT はコンテキスト化された表現を学習するために多層双方向トランスフォーマーを使用します。 単語埋め込みは、単語ベクトル表現を取得するために使用されるパラメータ マトリックスです。単語を WordPiece に分割する BERT と比較すると、WordBERT の語彙は完全な単語で構成されています。 彼らは自然言語処理パッケージ Spacy を使用してデータを処理し、サイズが 500K と 1M の 2 つの語彙を生成しました。 語彙に5つの特殊単語[PAD]、[UNK]、[CLS]、[SEP]、[MASK]が追加されました。 語彙のサイズ、初期化構成、言語を変更することで、研究者は最終的にWordBERT の 4 つのバージョンをトレーニングしました。 WordBERT-500K、WordBERT-1M、WordBERT-Glove、および WordBERT-ZH 。 構成は上記のとおりで、埋め込みパラメータはランダムに初期化され、埋め込み次元はベースライン BERT と一致しています。 WordBERT-Glove で使用される語彙は、約 190 万のエンコードされていない単語を含む既存の Glove 語彙です。モデルは、対応する単語ベクトルからWordBERT 上で初期化されます。 WordBERT-ZH は中国語の語彙でトレーニングされた WordBERT であり、単語埋め込み次元 768 も維持します。 パフォーマンスとスピードテスト段階では、中学校の教師によって設計され、通常は中国の中学生と高校生の入学試験に使用される CLOTH から穴埋めテスト データセットを取得します。 現在の文章内での推論のみを必要とする簡単な質問と、テキスト全体内での推論を必要とする難しい質問の両方があります。 結果は次のとおりです。 △Mは中学校、Hは高校を表します WordBERT-1M は最高の結果を達成し、人間のパフォーマンスに近いです。 高校生向けの問題ではBERTよりも3.18ポイント、中学生向けの問題では2.59ポイント高いスコアを獲得しており、WordBERTは複雑なタスクにおいて理解力と推論能力が高いことが示されています。 品詞タグ付け、チャンク分析、固有表現認識(NER)などの分類タスクでは、WordBERT のパフォーマンスは次のようになります。 比較すると、NER タスクにおけるその利点はより明白です(最後の 2 つの列) 。 研究者らは、名前付きエンティティは一般的ではなく稀な単語であることが多いため、WordBERT は低頻度の単語の表現を学習するのに有利であるためではないかと推測しています。 「中国語版」WordBERT-ZHについては、研究者らがCLUEベンチマークでさまざまなタスクにおけるパフォーマンスをテストした。 BERT に加えて、比較モデルには WoBERT と MarkBERT も含まれます。これらも BERT 事前トレーニングに基づく 2 つの中国モデルです。 その結果、WordBERT-ZH は 4 つのタスクすべてで比較対象の他のすべてのモデルに勝ち、5 つのタスクすべてでベースライン BERT を上回り、 TNEWS (分類) 、OCNLI (推論) 、CSL (キーワード検出)タスクで 3 ポイント以上の差を達成しました。 これは、単語ベースのモデルが中国語にも非常に効果的であることを示しています。 最後に、実験では次のことも判明しました。 WordBERT は優れたパフォーマンスを備えており、さまざまなタスクにおける推論速度も劣っていません。 著者について1. ハルビン工業大学でコンピューターサイエンスを専攻する博士課程の学生である Feng Zhangyin さんは、NLP とテキスト生成に興味を持っています。 彼は、Microsoft Research Asia の自然言語コンピューティング グループ、ハルビン工業大学と iFLYTEK の合同研究所でインターンシップを経験し、NLP 分野のトップ カンファレンスである ENNLP で第一著者として論文を発表しました。 責任著者は Tencent AI Lab の Shi Shuming です。 論文の宛先: https://arxiv.org/abs/2202.12142 |
<<: NVIDIA はフーリエ モデルを使用して前例のない天気予報精度を実現
[[207020]]本日 Nature に発表されたこの重要な論文には、Google の Deep...
現在、人工知能は人々の生活の中でますます普及しており、生活のあらゆるところで人工知能を見つけることが...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
今日は、世界的に人気のAIツール「ChatGPT+Midjourney」を使った絵本の制作過程をご紹...
「人工知能はすべての仕事を自動化し、人間を失業させるだろう。」 「人工知能は単なる架空の技術だ。」 ...
AI が世界中のコード品質を低下させています。最近、GitClear が発表した調査レポートによると...
デジタル時代の到来により、私たちの生活は急速に変化しました。買い物の仕方も、近所のショッピングモール...
コロナウイルスのパンデミック以前、AI業界は2020年に大きな成長を遂げると予想されていました。 2...
マイクロソフトは 10 月 4 日、OpenAI の最新の DALL-E 3 画像ジェネレーターがす...
最近、ロボットが人気になってきました。家庭生活、ホテル経営、学校教育、医療などさまざまな場面でロボッ...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
【51CTO.com クイック翻訳】 [[393512]] AI、機械学習、ディープラーニングの発展...
Meta のリアルなデジタル ヒューマン 2.0 がさらに進化し、iPhone を使用して生成できる...
みなさん、こんにちは!昨日、プログラミング面接の準備をしていて、アルゴリズムの基礎を学ぼうとしている...
11月15日、OpenAIは突然、ChatGPT Plusの新規ユーザー登録を停止すると発表しました...