清華大学とアリババDAMOアカデミーが開発した業界初の少数サンプルNERデータセット

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

NER（固有表現認識）は、NLP の基本的なタスクです。日常的なタスクは、テキスト内の固有名詞（人名、地名、組織名など）を認識して分類するように人工知能（AI）をトレーニングすることです。

[[401469]]

△煙台：誰を怒らせたの？

コンピュータ言語に翻訳するということは、構造化されていない自然言語からさまざまなエンティティを見つけて、適切なカテゴリに分類することを意味します。また、「江大喬同志は何年間南京市長を務めていますか？」のような質問は避けてください。

しかし、データやサンプルが不足している場合、事前の知識に基づいてどのように分類し学習するかは、現在 NLP 担当者が直面している難しい問題です - Few-Shot。

少数ショットの NER (事前トレーニング済み言語モデル BERT など) に関する研究は増えていますが、専用のデータセットはまだ存在しません。

現在、Wikipedia から180,000 の文、 490,000 のエンティティ、 460 万の注釈 (8 つの粗粒度タイプと 66 の細粒度タイプ) を含むデータセットが利用可能です。

△ ACL-IJCNLP 2021に現在受付中

これは、清華大学と Alibaba DAMO Academy が共同で開発した、業界初の人間が注釈を付けた少数サンプルの NER データセットであるFEW-NERDです。

どのようなデータセットですか?

文数、タグ数、エンティティタイプなどの統計を比較すると、FEW-NERD は関連分野の既存の NER データセットよりも大きいことがわかります。

さらに、これは手動で注釈が付けられた最大のデータセットでもあります。

エンティティに名前を付けるには多くの場合コンテキストが必要であり、特にエンティティの種類が多い場合は注釈付けの難易度が大幅に増加します。

FEW-NERD の注釈は、言語知識を持つ 70 人の注釈者と 10 人の経験豊富な専門家によって作成されています。

具体的には、各段落は 2 人の担当者によって独立して注釈が付けられ、その後専門家によってレビューされ、その後、一括抽出されたデータが二重チェックされました。これにより、注釈の正確性が保証されます。

たとえば、上記の文「ロンドンはイギリスのロックバンドの 5 番目のアルバムです...」のエンティティ「ロンドン」は、正確には「アート - 音楽」というラベルが付けられています。

段落で注釈を付ける場合、サンプルサイズが大きくないため、 FEW-NERD データのカテゴリ分布は比較的バランスが取れていると予想されます。これは、FEW-NERD データの以前の NER データセットとの主な違いです。

そして実際には、目に見えないエンティティタイプのほとんどは細分化されています。ただし、従来の NER データセット (CoNLL'03、WNUT'17、OntoNotes など) には、4 ～ 18 個の粗粒度タイプしか含まれていません。

これにより、十分な数の N 方向メタタスクを構築し、関連する機能を学習するようにトレーニングすることが難しくなります。

対照的に、FEW-NERD には、8 つの粗粒度のエンティティタイプと 66 の細粒度のエンティティタイプを含む合計112 個のエンティティタグが含まれています。

△の内側の円は粗粒度のエンティティ型を表し、外側の円は細粒度のエンティティ型を表します。

ベンチマークの選択

FEW-NERD 内のすべてのエンティティタイプ間の知識の相関関係を調査するために、研究者はエンティティタイプの類似性に関する実証的研究を実施しました。

△ の四角は、2 つのエンティティタイプ間の類似性を表します。

実験結果から、同じ粗粒度のタイプのエンティティタイプは類似性が高く、知識の転送が容易になることがわかります。

これにより、研究者は知識移転の観点からベンチマークを設定するようになりました。最終的に 3 つのベンチマークが設定されました。

FEW-NERD (SUP)
標準的な教師あり NER 設定が使用され、データの 70% がトレーニングデータ、10% が検証データ、20% がテストデータにランダムに分割されます。

少数のオタク(INTRA)
少数ショットの学習タスクには、粗粒度のエンティティタイプのみが含まれます。

FEW-NRTD (インター)
少数ショット学習タスクには、60% の細粒度タイプと 20% の細粒度タイプが含まれます。

実用的なアプリケーション

FEW-NERD は、少数ショットの固有表現認識のために、粗粒度モデルと細粒度モデルの両方と統合ベンチマークを備えた大規模なデータセットを提供します。

著者らはまた、正確なコンテキスト注釈により、FEW-NERDデータセットは少数サンプルのシナリオで使用できるだけでなく、教師あり学習、生涯学習、オープン情報抽出、エンティティ分類などのタスクでも役割を果たすことができると指摘しました。

さらに、FEW-NERD に基づくモデルとシステムは、バイオメディカル、金融、法律などさまざまな分野でのナレッジグラフ(KG) の構築にも役立ち、特定分野における NLP のアプリケーション開発をさらに促進します。

開発者らはまた、FEW-NERD は将来的にクロスドメイン注釈、長距離注釈、およびより洗練されたエンティティタイプを追加するために拡張される予定であると述べました。

データセット公式ウェブサイトリンク:
https://ningding97.github.io/fewnerd/
データセットのダウンロード:
https://github.com/thunlp/Few-NERD
論文の宛先:
https://arxiv.org/abs/2105.07464

<<: Google はデータセンター向けの次世代地熱エネルギーを開発するために AI を応用している

>>: AIはすでにLeetCodeを実行できる

ディープラーニングの本質を探りますか?

ブログ

AWS が ML プラットフォーム SageMaker の 9 つの主要なアップデートを発表

ブログ

AI、ゼロトラスト、エッジの近代化、マルチクラウド: 2024年に注目すべき技術トレンド

清華大学とアリババDAMOアカデミーが開発した業界初の少数サンプルNERデータセット

どのようなデータセットですか?

ベンチマークの選択

実用的なアプリケーション

ディープラーニングの本質を探りますか?

AWS が ML プラットフォーム SageMaker の 9 つの主要なアップデートを発表

AI、ゼロトラスト、エッジの近代化、マルチクラウド: 2024年に注目すべき技術トレンド

無人タクシーが警察に止められた後逃走！ AI: 怖かったです。

XiaomiのFALSRアルゴリズムが正式にオープンソース化され、画像超解像エンジニアリングアプリケーションに大きな進歩をもたらしました。

データは王様です！データを通じて段階的に効率的な自動運転アルゴリズムを構築するにはどうすればよいでしょうか?

Dynatrace のフルスタック AI モニタリングは、企業が AWS クラウドで飛躍するのを助けます

推薦する

機械学習モデルの導入が不安ですか?ここにステップバイステップのチュートリアルがあります

遠隔医療と増加する高齢者人口：高齢者ヘルスケアの強化

教師なし学習のための最も強力な戦略

【ビッグガイがやってくるエピソード7】スマートショッピングガイド対話ロボットの実践

Huyaは人間とシーンの分離技術を使用して、顔を覆わずにスマートな弾丸スクリーンを作成します

2020年代に人工知能が教育を変える6つの方法

ソラを批判した後、ルカン氏は「視覚世界モデル」と題した論文を発表し、AIが物理世界を学習するための鍵を明らかにした。

データ時代の金採掘者になりましょう。Analysysアルゴリズムコンペティションがあなたの実力を披露するのを待っています。

ChatGPT を使用して Web アプリケーションを構築する方法は?

JD.com JDataアルゴリズムコンテスト決勝戦が無事終了、優勝賞金30万人民元は「魯班第7号」に

物体検出にディープラーニングを使用する方法

ルーティングプロトコルアルゴリズム