この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 NER(固有表現認識)は、NLP の基本的なタスクです。日常的なタスクは、テキスト内の固有名詞(人名、地名、組織名など)を認識して分類するように人工知能(AI)をトレーニングすることです。
△煙台:誰を怒らせたの? コンピュータ言語に翻訳するということは、構造化されていない自然言語からさまざまなエンティティを見つけて、適切なカテゴリに分類することを意味します。また、「江大喬同志は何年間南京市長を務めていますか?」のような質問は避けてください。 しかし、データやサンプルが不足している場合、事前の知識に基づいてどのように分類し学習するかは、現在 NLP 担当者が直面している難しい問題です - Few-Shot。 少数ショットの NER (事前トレーニング済み言語モデル BERT など) に関する研究は増えていますが、専用のデータセットはまだ存在しません。 現在、Wikipedia から180,000 の文、 490,000 のエンティティ、 460 万の注釈 (8 つの粗粒度タイプと 66 の細粒度タイプ) を含むデータセットが利用可能です。 △ ACL-IJCNLP 2021に現在受付中 これは、清華大学と Alibaba DAMO Academy が共同で開発した、業界初の人間が注釈を付けた少数サンプルの NER データセットであるFEW-NERDです。 どのようなデータセットですか?文数、タグ数、エンティティタイプなどの統計を比較すると、FEW-NERD は関連分野の既存の NER データセットよりも大きいことがわかります。 さらに、これは手動で注釈が付けられた最大のデータセットでもあります。 エンティティに名前を付けるには多くの場合コンテキストが必要であり、特にエンティティの種類が多い場合は注釈付けの難易度が大幅に増加します。 FEW-NERD の注釈は、言語知識を持つ 70 人の注釈者と 10 人の経験豊富な専門家によって作成されています。 具体的には、各段落は 2 人の担当者によって独立して注釈が付けられ、その後専門家によってレビューされ、その後、一括抽出されたデータが二重チェックされました。これにより、注釈の正確性が保証されます。 たとえば、上記の文「ロンドンはイギリスのロックバンドの 5 番目のアルバムです...」のエンティティ「ロンドン」は、正確には「アート - 音楽」というラベルが付けられています。 段落で注釈を付ける場合、サンプル サイズが大きくないため、 FEW-NERD データのカテゴリ分布は比較的バランスが取れていると予想されます。これは、FEW-NERD データの以前の NER データセットとの主な違いです。 そして実際には、目に見えないエンティティ タイプのほとんどは細分化されています。ただし、従来の NER データセット (CoNLL'03、WNUT'17、OntoNotes など) には、4 ~ 18 個の粗粒度タイプしか含まれていません。 これにより、十分な数の N 方向メタタスクを構築し、関連する機能を学習するようにトレーニングすることが難しくなります。 対照的に、FEW-NERD には、8 つの粗粒度のエンティティ タイプと 66 の細粒度のエンティティ タイプを含む合計112 個のエンティティ タグが含まれています。 △の内側の円は粗粒度のエンティティ型を表し、外側の円は細粒度のエンティティ型を表します。 ベンチマークの選択FEW-NERD 内のすべてのエンティティ タイプ間の知識の相関関係を調査するために、研究者はエンティティ タイプの類似性に関する実証的研究を実施しました。 △ の四角は、2 つのエンティティ タイプ間の類似性を表します。 実験結果から、同じ粗粒度のタイプのエンティティ タイプは類似性が高く、知識の転送が容易になることがわかります。 これにより、研究者は知識移転の観点からベンチマークを設定するようになりました。最終的に 3 つのベンチマークが設定されました。
実用的なアプリケーションFEW-NERD は、少数ショットの固有表現認識のために、粗粒度モデルと細粒度モデルの両方と統合ベンチマークを備えた大規模なデータセットを提供します。 著者らはまた、正確なコンテキスト注釈により、FEW-NERDデータセットは少数サンプルのシナリオで使用できるだけでなく、教師あり学習、生涯学習、オープン情報抽出、エンティティ分類などのタスクでも役割を果たすことができると指摘しました。 さらに、FEW-NERD に基づくモデルとシステムは、バイオメディカル、金融、法律などさまざまな分野でのナレッジ グラフ(KG) の構築にも役立ち、特定分野における NLP のアプリケーション開発をさらに促進します。 開発者らはまた、FEW-NERD は将来的にクロスドメイン注釈、長距離注釈、およびより洗練されたエンティティ タイプを追加するために拡張される予定であると述べました。 データセット公式ウェブサイトリンク: |
<<: Google はデータセンター向けの次世代地熱エネルギーを開発するために AI を応用している
「テクノロジー春節ガラ」が終了し、Appleは再び世界に数十億の衝撃を与えた。 「史上最高かつ最もプ...
[[382977]]コミュニティ発見アルゴリズムに精通しているなら、この Python ライブラリ...
[[327717]] 今日はオープンソース プロジェクトを紹介します。このプロジェクトの素晴らしい...
地球は私たちの共通の家であり、地球環境を保護するために私たちは協力しなければなりません。したがって、...
3D 生成の分野では、テキスト プロンプトに基づいて高品質の 3D 人間の外観と形状を作成することは...
X プラットフォーム (Twitter) で AI 論文をよく閲覧する研究者は、AK (@_akha...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[386531]]誰もそこに頭を突っ込みたくないよ!ザッカーバーグ氏は脳コンピューターインターフェ...
2月28日、Adweekは、Googleがいくつかの出版社と、ニュースコンテンツを作成するための新...
人工知能 (AI) と機械学習 (ML) を使用したセキュリティ ソフトウェアを標的としたデータ ポ...
ちょうど今、IBM は量子コンピューティングの新たなマイルストーンに到達し、現時点での最高量子ボリュ...
[[227402]]人工知能が急成長を遂げている現在、AI人材の不足は中国だけでなく、世界全体が直...
数日前、バービー・ハイモアがインターネットで話題になって以来、ネットユーザーたちは、MidJourn...