世界最大のセマンティック評価コンテスト「SemEval-2022」は7月19日、今年唯一の「最優秀システム論文賞」をアリババDAMOアカデミーなどの研究機関の研究者に授与すると最近発表した。彼らは中国語や英語を含む11の言語に対応した知識統合型固有表現抽出(NER)システムを設計しました。これにより、人名、地名、機関名、作品名などの主要な固有表現情報を正確に識別でき、AIの人間言語理解能力を効果的に向上させることができます。 SemEval(Semantic Evaluation)は、自然言語処理の分野で20年以上の歴史を持つ権威ある国際コンテストです。計算言語学会(ACL)の語彙・意味グループが主催し、AIが人間の言語に含まれる意味を分析・理解できるようにすることを目的としています。 SemEval の最優秀論文賞には、最優秀タスク論文賞と最優秀システム論文賞の 2 つがあります。簡単に言えば、一つは質問すること、もう一つは問題を解決することです。今年の最優秀システム論文賞は、アリババDAMOアカデミー、上海科技大学、浙江大学、シンガポール工科デザイン大学の共同研究チームが受賞した。221件の候補論文の中から目立った論文のタイトルは「SemEval-2022タスク11におけるDAMO-NLP:多言語固有表現認識のための知識ベースシステム」である。 SemEval-2022 ベストシステム論文
優勝チームは、SemEval-2022 の 12 のタスクのうちの 1 つである「多言語の複雑な固有表現の認識」に参加しました。固有表現抽出(NER)は、自然言語処理の分野における基本的な作業です。主に人名、地名、機関名、固有名詞など、テキスト内の特定の意味を持つ固有語(エンティティ)を識別することを指します。 この課題では、研究者は、中国語や英語を含む 11 の言語のエンティティを認識し、複数の言語が混在し、「語幹」や略語、口語表現を含む文章を正確に認識できるシステムを設計する必要があります。たとえば、「2016年に彼女はHBOのテレビシリーズ『ゲーム・オブ・スローンズ』にゲスト出演した」という文章では、AIは組織の略称「HBO」と作品タイトル「ゲーム・オブ・スローンズ」を認識して理解する必要があります。 DAMOアカデミーシステムが総合得点で1位に この論文では、知識を取り入れた新しい多言語固有表現認識システムを提案し、コンペティションの13のサブ項目で10の1位を獲得し、総合スコアでも1位を獲得し、業界のレベルを大幅に向上させました。 一般的に言葉は曖昧なので、文脈と組み合わせることでしか正確に理解できませんが、AIでも同じことが言えます。新しいシステムの強みは、AI が文脈がなくても複雑なエンティティの単語を理解できる点にあります。研究者らは、このシステムは追加の外部知識を導入し、多言語の一般知識ベースを構築し、インタラクティブな検索を通じてテキストの文脈情報を拡張して曖昧さを排除し、多段階の微調整と組み合わせることで、エンティティ情報の正確な認識を実現できると紹介した。 DAMOアカデミーシステムの原理図 この受賞研究成果は、翻訳、検索、人間とコンピュータの対話などの分野で幅広い応用が期待されていると報告されています。現在、DAMOアカデミーの機械翻訳システムは214の言語で相互翻訳サービスを提供し、毎日中国の中小企業200万社に数億語の翻訳を提供し、国内製品のグローバル展開に貢献しています。国際的に権威のある調査機関ガートナーの最新レポート「クラウドAI開発サービス主要機能レポート」では、アリババ言語AIが世界第2位にランクされ、中国企業史上最高の業績を記録したと指摘されている。 |
>>: アルゴリズム モデルをエンドツーエンドのインテリジェント モデルに変換するにはどうすればよいでしょうか?
この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...
消費されるコンピューティング リソースは、従来の Stable Video Diffusion (S...
あなたに関するあらゆることが、さまざまな形で世界に明らかにされています。 [[387859]] 3月...
最近、DataCanvasはシリーズCの資金調達を完了したことを発表しました。これはAdvantec...
羊年春節期間中のWeChat紅包の人気は明らかで、広告主は現金紅包に5億円を投入し、CCTVの羊年春...
近年、人工知能(AI)技術の発展に伴い、多数のAIメーカーが登場しています。 AIにとって、データ、...
現在、JavaScript および TypeScript リポジトリで開発およびテストが行われて...
次のような経験をしたことはありませんか。求人検索サイトで仕事の希望に関するアンケートに答えると、サイ...
[[190364]]この記事は、写真付きの 4 つの例を含む 6 時間かけて執筆されました。目的は、...
データの収集、データのクリーンアップ、環境の構築、モデルのトレーニング、モデルの評価とテストに一生懸...