アリババDAMOアカデミーがAIの人間の言語理解の向上を支援する論文でSemEval最優秀賞を受賞

世界最大のセマンティック評価コンテスト「SemEval-2022」は7月19日、今年唯一の「最優秀システム論文賞」をアリババDAMOアカデミーなどの研究機関の研究者に授与すると最近発表した。彼らは中国語や英語を含む11の言語に対応した知識統合型固有表現抽出（NER）システムを設計しました。これにより、人名、地名、機関名、作品名などの主要な固有表現情報を正確に識別でき、AIの人間言語理解能力を効果的に向上させることができます。

SemEval（Semantic Evaluation）は、自然言語処理の分野で20年以上の歴史を持つ権威ある国際コンテストです。計算言語学会（ACL）の語彙・意味グループが主催し、AIが人間の言語に含まれる意味を分析・理解できるようにすることを目的としています。

SemEval の最優秀論文賞には、最優秀タスク論文賞と最優秀システム論文賞の 2 つがあります。簡単に言えば、一つは質問すること、もう一つは問題を解決することです。今年の最優秀システム論文賞は、アリババDAMOアカデミー、上海科技大学、浙江大学、シンガポール工科デザイン大学の共同研究チームが受賞した。221件の候補論文の中から目立った論文のタイトルは「SemEval-2022タスク11におけるDAMO-NLP：多言語固有表現認識のための知識ベースシステム」である。

SemEval-2022 ベストシステム論文

優勝チームは、SemEval-2022 の 12 のタスクのうちの 1 つである「多言語の複雑な固有表現の認識」に参加しました。固有表現抽出（NER）は、自然言語処理の分野における基本的な作業です。主に人名、地名、機関名、固有名詞など、テキスト内の特定の意味を持つ固有語（エンティティ）を識別することを指します。

この課題では、研究者は、中国語や英語を含む 11 の言語のエンティティを認識し、複数の言語が混在し、「語幹」や略語、口語表現を含む文章を正確に認識できるシステムを設計する必要があります。たとえば、「2016年に彼女はHBOのテレビシリーズ『ゲーム・オブ・スローンズ』にゲスト出演した」という文章では、AIは組織の略称「HBO」と作品タイトル「ゲーム・オブ・スローンズ」を認識して理解する必要があります。

DAMOアカデミーシステムが総合得点で1位に

この論文では、知識を取り入れた新しい多言語固有表現認識システムを提案し、コンペティションの13のサブ項目で10の1位を獲得し、総合スコアでも1位を獲得し、業界のレベルを大幅に向上させました。

一般的に言葉は曖昧なので、文脈と組み合わせることでしか正確に理解できませんが、AIでも同じことが言えます。新しいシステムの強みは、AI が文脈がなくても複雑なエンティティの単語を理解できる点にあります。研究者らは、このシステムは追加の外部知識を導入し、多言語の一般知識ベースを構築し、インタラクティブな検索を通じてテキストの文脈情報を拡張して曖昧さを排除し、多段階の微調整と組み合わせることで、エンティティ情報の正確な認識を実現できると紹介した。

DAMOアカデミーシステムの原理図

この受賞研究成果は、翻訳、検索、人間とコンピュータの対話などの分野で幅広い応用が期待されていると報告されています。現在、DAMOアカデミーの機械翻訳システムは214の言語で相互翻訳サービスを提供し、毎日中国の中小企業200万社に数億語の翻訳を提供し、国内製品のグローバル展開に貢献しています。国際的に権威のある調査機関ガートナーの最新レポート「クラウドAI開発サービス主要機能レポート」では、アリババ言語AIが世界第2位にランクされ、中国企業史上最高の業績を記録したと指摘されている。

<<: 新しい小売業界における人工知能の応用

>>: アルゴリズムモデルをエンドツーエンドのインテリジェントモデルに変換するにはどうすればよいでしょうか?