情報抽出における画期的な進歩！ NLP は大規模に実装されようとしているのでしょうか?

AI におけるブレークスルーには、一般的に 3 つの種類があります。

学術ランキングで上位を占め、学術分野における新たなSOTAとなりました。
この分野の多くのサブタスクを1つのアーキテクチャで統一的にモデリングし、モデリングの認識を刷新しました。
学術界における新しいSOTAを誰もが使えるオープンソースツールにし、この分野の大規模実装につなげる

これらのポイントのいずれか 1 つを単独で達成するのは、非常に困難な作業です。情報抽出の分野において、最近の研究でこれら 3 つのブレークスルーがすべて同時に達成されたとしたらどうでしょうか?今回は、逆からお話ししましょう。まず3番目の点についてお話しします。

認知をリフレッシュするオープンソースの情報抽出ツール

情報抽出は産業応用価値の高い技術ですが、タスクの難しさから、実装コストは依然として高いままです。金融、政府関係、法律、医療などの業界では、大量の文書情報を手作業で処理する必要があります。たとえば、政府職員が国民の苦情を処理する場合、苦情の対象者、事件の発生場所と時間、苦情の理由などの構造化された情報を迅速に抽出する必要があります。これは非常に時間がかかり、労力がかかります。情報抽出技術を低コストかつ高性能で実装できれば、多くの産業の生産効率を大幅に向上させ、人件費を節約することができます。今、このアイデアには前例のない可能性があります。では、早速コードと結果を見てみましょう。

 #エンティティ抽出
pprint からpprint をインポート
paddlenlp からタスクフローをインポート
schema = [ 'time' , 'player' , 'event name' ] # エンティティ抽出のスキーマを定義する
つまり、 Taskflow ( 'information_extraction' 、 schema = schema )
 pprint ( ie ( "2月8日の朝、北京冬季オリンピックの女子フリースタイルスキービッグエア決勝で、中国の選手、顧愛玲が188.25ポイントで金メダルを獲得しました!" )) # pprint を使用すると印刷結果が向上します
>>>
 [{ 'time' : [{ 'end' : 6 , 'probability' : 0.9857378532924486 , 'start' : 0 , 'text' : '2月8日午前' }],
 'イベント名' : [{ 'end' : 23 , 'probability' : 0.8503089953268272 , 'start' : 6 , 'text' : '北京冬季オリンピック フリースタイルスキー女子ビッグエア決勝' }],
 'プレイヤー' : [{ '終了' : 31 , '確率' : 0.8981548639781138 , '開始' : 28 , 'テキスト' : '顧愛玲' }]}]

たった 3 行のコードで正確なエンティティ抽出を実現できますか?

より難しいイベント抽出タスクに挑戦してみましょう。

 #イベント抽出
schema = { '地震トリガーワード' : [ '地震の強さ' , '時間' , '震源地' , '震源の深さ' ]} # イベント抽出のスキーマを定義する
つまり、 set_schema ( schema ) # スキーマをリセットする
すなわち（ 「中国地震ネットワークは、5月16日午前6時8分、雲南省臨滄市鳳清県（北緯24.34度、東経99.98度）で震源の深さ10キロメートルのマグニチュード3.5の地震が発生したと公式に発表した。」 ）
 >>>
 [{ 「地震の引き金となる言葉」 :
  [{ '終了' : 58 、 '確率' : 0.9987181623528585 、 '開始' : 56 、 'テキスト' : '地震' 、
 「関係」 :
      { '地震の強さ' : [{ '終了' : 56 , '確率' : 0.9962985320905915 , '開始' : 52 , 'テキスト' : '3.5' }],
 'time' : [{ 'end' : 22 , 'probability' : 0.9882578028575182 , 'start' : 11 , 'text' : '5月16日 06:08' }],
 '震源' : [{ 'end' : 50 , 'probability' : 0.8551417444021787 , 'start' : 23 , 'text' : '雲南省臨滄市鳳清県（北緯24.34度、東経99.98度）' }],
 「焦点深度」 : [{ 「終了」 : 67 、 「確率」 : 0.999158304648045 、 「開始」 : 63 、 「テキスト」 : '10 km' }]}
    }]
 }]

使いやすくて正確です!ご興味のある方は、以下のポータルからご自身でインストールして体験することができます。

事前にリンクを保存することをお勧めします。GithubにアクセスしてStarをクリックすることをお勧めします https://github.com/PaddlePaddle/PaddleNLP

もちろん、私たち自身でテストしてみると、たった 3 行のコードで何かを DIY で抽出するのは少し大げさだと感じるかもしれません。

いいえ、このインターフェースは、実際には、一般的なオープンドメイン情報抽出パラダイム、つまりオープンドメイン情報抽出 API インターフェースをすべての人に示しています。つまり、抽出するエンティティ、関係、イベント、その他のタイプ (スキーマ) を指定すると、「プロンプト」モデルがテキストから対応するターゲットを抽出します。

たとえば、最初の例では、テキストから時間、プレーヤー、イベント名の 3 つのエンティティを抽出します。これらをスキーマパラメータとして Taskflow に渡すと、「プロンプト」モデルはテキストからこれらの 3 つのエンティティを正確に抽出します。このようにして、あらゆる情報抽出のニーズに簡単に対応できます。

この一連の作戦は、2022年でもまだ少し夢のような感じがします。市場に出回っている情報抽出ツールのほとんどは、特定の分野でのクローズドドメイン（限定された定義済みスキーマ）抽出しか実行できず、効果を保証することは困難であることを知っておく必要があります。ましてや、3 行のコードで呼び出せるオープンドメインツールの場合はなおさらです。

こうなると、このオープンソースツールはどうやって実現されるのか、と人々は興味を抱きます。私は PaddleNLP 内部の誰かと話をして、2 つの重要なポイントがあることを知りました。

ACL2022で公開された情報抽出リストを支配し、情報抽出の多くのサブタスクを統合する技術UIE
最初の知識強化言語モデル - ERNIE 3.0

最初の点に関しては、この記事の次の章で焦点を当てるので、ここでは保留にしておきます。 2点目については、情報抽出タスクには知識が極めて重要であることが分かっており、ERNIE 3.0はパラメータ数が多いだけでなく、数千万のエンティティの知識グラフも吸収しており、中国のNLPで最も「知識」が豊富なSOTAベースであると言えます。 ERNIE 3.0 に基づいて、オープンドメイン情報抽出用の 2 段階 SOTA 事前トレーニングスーパーストラクチャを構築するとどうなるでしょうか? 2 つの強力な力の組み合わせが、このツールが夢のような体験をもたらす秘密です。

注目すべきは、強力な知識蓄積を備えたこの NLP ベースと素晴らしい情報抽出アーキテクチャが PaddleNLP に統合されていることです。ただし、PaddleNLP は単なる SOTA ストレージボックスではありません。非常に使いやすいモデル圧縮展開ソリューション、大規模モデル加速テクノロジ、産業シナリオのアプリケーション例も提供し、堅牢なユーザビリティとパフォーマンスの最適化を実現しています。一言でまとめると、中国語 NLP アプリケーション用の魔法のツールを作成します。

UIE は驚くべきゼロショットオープンドメイン情報抽出機能を備えているだけでなく、強力な小規模サンプルのカスタマイズされたトレーニング機能も備えていることは注目に値します。

著者は、インターネット、医療、金融の 3 つの業界における関係性とイベント抽出タスクに対する小規模サンプルのカスタマイズされたトレーニングの効果をテストしました。

金融シナリオでは、トレーニングサンプルを 5 つ追加するだけで、uie ベースモデルの F1 値が 25 ポイント増加しました。つまり、ツールのパフォーマンスが一部のケースやシナリオで低下したとしても、いくつかのサンプルを手動でラベル付けしてモデルに取り込むと、パフォーマンスが大幅に向上します。この強力な Few-Shot 機能は、ツールが多数のロングテールシナリオに実装されることを最終的に保証します。

このツールのさらなる可能性と驚きを探求するには、ポータルにアクセスしてください:

https://github.com/PaddlePaddle/PaddleNLP/tree/develop/model_zoo/uie

次に、2番目のポイントは、

複数のサブタスクによる情報抽出のための統一アーキテクチャ

情報抽出の分野には多くのタスクがあります。主なタスクの種類の観点から、エンティティ抽出、関係抽出、イベント抽出、評価次元抽出、意見語抽出、感情傾向抽出などに分類できます。各タスクの種類での抽出ドメインとスキーマ定義を具体的にすると、タスクは無限にあります。

そのため、これまでは情報抽出の実装は非常に困難でコストがかかりました。企業はデータのラベル付け、モデルの開発、細分化された各タスクタイプとドメインの保守に専任の人員を配置する必要があっただけでなく、展開にも非常に手間がかかり、多くのマシンリソースを消費していました。

さらに、さまざまなサブタスクは完全に分離されていません。従来のサブタスク固有の設計では、タスク間で共通の知識を共有することが困難です。「情報アイランド」の力は常に限られており、偏りさえあります。しかし、今ではない。複数のタスクを統合するオープンドメイン情報抽出技術UIEは、中国科学院ソフトウェア研究所と百度が共同で提案し、ACL 2022でSOTA技術として公開されました。これがその写真です。

簡単に言えば、UIE は近年人気のプロンプト概念を利用し、抽出するスキーマ情報をモデル入力の接頭辞として「手がかり語」（スキーマベースプロンプト）に変換することで、モデルが理論的にさまざまな分野やタスクのスキーマ情報に適応し、手がかり語が示す結果をオンデマンドで抽出できるようにすることで、オープンドメイン環境での一般的な情報抽出を実現します。

例えば、上図のように、テキストから「名前」という実体と「勤務先」という関係を抽出したい場合、[スポット] 人 [関連] 勤務先という接頭辞を構築し、抽出したい対象テキスト [テキスト] と接続して、全体を UIE に入力することができます。

では、ここで重要な UIE モデルはどのようにトレーニングされるのでしょうか?

UIE の著者は、事前トレーニング済みモデルの MLM 損失に基づいて、2 つのタスク/損失を巧みに構築しました。

テキスト構造事前トレーニング $L_{pair}$: <テキスト、構造> ペアが与えられた場合、スポットとアソシエーションをランダムにサンプリングして抽出されたスキーマに基づいてスキーマ負の例を構築し、スキーマ負の例を元のスキーマ (正の例) と連結してメタスキーマを取得し、最後にそれをテキストと連結して構造を予測します。著者は、これにより、事前トレーニング段階でモデルがトリプルを乱暴に記憶することを回避し、一般的なテキスト構造マッピング機能を獲得できると述べています。

構造生成事前トレーニング$L_{record}$: このタスクは、出力構造SELをデコーダーの最適化ターゲットとして、厳密なSELルールを学習し、デコーダーの構造出力機能をトレーニングすることです。

2 つの損失を共同で事前トレーニングすることにより、強力な UIE モデルが得られます。注目すべきは、元の論文では T5 モデルをバックボーンとして使用していたものの、生成アーキテクチャに基づいていたことです。実際、中国語タスクにおけるモデルの潜在能力を最大限に引き出し、モデルの推論効率を許容できるものにするために（結局のところ、生成タスクはまだ重すぎる）、この記事の最初の章で説明した PaddleNLP 情報抽出ソリューションでは、強力な ERNIE 3.0 モデル + 抽出（読解）アーキテクチャが使用されています。

したがって、中国語のタスクではパフォーマンスが向上し、推論速度も速くなります。詳細については、原文を読むか、記事の最後にあるQRコードポスターをスキャンしてUIEライブ放送の予約をしてください〜論文リンク：https://arxiv.org/pdf/2203.12277.pdf

最後に、ポイント1についてお話しましょう。

偶然にもSOTAが13個になりました

UIE はさまざまな IE タスクデータセットでどのように機能しますか?

まず、従来の設定では、4 種類の抽出タスク、13 の従来のテストセット、および SOTA 比較が行われます。

表の右から2番目の列はUIE事前トレーニングなし（T5+SELに基づく直接微調整）の結果を示し、右から1番目の列はUIE事前トレーニング後の微調整の結果を示しています。SEL+強力な生成モデルは情報抽出の統一モデリングで強力な結果を達成でき、UIE事前トレーニングによりモデルのパフォーマンスがさらに向上することがわかります。

モデルを微調整すると、異なる事前トレーニング戦略によって生じたモデルの違いが実際に弱まることが分かっています。したがって、UIE 事前トレーニングの価値は、小規模なサンプルでより完全に反映されます。

UIE 事前トレーニング後、モデルの小サンプル学習能力が大幅に向上しました。これが、UIE ツールの強力なカスタマイズ機能と、ミッドテールおよびロングテール業界での実装の鍵となります。

<<: ビジネスニーズに基づいて AI ソリューションを選択するにはどうすればよいでしょうか?

>>: ネットユーザーの83%を騙した！画像生成の頂点、DALL-E 2 は実際にチューリングテストに合格したのか？