アリババには、1秒間に8人の弁護士を打ち負かした新しい技術者がいる

[[231585]]

Alimeiの紹介：エッセイの添削、同時通訳、ポスター作成…人工知能技術は私たちの日常生活でますます利用されるようになっています。法律分野では、海外の複数の法律分野で LawGeex が応用されている以外、中国では現在成熟した運用製品はありません。

最近、アリババ情報プラットフォーム企業データインテリジェンス部門のエンジニアたちがひっそりとこの成果を解き放った。以下で一緒に見てみましょう。

AIと法務はどんな火花を散らすのか？

数日前、アリババ社内でこのような特別な「コンテスト」が開催されました。プロの弁護士8人が1週間で600件のオンライン契約書の審査を完了しましたが、人工知能はわずか1秒しかかからず、600件の契約書の問題をマークする精度は100％に達しました。

これは、アリババ情報プラットフォームのエンタープライズデータインテリジェンス部門のエンジニアが独自に開発したインテリジェント契約診断システムです。AIを使用して法務に代わってオンラインインターネット契約を審査します。法務分野でAIはどのように活用されていますか?その背後にある技術的な原理は何ですか?私たちが考え出した解決策は次のとおりです。

背景

インターネットにおける消費者の権利保護は、新たな社会の注目の的となっている。これには、消費者と事業者の間で締結されるインターネットオンライン契約である顧客サービス契約やユーザープライバシー契約などの問題が含まれます。アリババには多くの事業分野があるため、こうした契約の見直しや更新は大規模なプロジェクトとなります。

現在、オンライン契約書を手動で審査するのにかかる平均時間は約 30 分です。また、テキストの量が多く、ルールが多いため、手動検査では 100% をカバーできず、手動審査基準も十分に統一されていません。法務業務の代わりにAIにレビュー業務を行わせることは可能でしょうか？このような背景から、スマートコントラクト診断システムが開始されました。

このスマートコントラクト診断システムは、主に2つのことを行います。1つは、表示されるべきではないコンテンツ（法令に違反する禁止用語、消費者の権利を侵害する条項、曖昧な表現など）を判別すること、もう1つは、表示されるべきコンテンツを判断し、修正提案や推奨用語を提供することです。

スマートコントラクト診断システムはリスクポイントを検出し、推奨事項を提示します

簡単そうに見えますが、実際にはシステムを学習するプロセスには多くの困難があります。

1. 法律言語と自然言語の違い

現在使用されている NLP アプリケーションのほとんどは、自然言語処理に基づいています。たとえば、ソーシャルネットワークで使用される言語は、人々が互いに話す方法に近いものです。法律用語と自然言語用語には大きな違いがあります。法律用語は通常、特定の分野において独自の表現規範と論理を持っており、通常の自然言語表現とはまったく異なります。つまり、既存の研究成果をそのまま法務分野に適用することはできず、特定の分野に移行する必要があるということです。

2. テクノロジーとビジネスシナリオのギャップ

法務分野に関する確固たる知識基盤がなければ、必ずしも優れた NLP 技術を法務分野に導入できるとは限りません。法務分野のニーズを抽象化し、それをテクノロジーと組み合わせることは非常に困難であり、学際的かつ多分野にわたる才能の緊密な協力が必要です。

3. ラベル付けされたデータの不足

法務分野では、データが非常に少なく、機密情報や企業秘密が含まれることが多く、データを共有することが不可能です。一部のシーンにはラベル付けされたデータが少ない場合があります。

4. より高い精度要件

法務分野では、アルゴリズム指標に対する要件が厳しくなっています。特に、一部のシナリオでは、アルゴリズムのリコール率に厳しい要件があります。重要な情報を見逃すと、より大きな法的リスクが生じる可能性があるためです。さらに、多くの法務シナリオでは、アルゴリズムの説明可能性に対する要件が厳しく、アルゴリズムは、何を行うかだけでなく、なぜ行うかも理解している必要があります。

解決

システムを構築する際、最初のステップは、法律分野の業界用語と知識グラフを確立することです。

最初にシステムに自然言語ではなく法律用語を理解するように教えることによってのみ、システムは法律の概念を理解するようによりよく訓練されることができます。アリババの膨大なオンライン契約、契約書、訴訟、その他の法的文書に基づいて、フレーズマイニング[1,2]と呼ばれる大規模な教師なしフレーズマイニング手法を使用して、文書から「以下を含むがこれらに限定されない」、「委任状」、「過失による不法行為」などの業界関連性の高いフレーズを自動的に抽出します。

同時に、法律の専門家は、特定のビジネスシナリオに基づいてビジネスルールを整理します。たとえば、オンライン契約の分野では、禁止用語のリストと、それに対応する機械学習の推奨用語がマークされます。たとえば、「発表後すぐに発効する」という表現は、「発表後 7 日後に発効する」という表現が推奨されます。これらの法的ルールの入力の多くは、技術的な観点からナレッジグラフ上のポイントに解析され、コンピューターで処理できる形式に変換されます。

単語のベクトル表現

大規模なトレーニングに基づくユニバーサル単語埋め込みは、ほぼすべての NLP タスクに大きな助けとなります。法律分野に関しては、その特殊なドメイン特性のため、一般的な単語ベクトルに基づいて大量の法律文書コーパスを追加し、学習した単語ベクトルが法律分野でより優れたパフォーマンスを発揮できるようにしました。

最も一般的な単語埋め込みモデルは、Word2VecまたはGloVeを使用してトレーニングされます。最近の研究[3]では、コンテキストベースの単語埋め込みELMoが複数のNLPタスクをさらに改善し、役立つことがわかりました。

コンテキストベースの単語ベクトルの本質は、言語モデルの単語ベクトルです。単語ベクトルは単語自体の関数であるだけでなく、文中の他の単語やシーケンスの位置の関数でもあります。法律分野では、単語の埋め込みを取得し、モデルのパフォーマンスを向上させるために、ELMo 言語モデルも試しました。

コールドスタートと高速サンプルアノテーション

ラベル付きデータは、機械学習の問題において常に最も重要な要素の 1 つです。大量のラベル付きデータがあって初めて、より優れたモデルをトレーニングできます。しかし、法務分野では、ラベル付けされたデータを入手するのは非常にコストがかかり、ラベル付けには法律の専門家が必要になります。

効率とコストのバランスをとるために、まずは専門家が入力したルールとナレッジグラフに基づいたルールシステムをベースに、既存のデータに自動的にラベルを付ける自動ラベリングサービスを構築しました。一方、キーワードを置き換えて注釈データを自動的に生成することもできます。例えば、「発表したら、すぐに発効します」という場合、「すぐに」を「すぐに」「すぐ」「すぐに」などに置き換えることができます。このようにして、大量のラベル付きデータを生成することができます。

アクティブラーニング。結局のところ、ルールには限界があります。ルールはいくつかの問題を解決することはできますが、モデルの一般化能力を解決することはできず、最終的には手動によるラベル付けに頼る必要があります。手動注釈付けのコストを削減するために、アクティブラーニング手法を使用できます。最も不確実なサンプルの少数を毎回手動でラベル付けするだけで、モデルのパフォーマンスを大幅に向上できます。

複数のモデルの組み合わせ

テキスト分類技術も、従来のルールベースや人工特徴ベースの技術から、現在のディープラーニングベースの技術へと進化してきました。現在、より一般的な技術的ソリューションは、RNN ベースのシーケンスモデル、CNN ベースのモデル、および注意メカニズムの組み合わせや事前トレーニング済みの単語埋め込み方法の使用など、この基盤に基づいて進化したさまざまなバリエーションです。

法務分野では、ELMo を使用してモデルの入力としてドメイン固有の単語ベクトルを構築し、オンラインプロトコルレビューの特定の問題向けに CNN と RNN を組み合わせたディープニューラルネットワーク、つまり C-GRU モデルを設計しました。中心語と周囲の語の関係を完全に捉えるだけでなく、長い文の依存関係の問題も解決します。

ディープラーニングモデルは違法な発言の分類問題を効果的に解決できますが、ユーザーにとってはモデルがブラックボックスであり、解釈性が低いです。契約のオンラインインテリジェントレビューでは、規制に違反する利用規約を見つけるだけでなく、違反の原因となる特定の単語や、推奨される利用規約に変更する必要がある単語も特定する必要があります。

したがって、最終的なソリューションでは、ディープラーニングモデルを使用して高い再現率を達成し、違法なステートメントを含む可能性のあるすべての節を検出します。次に、構文解析とルール方式を使用して句を解析し、特定の不正な表現と推奨される表現を特定します。このソリューションの利点は、ディープラーニングを使用してリコール率を向上させ、正確な位置決めのためのルールを使用することです。

現在、オンラインプロトコルAI診断システムは、プロトコルレビューの効率を大幅に向上させるだけでなく、数秒のレビュー速度と平均精度率94％以上を達成しており、これは年間130人日の作業負荷の削減に相当します。

今後の計画

近年、ディープラーニングや自然言語処理に代表される人工知能技術は大きな進歩を遂げ、法務情報の分野にも登場し始めており、学界や産業界から幅広い注目を集めています。スマート契約診断は、スマート法務の分野における当社の第一歩にすぎません。さらに、契約、訴訟文書、仲裁文書に関するさらなる作業が進行中です。

技術面では、アリババ機械知能技術（MIT）との協力をさらに進め、業界知識グラフの構築、機械読解、法務分野への情報抽出技術の応用などの研究・探究を強化します。法律分野の基礎データ資源を蓄積し、分野の特性を備えた自然言語処理プラットフォームを構築し、多様化する法律業務に共同でサービスを提供します。

自然言語処理技術に加え、画像認識、光学文字認識（OCR）、手書き文字認識、ASRなどの音声・映像技術への投資も強化していきます。さまざまな種類の法的資料を処理し、自然言語処理の上流における複数ソースの情報入力の問題を解決するために使用されます。私たちの最終的な目標は、フルリンクとフル機能を備えた法的な AI 機能を構築することです。

私たちは、法務 AI 機能の構築と改善が、一般ユーザー、弁護士、裁判所、その他の法務業界従事者の大多数に役立つと信じています。

<<: さようなら鉄丼！もう一つの業界が混乱に陥っています!中国建設銀行が正式に発表

>>: 人工知能と機械学習に対するあなたの理解を完全に覆す10の成功ビジネスストーリー