北京大学の法律モデルChatLawがサーバー爆発：張三の裁判方法を教えます

大型モデルが再び「爆発」した。

昨夜、法律モデルChatLawがZhihuのホット検索リストのトップに立った。人気はピーク時には約2000万人に達した。

この ChatLaw は北京大学のチームによって立ち上げられ、包括的な法律サービスを提供することに取り組んでいます。一方では、現在、全国的に弁護士が不足しており、その供給量は法律需要をはるかに下回っています。他方では、一般の人々は法律知識と規定の間に自然なギャップがあり、法的武器を使って自分自身を守ることができません。

最近の大規模言語モデルの登場により、一般の人々が会話形式で法律問題について相談できる絶好の機会が提供されています。

現在、ChatLaw には次の 3 つのバージョンがあります。

ChatLaw-13B は、Ziya-LLaMA-13B-v1 に基づいてトレーニングされた学術的なデモバージョンであり、中国語で優れたパフォーマンスを発揮します。しかし、論理的に複雑な法的質問と回答は効果的ではなく、より大きなパラメータを持つモデルで解決する必要があります。
ChatLaw-33B もアカデミックなデモ版です。Anima-33B をベースにトレーニングされており、論理的推論能力が大幅に向上しています。しかし、Anima には中国語のコーパスが少なすぎるため、質疑応答セッション中に英語のデータが頻繁に表示されます。
ChatLaw-Text2Vec は、930,000 件の司法判例のデータセットを使用し、ユーザーの質問情報と対応する法律条項を照合できる BERT に基づく類似性マッチングモデルをトレーニングします。

公式デモによると、ChatLaw はユーザーが文書や録音などの法的資料をアップロードし、要約や分析を行ったり、視覚的なマップやグラフなどを作成したりできるようにサポートします。さらに、ChatLaw は事実に基づいて法的アドバイスや法的文書を生成することもできます。このプロジェクトは GitHub で 1.1k 個のスターを獲得しています。

写真

公式サイト：https://www.chatlaw.cloud/

論文アドレス: https://arxiv.org/pdf/2306.16092.pdf

GitHub アドレス: https://github.com/PKU-YuanGroup/ChatLaw

現在、ChatLaw プロジェクトの人気により、サーバーが一時的にクラッシュし、計算能力が限界に達しています。チームは現在修正に取り組んでおり、興味のある読者は GitHub でベータモデルを展開できます。

編集者自身はまだ内部テスト中です。ここでは、日常のオンラインショッピングで遭遇する可能性のある「7 日間の理由なし返品」問題について、ChatLaw チームが提供する公式の会話例を紹介します。 ChatLaw の回答は非常に包括的だと言わざるを得ません。

写真

しかし、編集者はChatLawのアカデミックデモ版を試すことができることを発見しました。残念ながら、法律相談機能にはアクセスできず、簡単な会話による相談サービスしか提供されていません。試していただきたい質問をいくつか挙げます。

写真

実際、最近大規模な法的モデルを発表したのは北京大学だけではない。先月末、PowerLaw IntelligenceとZhipu AIは共同で、数千億のパラメータを持つ大規模な法律垂直モデルであるPowerLawGLMをリリースしました。このモデルは、中国の法的シナリオへの適用において独自の利点を示したと報告されています。

ChatLawのデータソースとトレーニングフレームワーク

1つ目はデータの構成です。 ChatLaw データは主にフォーラム、ニュース、法律、司法解釈、法律相談、法律試験問題、判決文書で構成されており、これらはクリーニングおよび強化されて会話データが構築されます。同時に、ChatLaw チームは、北京大学国際法学院や業界の有名な法律事務所との協力を通じて、データの専門性と信頼性を確保しながら、ナレッジベースをタイムリーに更新することができます。具体的な例をいくつか見てみましょう。

法令や司法解釈に基づく解釈例：

実際の法律相談データをクロールする例:

司法試験の多肢選択問題の構成例:

写真

次にモデルレベルがあります。 ChatLAW をトレーニングするために、研究チームは Low-Rank Adaptation (LoRA) を使用して Ziya-LLaMA-13B を微調整しました。さらに、この研究では、モデルによって引き起こされる幻覚の問題を軽減するために、自己暗示の役割も導入されました。トレーニングプロセスは複数の A100 GPU で実行され、deepspeed を使用してトレーニングコストがさらに削減されます。

次の図は ChatLAW のアーキテクチャ図です。この研究では、モデルに法的データを注入し、この知識に対して特別な処理と強化を実行します。同時に、推論中に複数のモジュールを導入して、一般モデル、専門モデル、知識ベースを統合します。

この研究では、モデルが正しい法律や規制を生成し、モデルの錯覚を最小限に抑えることを保証するために、モデルの推論に制約も課しました。

写真

当初、研究チームは検索にMySQLやElasticsearchを使用するなど、従来のソフトウェア開発手法を試しましたが、満足のいく結果は得られませんでした。そのため、この研究では、埋め込み用の BERT モデルの事前トレーニングを開始し、Faiss などの方法を使用してコサイン類似度を計算し、ユーザーのクエリに関連する上位 k 件の法律と規制を抽出しました。

このアプローチでは、ユーザーの質問が曖昧な場合、最適ではない結果が生成されることがよくあります。そのため、研究者はユーザーのクエリから重要な情報を抽出し、この情報のベクトル埋め込みを使用して、マッチング精度を向上させるアルゴリズムを設計します。

大規模モデルはユーザークエリを理解する上で大きな利点があるため、本研究では LLM を微調整してユーザークエリからキーワードを抽出しました。本研究では、複数のキーワードを取得した後、アルゴリズム 1 を使用して関連する法律条項を検索しました。

写真

実験結果

この研究では、10年以上にわたる国家司法試験問題を収集し、2,000問の問題とその標準解答を含むテストデータセットをまとめ、法律上の多肢選択問題を処理するモデルの能力を測定しました。

しかし、研究では各モデルの精度は全般的に低いことが判明した。この場合、精度だけを比較してもあまり意味がありません。そのため、本研究では、League of Legends の ELO マッチングメカニズムを借用し、モデル対決 ELO メカニズムを作成して、各モデルが法的選択問題を処理する能力をより効果的に評価しました。以下は ELO スコアと勝率チャートです。

写真

上記の実験結果を分析すると、次のような観察結果が得られる。

（１）法律上の質問と回答、規制文書のデータを導入することで、多肢選択式の質問に対するモデルのパフォーマンスをある程度向上させることができる。

（２）特定の種類のタスクのデータをトレーニング用に追加することで、その種類のタスクにおけるモデルのパフォーマンスが大幅に向上します。たとえば、ChatLaw モデルが GPT-4 よりも優れている理由は、記事の中でトレーニングデータとして多数の複数選択問題が使用されているためです。

（３）法的選択問題には複雑な論理的推論が必要となるため、通常、パラメータが大きいモデルの方がパフォーマンスは良好となる。

参考Zhihuリンク:

https://www.zhihu.com/question/610072848

その他の参考リンク:

https://mp.weixin.qq.com/s/bXAFALFY6GQkL30j1sYCEQ

<<: GPT-4 だけが自己改善可能、GPT-3.5 はできない、MIT と Microsoft のコード生成実験で新たな発見

>>: 「電子ミバエ」がマスク氏を警戒させた！その背後には、コンピューターで実行できる13万個のニューロンからなる脳全体の地図がある。