データベース向けに設計: DB-GPTはプライベートLLMテクノロジーを使用して、次世代のデータベースインタラクションを定義します。

2023年6月、Ant Groupはデータベース分野の大規模モデルフレームワークであるDB-GPTをリリースしました。 DB-GPT は、高度なビッグモデルとデータベーステクノロジーを統合することで、エンタープライズレベルのインテリジェントナレッジベースを体系的に作成し、ビジネスインテリジェンス (BI) レポート分析システム (GBI) を自動的に生成し、日常のデータとレポートの生成、およびその他の多様なアプリケーションシナリオを処理できます。 DB-GPT オープンソースプロジェクトの発起者である Chen Faqiang 氏は、「ビッグモデルとデータベースの有機的な組み合わせにより、企業や開発者はより合理化されたコードを使用してカスタマイズされたアプリケーションを作成できます。DB-GPT がビッグモデルの分野でインフラストラクチャを構築し、データベースを中心としたビッグモデルアプリケーションの構築をより簡単で便利にしてくれることを期待しています」と述べています。 DB-GPTコミュニティは設立以来、JD.com、Meituan、Alibaba、Vipshop、Ant Groupなど多くのインターネット企業の開発者を集めて参加してきたと報じられています。わずか半年で、1万近くのスターを持つオープンソースコミュニティに急速に成長し、業界と開発者から認められています。この間、GitHub TrendingやHacker Newsのホームページにも何度も登場しました。

以下は DB-GPT のデモ画像です。

図1: 自然言語でデータベースと対話してチャートを生成する

図2: Excelダイアログが分析レポートを動的に生成する

図3: 自然言語対話生成分析パネル

過去 6 か月間で、DB-GPT プロジェクトは、提出された最初のコード行から現在のバージョン 0.4.4 まで成長しました。プロジェクト機能の微調整とバージョンの継続的な反復により、プロジェクトチームは DB-GPT に関する研究論文も発表しました。この論文では、RAG、マルチモデル管理フレームワーク SMMF、Text2SQL の自動微調整、データ駆動型マルチエージェントなどの主要機能の実装アーキテクチャと実験的比較など、プロジェクトのコアテクノロジーの詳細が説明されています。次に、DB-GPT 論文の関連内容を見てみましょう。

論文アドレス: https://arxiv.org/pdf/2312.17449.pdf
論文コード: https://github.com/eosphoros-ai/DB-GPT
論文の公式ウェブサイト: https://dbgpt.site/
英語ドキュメント: https://docs.dbgpt.site/docs/overview
中国語のドキュメント: https://www.yuque.com/eosphoros/dbgpt-docs/bex30nsv60ru0fmx

導入

ChatGPT や GPT-4 などの大規模言語モデル (LLM) は、人間の会話をシミュレートし、複雑なクエリを理解する上で優れた能力を発揮し、ドメイン間で LLM を統合するという新しいトレンドを先導しています。これらのモデルを外部ツールと組み合わせると、その機能がさらに強化され、インターネットで関連情報を検索したり、外部ツールを活用してより複雑で機能豊富なアプリケーションを作成したりできるようになります。

データベースの世界では、従来のシステムでは、データにアクセスして操作するために、ドメイン固有の構造化クエリ言語 (SQL) に関する技術専門家の深い知識と熟練度に依存することがよくあります。 LLM の出現により、自然言語インターフェースへの道が開かれ、ユーザーは自然言語クエリを通じてデータベースと対話できるようになり、データベースとの対話が簡素化され、直感的になりました。

それでも、強力なエンドユーザーアプリケーションを作成するために、LLM を巧みに使用してデータベースの操作性を向上させる方法は、未解決の問題のままです。現在のほとんどの研究で採用されている直接的なアプローチは、一般的に使用されている LLM (GPT-4 など) を直接使用し、簡潔な少数ショットのプロンプトまたは対話型コンテキスト学習 (ICL) を通じて対話することです。このアプローチの利点は、トレーニングデータに過剰適合する可能性が低く、新しいデータに適応するのに十分な柔軟性があることですが、欠点は、中規模 LLM の微調整スキームと比較してパフォーマンスが最適ではない可能性があることです。

さらに、データベースとのインテリジェントな相互作用をさらに促進するために、数多くの研究と実践により、LLM 対応の自動推論および意思決定プロセス (エージェントとも呼ばれる) をデータベースアプリケーションに組み込むことが試みられてきました。ただし、ナレッジエージェントは汎用的ではなく、特定のシナリオやタスクに合わせてカスタマイズされることが多く、幅広いアプリケーションシナリオでの大規模な使用が制限されます。 LLM を中心としたデータベースのやりとりではプライバシー保護対策が重要ですが、この分野での詳細な研究はまだ不十分です。これまでの研究のほとんどは、データベース操作のために慎重に設計されたものではなく、一般的な目的を持っています。

この研究では、著者らは、プライベート化技術を使用してデータベースからデータを抽出、構造化、アクセスするために LLM テクノロジを活用するように設計されたインテリジェントな本番環境レベルのプロジェクトである DB-GPT フレームワークを提案しました。 DB-GPT は、LLM の自然言語理解と生成の可能性を最大限に活用するだけでなく、エージェントとプラグインのメカニズムを通じてデータ駆動型エンジンを継続的に最適化します。表 1 は、DB-GPT と LangChain、LlamaIndex、PrivateGPT、ChatDB などの他のツールとの包括的な比較を複数の側面から示しています。要約すると、DB-GPT には次のような明らかな利点があります。

プライバシーとセキュリティの保護。 DB-GPT は、ユーザーに究極の展開柔軟性を提供し、個人のデバイスまたはローカルサーバーにインストールし、インターネット接続なしで実行できるようにします。これにより、データが実行環境から決して漏れることがなくなり、データ漏洩のリスクが完全に排除されます。データ処理モジュールでは、データセット内の個人識別子を隠すことで、個人情報への不正アクセスや悪用などのリスクが大幅に軽減されます。

マルチソースナレッジベースの質問と回答の最適化。従来の知識ベースの質問応答 (KBQA) システムと比較して、DB-GPT は、複数のソースの非構造化データ (PDF、Web ページ、画像など) を中間データ表現に取り込み、これらのデータを構造化知識ベースに保存できる、柔軟で効率的なバイリンガルデータ処理パイプラインを設計および構築しました。これに基づいて、システムは最も関連性の高い情報フラグメントを効率的に取得および照会し、強力な自然言語生成機能を利用して、ユーザーに詳細な自然言語の回答を提供できます。

テキストから SQL への微調整。生成機能をさらに強化するために、DB-GPT は、テキストから SQL へのタスク用に一般的に使用されるいくつかの LLM (Llama-2、GLM など) を微調整し、SQL の専門知識を持たないユーザーがデータと対話するためのハードルを大幅に下げます。著者の理解によれば、同様の研究の中には、そのような微調整を統合した LlamaIndex や SQLCoder などの代替手段がありますが、これらはバイリンガルクエリ用に最適化されていません。

ナレッジエージェントとプラグインを統合します。エージェントは自動推論および意思決定エンジンです。 DB-GPT は、実稼働環境に完全に利用可能な成熟したプロジェクトであり、高度なデータ分析技術を通じてアプリケーション会話エージェントを開発および展開し、データのインタラクティブなアプリケーションを促進できます。さらに、データと対話するためのツールとして、一連のクエリおよび取得サービスプラグインも提供します。

この論文では、DB-GPT のパフォーマンスを徹底的に評価しており、さまざまなベンチマークタスク (Text-to-SQL や KBQA など) を網羅しているだけでなく、その使いやすさやシナリオの好みを評価するためのケーススタディや調査も含まれています。ほとんどの評価指標において、DB-GPT は競合製品よりも優れたパフォーマンスを示しています。

システム設計

DB-GPT の全体的なプロセスを図 1 に示します。 DB-GPT システムは、検索拡張生成 (RAG) フレームワークの構築において、新しいトレーニングおよび推論技術を統合し、全体的なパフォーマンスと効率を大幅に向上させます。このセクションでは、モデルアーキテクチャ、トレーニングおよび推論パラダイムなど、各ステージの設計について説明します。

マルチソース RAG FAQ

LLM は通常、大量のオープンソースデータまたは他の場所からの独自のデータでトレーニングされますが、RAG 技術を使用して追加のプライベートデータで LLM の知識質問応答機能を強化することは可能です。図 2 に示すように、DB-GPT の RAG システムアーキテクチャは、知識構築、知識検索、適応型コンテキスト学習 (ICL) の 3 つの段階で構成されています。

知識構築。 DB-GPT の知識ベースは、さまざまな分野の膨大なドキュメントのコレクションであり、ドキュメント数 N は非常に大きくなります。この情報をより細かく処理するために、この論文では各文書を複数の段落に分割します。ここで、はn 番目の文書の段落インデックスを表します。その後、各段落はエンコーダーを介して多次元埋め込みに埋め込まれます。 DB-GPT は、従来のベクトルベースの知識表現を採用しているだけでなく、転置インデックスとグラフインデックステクノロジも組み込んでおり、図 3 に示すように、ユーザーがコンテキスト関連のデータを迅速かつ正確に取得できることは注目に値します。

知識検索。言語クエリ x を受信すると、DB-GPT は別のエンコーダーを介してx をベクトル q に埋め込みます。これを基に、DB-GPT は知識ベースから上位 K 個の関連段落を取得します。ここで、K はハイパーパラメータです。図 4 に示すように、DB-GPT は、Embedding Retriever (コサイン類似度に基づく検索)、Keyword Retriever (文全体ではなくキーワードが一致する) など、さまざまな検索モデルをサポートしています。以下の段落では、Embedding Retriever がデフォルトで使用されます。

埋め込みと検索の学習。エンコーダーとを正確にトレーニングすることで、 DB-GPT は、類似度スコアが高いほどクエリとの関連度が高い文章を表すと確信しています。直感的に、本当に関連性の高いクエリと段落のペアの場合、そのベクトルのドット積は比較的大きくなります。 DB-GPT のエンコーダーは、バイリンガルドキュメントのエンコードと処理をエレガントに実装することを目的とした、Multilingual-E5 ベースモデルアーキテクチャを採用しています。

適応型 ICL と LLM の生成。このフェーズでは、DB-GPT システムは ICL を実行して生成に応答します。システムはまず、クエリとのコサイン類似度に従って K 個の検索結果をソートし、次に上位 J 個 (J ≤ K) の結果を選択し、それらを定義済みのコンテキストヒントテンプレートに挿入し、最後に LLM を使用して応答を生成します。 ICL は、トレーニングまたは推論フェーズ中に追加のコンテキストを処理に組み込むことで、LLM のパフォーマンスを向上させる手法です。 ICL の導入により、言語モデルのコンテキスト理解が強化されるだけでなく、モデルの解釈可能性と推論スキルも向上します。 ICL のパフォーマンスは、プロンプトテンプレート、選択された例、コンテキスト例の数、例の順序などの特定の設定に大きく依存することに注意してください。 DB-GPT システムでは、さまざまなニーズを満たすために、プロンプトテンプレートを作成するためのさまざまな戦略が提供されています (例についてはリスト 1 を参照)。さらに、この論文では、個人情報が適切に保存されるように、適切なプライバシー保護対策を採用しています。

デプロイメントと推論: サービス指向マルチモデル管理フレームワーク SMMF

Model as a Service (MaaS) は、開発者や企業に、すぐに使用できる事前構成済み、事前トレーニング済みの機械学習モデルを提供するクラウドベースの人工知能サービスモデルです。 DB-GPT フレームワークでは、モデル適応プロセスを合理化し、運用効率を向上させ、モデル展開のパフォーマンスを最適化するために、サービス指向マルチモデルフレームワーク (SMMF) が提案されています。このフレームワークは、マルチモデルの展開と推論のための高速で便利なプラットフォームを提供することを目的としています。

SMMF は主に、モデル推論層とモデル展開層の 2 つの部分で構成されます。モデル推論レイヤーは、vLLM、テキスト生成推論 (TGI、HuggingFace モデル推論)、TensorRT など、さまざまな LLM に適応するように特別に設計された推論プラットフォームです。モデル展開レイヤーはブリッジの役割を果たしており、基盤となる推論レイヤーと上位レベルのモデルサービス機能の間の媒体として機能します。

モデル展開レイヤー: DB-GPT のモデル展開フレームワークレイヤー内では、一連のコンポーネントが連携して動作します。 API サーバーとモデルハンドラーで構成されるタスクは、アプリケーション層に強力なモデル提供機能を提供する役割を担います。モデルコントローラーは中心的な役割を果たし、メタデータのガバナンスを担当するだけでなく、大規模な展開アーキテクチャへのリンクとしても機能します。さらに、モデルワーカーの役割は非常に重要です。モデルワーカーは推論デバイスと基盤となるインフラストラクチャに直接接続され、モデルが最高のパフォーマンスを発揮できるようにします。

マルチエージェント戦略

DB-GPT は、データアナリスト、ソフトウェアエンジニア、データベースアーキテクトなどのユーザーにデータベースを操作するプロセス全体のエクスペリエンスを提供するマルチロールサポートシステムであり、慎重に調整された標準操作手順 (SOP) を備えています。 MetaGPT のコンセプトに触発された DB-GPT は、さまざまなエージェントにさまざまな役割を割り当て、それぞれの独自の強みと専門知識を活用して困難なタスクを解決します。 DB-GPT は、正確な調整メカニズムを通じて、さまざまな LLM エージェント間の効率的なコラボレーションを実現し、エージェント間の通信、情報共有、および集合的な推論を促進します。 DB-GPT は、Text-to-SQL の微調整された LLM に基づいて、データベースとの高度な対話機能を備えたインテリジェントエージェントを迅速に開発および展開できます。さらに、特定のユースケースに適しており動作が制限されている LlamaIndex コンポーネントとは異なり、DB-GPT を使用すると、エージェントはより少ない制約の下でより強力な一般的な推論機能を備えることができます。

データベースプラグイン

LLM は強力な機能を備えていますが、すべてのタスクで最適なパフォーマンスを発揮するわけではありません。 LLM は、質問に直接答えるのではなく、プラグインを組み込んで関連情報を収集することで、複数のステップを実行できます。一般的なプラグインとは異なり、DB-GPT プラグインはデータベース対話モード専用に設計されています。この設計により、自然言語によるデータベースのクエリが容易になり、ユーザーのクエリ式が簡素化され、LLM のクエリ理解および実行機能が強化されます。データベース対話モードは、スキーマアナライザーとクエリエグゼキューターの 2 つのコンポーネントで構成されます。スキーマアナライザーは、スキーマを LLM が理解できる構造化式に解析する役割を担い、クエリエグゼキュータは、LLM の自然言語応答に基づいて、データベース上で対応する SQL クエリを実行する役割を担います。さらに、DB-GPT は、WebGPT で提案されている Web 検索などのサードパーティサービスとも統合されているため、ユーザーはチャットを離れることなく別のプラットフォームでタスクを実行できます。これらのプラグインを使用すると、DB-GPT は強力な生成機能 (この論文では生成データ分析と呼んでいます) を使用して、複数のエンドツーエンドのデータ分析問題を実行できます。詳細については、論文中の実例を参照してください。

モデルトレーニング

RAG の実装コードは、オープンソースプロジェクト LangChain のコードを参照します。 Web 側の UI 実装の詳細については、作者の他のオープンソースプロジェクト (https://github.com/eosphoros-ai/DB-GPT-Web) を参照してください。トレーニングの残りの詳細については、元の論文を参照するか、DB-GPT オープンソースプロジェクトアドレス (https://github.com/eosphoros-ai/DB-GPT) にアクセスして、より包括的で正確な情報を入手してください。

実験

この論文では、Text-to-SQL 応答の生成品質や MS-RAG の QA パフォーマンスなど、DB-GPT システムのパフォーマンスを評価するために設計された実験を紹介し、生成されたデータの分析の定性的な結果を示します。

テキストからSQLへの検証

このプロジェクトでは、公開データセット Spider で Text-to-SQL テクノロジを使用して評価を行います。トレーニングにはトレーニングセットを使用し、評価には開発セットを使用します。評価指標として実行精度（略してEX）を使用します。このメトリックは、特定のデータベースインスタンスで予測された SQL クエリ結果と実際の SQL クエリ結果を比較することによって測定されます。 EX が高いほど、モデルのパフォーマンスは向上します。バイリンガルテキストサポートの必要性を考慮して、DB-GPTフレームワーク実験ではQwenシリーズとBaichuanシリーズが基本LLMとして選択されました。実験結果を表2に示します。

表 2 は、Text-to-SQL 微調整パイプラインにおける DB-GPT システムの有効性を示しています。Tongyi Qianwen モデルでも Baichuan モデルでも、微調整後にモデルの EX 指標が大幅に改善されています。

RAG 検証

この論文では、さまざまなオープンドメイン QA タスクで RAG フレームワークを実験しています。著者らは、データベース分野と金融分野にそれぞれ焦点を当てた 2 つの QA データセット (DatabaseQA と FinancialQA) を特別に構築しました。 DatabaseQA を構築するにあたり、著者らは 3 つの代表的なデータベースシステム (OceanBase、MySQL、MongoDB) から PDF 形式の公開チュートリアル 1,000 件を資料として収集しました。 FinancialQAの素材は、研究機関が公開している文書サンプルから抽出した1,000サンプルです。この論文では、データセットごとに、難易度に応じて専門家が注釈を付けた 100 個のテスト問題を作成します。データセットの詳細については、論文の付録を参照してください。

回答の質の評価の正確性を確保するため、この論文では 3 人の専門家を指名し、各回答を 0 から 5 のスケールで採点してもらい、スコアが高いほど回答の質が高いと判断されました。最終スコアは 3 人の専門家のスコアの平均です。この論文では、Qwen、Baichuan、ChatGLM、ChatGPT3.5 の 4 つの LLM を基本モデルとして選択しています。 ChatGPT3.5 はオープンソースモデルではないため、作成者はフレームワーク内で Text-to-SQL を微調整することはできません。 2 つのデータセットでの RAG の実験結果を表 3 と 4 に示します。テストしたすべてのデータセットで、すべてのケースで勝てるモデルはありません。ChatGPT-3.5 は DatabaseQA データセットで最高のパフォーマンスを発揮しますが、ChatGLM は FinancialQA データセットで最高のパフォーマンスを発揮します。 DB-GPT は、最も人気のあるオープンソースおよび商用 LLM を統合しており、ユーザーは RAG タスクの要件に応じて最適なモデルを自由に選択できます。

SMMF検証

DB-GPT は、vLLM を主要な推論フレームワークとして統合します。実験中、一貫性を保つために、論文では各入力プロンプトの長さを 8 トークンに固定し、出力の最大長を 256 トークンに設定しています。実験では以下の3つの評価指標を使用しました。

最初のトークンのレイテンシ (FTL): DB-GPT モデルデプロイメントフレームワークがリクエストを受信してから最初のトークンの推論とデコードを実行するまでの時間をミリ秒単位で表します。
推論レイテンシ (IL): 秒単位で測定され、DB-GPT モデルデプロイメントフレームワークがモデル推論要求を受信してから完全な応答を生成するまでの時間を表します。
スループット: すべてのユーザーとすべてのリクエストに対して DB-GPT モデル展開フレームワークによって 1 秒あたりに処理されるトークンの数。

SMMF 方式における Qwen モデルと Baichuan モデルの実験結果を表 5 と 6 に示します。結果は、vLLM モデル推論フレームワークの使用により、モデルのスループットが大幅に向上し、最初の単語の遅延と推論の遅延が大幅に削減されることを示しています。同時ユーザー数が増加するにつれて、推論に vLLM フレームワークを使用することによってもたらされるパフォーマンスの向上が特に顕著になることは注目に値します。したがって、DB-GPT は、SMMF で使用されるデフォルトの推論フレームワークとして vLLM を統合することを選択します。

その他の実験の詳細については、原論文の付録を参照してください。

未来を見据えて

1 年間の実践と抽象化を経て、DB-GPT はアーキテクチャを階層化し、より広範な本番レベルのアプリケーション機能を実現しました。下の図に示すように、上から下に向かって主に次の 7 つの層に分かれています。

視覚化レイヤー: 視覚化レイヤーの主な機能は、対話、インタラクション、グラフ表示、視覚的な配置などの機能です。
アプリケーション層: GBI アプリケーション、ChatDB アプリケーション、ChatData アプリケーション、ChatExcel アプリケーションなど、基盤となる機能に基づいたアプリケーション構築。
サービス層: サービス層は主に、LLMServer、APIServer、RAGServer、dbgptserver などのサービスを外部に公開します。
コアモジュールレイヤー: コアモジュールは SMMF、RAG、エージェントの 3 つあります。
プロトコル層: プロトコル層は主に、大規模モデルアプリケーション開発用に特別に設計されたエージェントオーケストレーション言語である AWEL (Agentic Workflow Expression Language) を指します。
トレーニングレイヤー: トレーニングレイヤーは、Text2SQL、Text2DSL、および Text2API の微調整に重点を置き、標準的な微調整のスキャフォールディングを提供します。
実行環境: 実行環境とは、フレームワーク全体が動作する環境を指します。今後は、Ray と Kubernetes をベースとした環境のサポートを優先します。

DB-GPT 全体アーキテクチャ設計図

ユーザーは、これらの基本的なフレームワーク機能に基づいて、実稼働レベルのアプリケーションをより適切に構築できます。 DB-GPT の詳細については、コミュニティをご覧ください。

付録