大規模モデルアプリケーションの探索 - エンタープライズナレッジスチュワード

1. 伝統的なナレッジマネジメントの背景と課題

1. 企業知識管理の必要性

ナレッジマネジメントは、あらゆる企業が直面する非常に重要なリンクです。ナレッジマネージャーの助けを借りて、企業の効率を総合的に向上させることができます。

一方、インターネットアプリケーションの発展と知識の爆発的な増加により、企業知識をどのように共有するかが企業が直面する問題となっています。企業は知識の共有を通じて効率性を向上させるだけでなく、作業の重複を減らすこともできます。

一方、知識共有モデルを通じてシステムエンパワーメントのメカニズムを確立すると、プロセスと結果をより最適化し、企業の運用効率を向上させることができます。

さらに、ナレッジスチュワードは、意思決定者に重要な情報やデータを提供して、より情報に基づいた意思決定を行うのに役立ちます。

最後に、そして最も重要なことは、企業従業員の作業負荷を軽減し、情報の損失を回避すると同時に、従業員の生産性と顧客サービスのレベルを向上させて、コスト削減と効率向上を実現することです。

2. 企業知識管理の課題

ナレッジマネージャーの構築ロジックは非常に複雑です。ビッグモデルが利用可能になる前は、ナレッジベースの概念が一般的に使用されていました。ナレッジベースは、エンタープライズナレッジグラフまたは企業独自のデータを利用して構築されていました。この構築プロセスには多くの課題がありました。

知識の断片化

知識の断片化は主に 2 つの側面に反映されます。1 つは、企業データが非常に分散していることです。たとえば、OA システム内のデータはさまざまな部門やチームに属しています。一方、これらのデータは基本的に、Word、PDF、画像、ビデオなどの非構造化形式で提供されます。ナレッジスチュワードを構築するプロセスで最初に直面する課題は、断片化された知識情報をいかに迅速に一元化するかということです。

情報過多

企業のビジネスが急速に成長し、大量の情報やデータが出現し続ける中、情報の正確性や適時性を確保するために、膨大なデータの中から選別する仕組みを構築することも大きな課題となっています。

データセキュリティリスク

企業は通常、自社の個人データを他の機関や組織と共有しません。通常、企業は自社の個人データのデータセキュリティに特に注意を払っているため、データセキュリティリスクにも対処する必要があります。

知識の共有とコミュニケーションは難しい

企業によって組織構造は異なり、テクノロジー志向の企業もあれば、ビジネス志向の企業もあり、テクノロジーとビジネスが混在する企業もあります。ビジネスと技術のコミュニケーションのプロセスにおいて、コミュニケーション不足は、知識共有においてすべての企業が直面する問題です。

2. ナレッジマネージャーソリューション

1. エンタープライズナレッジスチュワードとは何ですか?

エンタープライズナレッジマネージャーは人間の脳に似ており、知識の保存、理解、作成を支援します。

エンタープライズナレッジマネージャーは、一般的に 3 つのレベルに分けられます。第 1 レベルは機能テクノロジ側のニーズであり、主にエンタープライズデータのインポート、ドキュメントの自動分類とアーカイブ、およびその他の基本的な機能ニーズを含むエンタープライズナレッジの管理を担当します。中間レベルはアプリケーション側のニーズであり、インテリジェントな質問と回答、インテリジェントな検索、要約生成、補助ライティングなどの機能の提供を含みます。上位レベルはビジネス側のニーズであり、契約のレビュー、保険顧客サービス、業界レポートの生成を含みます。

ナレッジマネージャーが外部に提示するインターフェイスには、一般的に 3 つのモードがあります。最初のインターフェイスはテキストボックスに似ており、知識の探索と分析を提供します。もう 1 つは、API トークンを使用して、さまざまなアプリケーションシナリオに関係するインテリジェントエージェントを API トークンの形式で公開し、会社のビジネスシステムと統合することです。3 つ目の方法は、インテリジェントエージェントが対話モードを通じて知識の探索と分析を実行することです。

2. エンタープライズナレッジマネージャーソリューション

エンタープライズナレッジスチュワードは、主に次のビジネスシナリオを含む、エンタープライズ固有のナレッジ管理と作成を担当します。

スマートな質問と回答

企業独自のプライベートデータはベクトル化されたデータと結合され、ベクトルデータベースに保存されます。質疑応答モデルを使用して、インテリジェントな質疑応答シナリオを実行します。これらのシナリオから、より専門的なビジネスニーズを導き出すことができます。

セルフサービスドキュメント分析

ドキュメントを通じて探索と分析を行うことができます。たとえば、論文を探索するときに、論文の内容について質問することができます。また、ドキュメント全体のセグメント化されたプレビュー、コンテキストの取得、要約などの機能を提供する、ドキュメントの独立した分析を実行することもできます。

カスタムキャラクターシーン

企業内のさまざまな役割の個人データを組み合わせ、プロンプトワードパターンを追加することで、支援されたドキュメント作成、インテリジェントな会議議事録などのカスタムシナリオ設計を提供します。

契約書の見直し

人間とコンピュータの対話モデルを使用して、会社のさまざまな契約の主要な契約条件を確認し、対応する情報が正確かどうかを確認します。

エンタープライズナレッジマネージャー製品の主な機能は次のとおりです。

インテリジェントな質問と回答: 特定の質問に基づいて、コンテキストを検索することで信頼できる回答が得られます。
多目的クリエイティブ Q&A: プロンプトワードと会社のプライベートドメインデータを通じて、インテリジェントなアプリケーションシナリオを構築します。
ドキュメント分析: 要約または探索的分析のためにドキュメント全体をインポートします。
ナレッジ管理: 企業データはナレッジマネージャーを通じて完全に自動的に管理され、プロセス全体は非常にシンプルなモデルを採用しています。
エージェント構築：開発プラットフォーム、つまり大規模モデルのIDE機能。

ナレッジマネージャーの機能アーキテクチャ:

一番下は GPU コンピューティングパワーです。これには、推論コンピューティングパワーと微調整コンピューティングパワーの 2 つのカテゴリが含まれます。中間層は、安全で信頼性の高いエンタープライズプライベートデータメモリである DingoDB マルチモードベクトルデータベースです。

次のレベルの技術層全体の機能ポイントには、モデルの微調整管理、ナレッジドキュメント管理、インテリジェントアプリケーション管理が含まれます。

一番上には、よりビジネス指向のニーズがあります。インテリジェントな質疑応答システムでは、一部のキャラクターダイアログ、標準のQA質疑応答、およびインテリジェントアプリケーションのエージェント、ドキュメントベースの補助読み取り、契約レビュー、保険パーソナルアシスタントをカスタマイズできます。

3. ナレッジスチュワードのコア技術の探究

1. ナレッジマネージャー構築プロセス

次に、インテリジェントな質疑応答のシナリオを通じて、ナレッジマネージャーの構築プロセス全体を紹介します。

まず、データソースが必要です。これは構造化データでも非構造化データでもかまいません。一般的に、ナレッジベースの構築は主に Word、PDF、Excel などの非構造化データ、およびエンタープライズシステム、Jira、ナレッジ管理プラットフォームなどに基づいています。

これらのデータはベクトルに変換され、知識処理後にデータベースに保存されます。まずドキュメントを読み込み、次にドキュメントのレイアウト情報または構造情報を指定し、ドキュメントベクトルを解析してファイルブロックを生成し、ファイルブロックに基づいて対応する埋め込みモデルを呼び出してベクトルに変換し、ベクトルを保存する必要があります。

インテリジェントな質問応答インタラクションのプロセス: ユーザーが質問すると、まずインテリジェントアシスタントの助けを借りて質問がベクトル化され、次にデータベースで意味検索が実行されて、同様の意味を持つ記事のコンテキストが取得されます。コンテキストはプロンプトワードと組み合わされ、大規模なモデルによる推論の後、最終的に回答が返されます。

全体的なプロセスは、継続的な反復とフィードバックの最適化です。この方法でのみ、企業のプライベートドメインデータに基づいて、排他的なインテリジェントな専門家の役割を獲得できます。

2. ナレッジマネジャー育成のためのコア技術の探究

非構造化データ処理

非構造化データの ETL 処理には、いくつかのツールを使用する必要があります。技術的な観点から見ると、Knowledge Manager は、マップ、フィルター、ウィンドウベースの変更全体をクリーンアップし、ETL パイプライン全体を通じてデータを変換できる特別な演算子を提供します。

さまざまなファイルパーサー (PDF パーサーなど) による解析を経て、中間層のさまざまなアプリケーションシナリオに対応するハブのオペレーターを通過することで、パイプラインハブを迅速に構築し、データのクリーニングと変換を行った後、ベクターデータベースに組み込んで最終的に保存することができます。

正確性と完全性のデータ保証 - ロスレスデータ分析

優れたモデルデバッグ効果を実現するには、正確で完全なデータを確保し、優れたデータ処理品質を備えることが必要です。

従来のデータ検索の構築は非常に簡単ですが、実際の知識はより複雑です。テキスト自体の情報に加えて、画像、表データ、段落情報なども存在します。この点に関して、Jiuzhang Yunji DataCanvas は、レイアウト情報、表、画像などのマルチモーダルデータの完全な保存を実現できるレイアウト解析モードを提供し、データ解析プロセスの品質を総合的に向上させます。

強い相関関係の検索 - 再ランキング二次スクリーニング

文書はベクトル化されてDingoDBマルチモードベクトルデータベースに保存された後、クエリを通じて取得されます。検索結果には、検索内容自体の結果と関連性の結果が含まれます。このとき、取得されたチャンクに対して、再ランク付けの二次スクリーニングを実行する必要があります。

再ランク付けプロセスでは、取得されたチャンクと対応するクエリに対して、関連性について意味分析が行われ、最も近い意味の一致が検索されます。二次スクリーニング後の取得されたチャンクは、大規模言語モデルにプッシュバックされます。

安全で信頼できる回答生成 - マルチ命令の微調整

回答生成プロセスの安全性と信頼性を確保するために、九張雲吉DataCanvasは、一般的なビッグボイスモデルに基づいて、呼び出されるデータをプロンプトワードに限定し、会社のプライベートドメインデータに基づく垂直知識でビッグモデルを微調整します。さらに、風向制御メカニズムを追加して、高精度の回答生成を保証します。

保存と検索機能 - DingoDB マルチモーダルベクターデータベース

DingoDB は、SQL および Python ツールキットを介したデータクエリをサポートするさまざまな API を提供できるほか、構造化クエリと非構造化クエリの共同クエリを実装するための統合アプローチも提供します。リアルタイムのシナリオでは、DingoDB はリアルタイムでクエリを実行する機能を提供し、データのインポート中にリアルタイムで取得できるようにします。

DingoDB はコンピューティングアクセラレーション機能も提供し、Meta の事前フィルタリングと事後フィルタリング、類似性に基づく範囲検索をサポートします。 DingoDB は、部分的な移行やデータ移行を実行できるマルチコピーツールも提供しているほか、運用・保守コストを削減するためのさまざまな運用・保守および監視ツールも提供しています。 DingoDB は、自動エラスティックシャーディング機能も提供しており、異なるマシンにデータを動的に分散し、各ノードの負荷分散を実現できます。

安全で信頼性の高いLLM微調整パイプライン

企業のプライベートドメインデータの場合、特定のシナリオで企業専用の大規模な言語モデルを構築するには、一般的なシナリオに合わせて微調整する必要があります。 Knowledge Manager は、微調整プロセス全体の問題点をまとめ、製品内でツールベースのアプローチを提供します。ドキュメントをアップロードすることで、すべての問題に関するデータを取得できます。データが取得できたら、インターフェイス上で直接パラメータを設定することで微調整を行うことができます。また、この製品には、微調整の結果を評価するための微調整データインジケーターもいくつか用意されています。

大規模モデルアプリケーションを迅速に構築 - Big Model IDE

従来の大規模モデルアプリケーションは、構築が複雑になることがよくあります。Knowledge Manager は、Jiuzhang Yunji DataCanvas の FS 機能に基づいて、独自の大規模モデル IDE を構築しました。この IDE は、豊富なコンポーネントとツールを提供し、構築されたテンプレートをシンプルなアプリケーション構築方法を通じてインテリジェントアプリケーションエージェントとして公開できます。

IV. 要約と展望

1. ナレッジマネージャーソリューションの概要

Knowledge Manager の技術的なハイライトには、主に、高精度の検索、便利な ETL パイプライン、高可用性とスケーラビリティ、セキュリティとコンプライアンス、インテリジェントなデータ融合、豊富なシナリオという 6 つの側面が含まれます。

Knowledge Manager のコア価値には、知識管理とインテリジェントなインスピレーションのための基本的な機能を提供すること、企業のすべてのデータを包含し、知識の統合とインテリジェントな相互作用を実現できる安全で信頼性の高いプライベートアプリケーション展開方法を提供することが含まれます。インテリジェントベースとして、柔軟な拡張機能を提供し、ナレッジマネージャー上の大規模なモデルに基づいて新しいエージェントを開発できます。

2. 今後の展望

Knowledge Manager は、Jiuzhang Yunji DataCanvas をベースにした AIFS であり、ベアメタルから上位までの GPU コンピューティング能力とモデルのスケジュールを提供し、モデルの微調整のためのパイプラインモードの完全なセットを実装します。一般的なビッグ言語モデルと企業のプライベートドメインデータを組み合わせて微調整し、企業独自のビッグ言語モデルを形成します。大規模言語モデルのスケーラビリティを基盤とし、DingoDB マルチモーダルベクトルデータベースと組み合わせることで、企業内で検索質問と回答、要約生成などのアプリケーションを実装し、企業の知識管理を行うことができます。

<<: OPPO 広告想起アルゴリズムの実践と調査

>>: ChatGPTの愚かさに対する新たな説明: 世界はAIによって変化し、訓練されたときとは異なっている