大規模モデルアプリケーションの探索 - エンタープライズ ナレッジ スチュワード

大規模モデルアプリケーションの探索 - エンタープライズ ナレッジ スチュワード

1. 伝統的なナレッジマネジメントの背景と課題

1. 企業知識管理の必要性

ナレッジ マネジメントは、あらゆる企業が直面する非常に重要なリンクです。ナレッジ マネージャーの助けを借りて、企業の効率を総合的に向上させることができます。


一方、インターネットアプリケーションの発展と知識の爆発的な増加により、企業知識をどのように共有するかが企業が直面する問題となっています。企業は知識の共有を通じて効率性を向上させるだけでなく、作業の重複を減らすこともできます。

一方、知識共有モデルを通じてシステムエンパワーメントのメカニズムを確立すると、プロセスと結果をより最適化し、企業の運用効率を向上させることができます。

さらに、ナレッジ スチュワードは、意思決定者に重要な情報やデータを提供して、より情報に基づいた意思決定を行うのに役立ちます。

最後に、そして最も重要なことは、企業従業員の作業負荷を軽減し、情報の損失を回避すると同時に、従業員の生産性と顧客サービスのレベルを向上させて、コスト削減と効率向上を実現することです。

2. 企業知識管理の課題

ナレッジ マネージャーの構築ロジックは非常に複雑です。ビッグ モデルが利用可能になる前は、ナレッジ ベースの概念が一般的に使用されていました。ナレッジ ベースは、エンタープライズ ナレッジ グラフまたは企業独自のデータを利用して構築されていました。この構築プロセスには多くの課題がありました。

  • 知識の断片化

知識の断片化は主に 2 つの側面に反映されます。1 つは、企業データが非常に分散していることです。たとえば、OA システム内のデータはさまざまな部門やチームに属しています。一方、これらのデータは基本的に、Word、PDF、画像、ビデオなどの非構造化形式で提供されます。ナレッジ スチュワードを構築するプロセスで最初に直面する課題は、断片化された知識情報をいかに迅速に一元化するかということです。

  • 情報過多

企業のビジネスが急速に成長し、大量の情報やデータが出現し続ける中、情報の正確性や適時性を確保するために、膨大なデータの中から選別する仕組みを構築することも大きな課題となっています。

  • データセキュリティリスク

企業は通常、自社の個人データを他の機関や組織と共有しません。通常、企業は自社の個人データのデータセキュリティに特に注意を払っているため、データセキュリティリスクにも対処する必要があります。

  • 知識の共有とコミュニケーションは難しい

企業によって組織構造は異なり、テクノロジー志向の企業もあれば、ビジネス志向の企業もあり、テクノロジーとビジネスが混在する企業もあります。ビジネスと技術のコミュニケーションのプロセスにおいて、コミュニケーション不足は、知識共有においてすべての企業が直面する問題です。

2. ナレッジマネージャーソリューション

1. エンタープライズ ナレッジ スチュワードとは何ですか?

エンタープライズ ナレッジ マネージャーは人間の脳に似ており、知識の保存、理解、作成を支援します。

エンタープライズ ナレッジ マネージャーは、一般的に 3 つのレベルに分けられます。第 1 レベルは機能テクノロジ側のニーズであり、主にエンタープライズ データのインポート、ドキュメントの自動分類とアーカイブ、およびその他の基本的な機能ニーズを含むエンタープライズ ナレッジの管理を担当します。中間レベルはアプリケーション側のニーズであり、インテリジェントな質問と回答、インテリジェントな検索、要約生成、補助ライティングなどの機能の提供を含みます。上位レベルはビジネス側のニーズであり、契約のレビュー、保険顧客サービス、業界レポートの生成を含みます。

ナレッジ マネージャーが外部に提示するインターフェイスには、一般的に 3 つのモードがあります。最初のインターフェイスはテキスト ボックスに似ており、知識の探索と分析を提供します。もう 1 つは、API トークンを使用して、さまざまなアプリケーション シナリオに関係するインテリジェント エージェントを API トークンの形式で公開し、会社のビジネス システムと統合することです。3 つ目の方法は、インテリジェント エージェントが対話モードを通じて知識の探索と分析を実行することです。

2. エンタープライズ ナレッジ マネージャー ソリューション

エンタープライズ ナレッジ スチュワードは、主に次のビジネス シナリオを含む、エンタープライズ固有のナレッジ管理と作成を担当します。

  • スマートな質問と回答

企業独自のプライベート データはベクトル化されたデータと結合され、ベクトル データベースに保存されます。質疑応答モデルを使用して、インテリジェントな質疑応答シナリオを実行します。これらのシナリオから、より専門的なビジネス ニーズを導き出すことができます。

  • セルフサービスドキュメント分析

ドキュメントを通じて探索と分析を行うことができます。たとえば、論文を探索するときに、論文の内容について質問することができます。また、ドキュメント全体のセグメント化されたプレビュー、コンテキストの取得、要約などの機能を提供する、ドキュメントの独立した分析を実行することもできます。

  • カスタムキャラクターシーン

企業内のさまざまな役割の個人データを組み合わせ、プロンプトワードパターンを追加することで、支援されたドキュメント作成、インテリジェントな会議議事録などのカスタムシナリオ設計を提供します。

  • 契約書の見直し

人間とコンピュータの対話モデルを使用して、会社のさまざまな契約の主要な契約条件を確認し、対応する情報が正確かどうかを確認します。

エンタープライズ ナレッジ マネージャー製品の主な機能は次のとおりです。

  • インテリジェントな質問と回答: 特定の質問に基づいて、コンテキストを検索することで信頼できる回答が得られます。
  • 多目的クリエイティブ Q&A: プロンプトワードと会社のプライベートドメインデータを通じて、インテリジェントなアプリケーションシナリオを構築します。
  • ドキュメント分析: 要約または探索的分析のためにドキュメント全体をインポートします。
  • ナレッジ管理: 企業データはナレッジ マネージャーを通じて完全に自動的に管理され、プロセス全体は非常にシンプルなモデルを採用しています。
  • エージェント構築:開発プラットフォーム、つまり大規模モデルのIDE機能。

ナレッジマネージャーの機能アーキテクチャ:

一番下は GPU コンピューティング パワーです。これには、推論コンピューティング パワーと微調整コンピューティング パワーの 2 つのカテゴリが含まれます。中間層は、安全で信頼性の高いエンタープライズ プライベート データ メモリである DingoDB マルチモード ベクトル データベースです。

次のレベルの技術層全体の機能ポイントには、モデルの微調整管理、ナレッジドキュメント管理、インテリジェントアプリケーション管理が含まれます。

一番上には、よりビジネス指向のニーズがあります。インテリジェントな質疑応答システムでは、一部のキャラクターダイアログ、標準のQA質疑応答、およびインテリジェントアプリケーションのエージェント、ドキュメントベースの補助読み取り、契約レビュー、保険パーソナルアシスタントをカスタマイズできます。

3. ナレッジスチュワードのコア技術の探究

1. ナレッジマネージャー構築プロセス

次に、インテリジェントな質疑応答のシナリオを通じて、ナレッジ マネージャーの構築プロセス全体を紹介します。

まず、データ ソースが必要です。これは構造化データでも非構造化データでもかまいません。一般的に、ナレッジ ベースの構築は主に Word、PDF、Excel などの非構造化データ、およびエンタープライズ システム、Jira、ナレッジ管理プラットフォームなどに基づいています。

これらのデータはベクトルに変換され、知識処理後にデータベースに保存されます。まずドキュメントを読み込み、次にドキュメントのレイアウト情報または構造情報を指定し、ドキュメント ベクトルを解析してファイル ブロックを生成し、ファイル ブロックに基づいて対応する埋め込みモデルを呼び出してベクトルに変換し、ベクトルを保存する必要があります。

インテリジェントな質問応答インタラクションのプロセス: ユーザーが質問すると、まずインテリジェント アシスタントの助けを借りて質問がベクトル化され、次にデータベースで意味検索が実行されて、同様の意味を持つ記事のコンテキストが取得されます。コンテキストはプロンプト ワードと組み合わされ、大規模なモデルによる推論の後、最終的に回答が返されます。

全体的なプロセスは、継続的な反復とフィードバックの最適化です。この方法でのみ、企業のプライベート ドメイン データに基づいて、排他的なインテリジェントな専門家の役割を獲得できます。

2. ナレッジマネジャー育成のためのコア技術の探究

  • 非構造化データ処理

非構造化データの ETL 処理には、いくつかのツールを使用する必要があります。技術的な観点から見ると、Knowledge Manager は、マップ、フィルター、ウィンドウベースの変更全体をクリーンアップし、ETL パイプライン全体を通じてデータを変換できる特別な演算子を提供します。

さまざまなファイル パーサー (PDF パーサーなど) による解析を経て、中間層のさまざまなアプリケーション シナリオに対応するハブのオペレーターを通過することで、パイプライン ハブを迅速に構築し、データのクリーニングと変換を行った後、ベクター データベースに組み込んで最終的に保存することができます。

  • 正確性と完全性のデータ保証 - ロスレスデータ分析

優れたモデルデバッグ効果を実現するには、正確で完全なデータを確保し、優れたデータ処理品質を備えることが必要です。

従来のデータ検索の構築は非常に簡単ですが、実際の知識はより複雑です。テキスト自体の情報に加えて、画像、表データ、段落情報なども存在します。この点に関して、Jiuzhang Yunji DataCanvas は、レイアウト情報、表、画像などのマルチモーダル データの完全な保存を実現できるレイアウト解析モードを提供し、データ解析プロセスの品質を総合的に向上させます。

  • 強い相関関係の検索 - 再ランキング二次スクリーニング

文書はベクトル化されてDingoDBマルチモードベクトルデータベースに保存された後、クエリを通じて取得されます。検索結果には、検索内容自体の結果と関連性の結果が含まれます。このとき、取得されたチャンクに対して、再ランク付けの二次スクリーニングを実行する必要があります。


再ランク付けプロセスでは、取得されたチャンクと対応するクエリに対して、関連性について意味分析が行われ、最も近い意味の一致が検索されます。二次スクリーニング後の取得されたチャンクは、大規模言語モデルにプッシュバックされます。

  • 安全で信頼できる回答生成 - マルチ命令の微調整


回答生成プロセスの安全性と信頼性を確保するために、九張雲吉DataCanvasは、一般的なビッグボイスモデルに基づいて、呼び出されるデータをプロンプトワードに限定し、会社のプライベートドメインデータに基づく垂直知識でビッグモデルを微調整します。さらに、風向制御メカニズムを追加して、高精度の回答生成を保証します。

  • 保存と検索機能 - DingoDB マルチモーダル ベクター データベース

DingoDB は、SQL および Python ツールキットを介したデータ クエリをサポートするさまざまな API を提供できるほか、構造化クエリと非構造化クエリの共同クエリを実装するための統合アプローチも提供します。リアルタイムのシナリオでは、DingoDB はリアルタイムでクエリを実行する機能を提供し、データのインポート中にリアルタイムで取得できるようにします。


DingoDB はコンピューティング アクセラレーション機能も提供し、Meta の事前フィルタリングと事後フィルタリング、類似性に基づく範囲検索をサポートします。 DingoDB は、部分的な移行やデータ移行を実行できるマルチコピー ツールも提供しているほか、運用・保守コストを削減するためのさまざまな運用・保守および監視ツールも提供しています。 DingoDB は、自動エラスティック シャーディング機能も提供しており、異なるマシンにデータを動的に分散し、各ノードの負荷分散を実現できます。

  • 安全で信頼性の高いLLM微調整パイプライン

企業のプライベートドメインデータの場合、特定のシナリオで企業専用の大規模な言語モデルを構築するには、一般的なシナリオに合わせて微調整する必要があります。 Knowledge Manager は、微調整プロセス全体の問題点をまとめ、製品内でツールベースのアプローチを提供します。ドキュメントをアップロードすることで、すべての問題に関するデータを取得できます。データが取得できたら、インターフェイス上で直接パラメータを設定することで微調整を行うことができます。また、この製品には、微調整の結果を評価するための微調整データ インジケーターもいくつか用意されています。

  • 大規模モデルアプリケーションを迅速に構築 - Big Model IDE

従来の大規模モデル アプリケーションは、構築が複雑になることがよくあります。Knowledge Manager は、Jiuzhang Yunji DataCanvas の FS 機能に基づいて、独自の大規模モデル IDE を構築しました。この IDE は、豊富なコンポーネントとツールを提供し、構築されたテンプレートをシンプルなアプリケーション構築方法を通じてインテリジェント アプリケーション エージェントとして公開できます。

IV. 要約と展望

1. ナレッジマネージャーソリューションの概要

Knowledge Manager の技術的なハイライトには、主に、高精度の検索、便利な ETL パイプライン、高可用性とスケーラビリティ、セキュリティとコンプライアンス、インテリジェントなデータ融合、豊富なシナリオという 6 つの側面が含まれます。

Knowledge Manager のコア価値には、知識管理とインテリジェントなインスピレーションのための基本的な機能を提供すること、企業のすべてのデータを包含し、知識の統合とインテリジェントな相互作用を実現できる安全で信頼性の高いプライベート アプリケーション展開方法を提供することが含まれます。インテリジェント ベースとして、柔軟な拡張機能を提供し、ナレッジ マネージャー上の大規模なモデルに基づいて新しいエージェントを開発できます。


2. 今後の展望

Knowledge Manager は、Jiuzhang Yunji DataCanvas をベースにした AIFS であり、ベアメタルから上位までの GPU コンピューティング能力とモデルのスケジュールを提供し、モデルの微調整のためのパイプライン モードの完全なセットを実装します。一般的なビッグ言語モデルと企業のプライベートドメインデータを組み合わせて微調整し、企業独自のビッグ言語モデルを形成します。大規模言語モデルのスケーラビリティを基盤とし、DingoDB マルチモーダル ベクトル データベースと組み合わせることで、企業内で検索質問と回答、要約生成などのアプリケーションを実装し、企業の知識管理を行うことができます。

<<:  OPPO 広告想起アルゴリズムの実践と調査

>>:  ChatGPTの愚かさに対する新たな説明: 世界はAIによって変化し、訓練されたときとは異なっている

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

なぜ顔認識に嫌悪感を抱くのですか?

[[376016]] △ 2019年9月4日、ノースウェスタン工科大学の学生が顔認識装置を通じて図...

OpenAI の共同創設者 Karpathy が記事「自動運転による AGI の解釈」を公開しました。元の投稿は削除されました。保存済み

「汎用人工知能」に関しては、OpenAIの科学者カルパシー氏が説明を行った。数日前、Karpathy...

人工知能技術が伝染病の予防と制御に役立つ

[[318426]]現在、人工知能技術は急速に発展しており、特に医療保健の分野では、生活の各分野で広...

李開復氏はAIバブルが年末までに崩壊すると予測、ルクン氏:それは本当だ

[[218838]] Innovation Works の創設者である Kai-Fu Lee 氏は、...

スマートビルディングにおけるエッジAIの役割を解明

仕事や住居のための物理的な空間として機能することから、入居者に活気ある建築体験を提供することまで、近...

人工知能の波で私たちは職を失うのでしょうか?

[[200388]]概要: 私たちの仕事が機械に置き換えられるのはいつでしょうか? 最も危険な仕事...

...

バックアップと災害復旧のための生成AIツールはまだ初期段階にある

バックアップ ソフトウェア ベンダーはすでに自動化と仮想アシスタント用の生成 AI ツールを導入して...

2021 年のテクノロジートレンドはどこに向かうのでしょうか? IEEEが答えを教えます

[[357414]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

自動化とエンタープライズAIは2021年に大きく成長する

最近のガートナーの調査によると、労働力の自動化とエンタープライズ人工知能が 2021 年の主要なトレ...

...

海外メディア:アップルは2025年までに完全自動運転車を発売する可能性

アップル社が2025年までに完全自動運転車を発売する計画だとブルームバーグが報じたことを受け、同社の...

...

自動運転に関する期限の問題

少し前に、自称メディアスターの板狐仙人が「自動運転のいくつかの期限問題」を発表し、将来の自動運転の実...

2022 年のソフトウェア開発に関する 5 つの予測

[[435157]] [51CTO.com クイック翻訳]すべての企業がソフトウェア企業になりつつあ...