データが多すぎたり、乱雑すぎたり、複雑すぎたりしていませんか?このようなデータガバナンスプロセスが必要です

機械学習の基盤となるデータは、GB、TB、PB と数え切れないほど増加してきました。現在、より大規模なビジネスシナリオでは、TB レベルのデータがなければ効率的なエクスペリエンスを提供できません。では、データはどのように管理され、モデルや計算能力とどのように組み合わせられるのでしょうか?この記事では、HAO データガバナンスモデルとは何か、そして公共のセキュリティデータが標準化された方法でどのように処理されるかについて説明します。

最近、Minglue Technologyと合肥理工大学の研究者が、中国の主要ジャーナル「Journal of Software」にデータガバナンスに関する論文を発表しました。データガバナンスの概念を紹介し、データのクリーニング、交換、統合を具体的に分析し、新しいビッグデータガバナンスフレームワーク「HAOガバナンス」モデルを提案します。

論文アドレス: http://www.jos.org.cn/1000-9825/5854.htm

データガバナンスは本当に重要ですか?

知能はデータに基づいており、データは多くの手作業とエンジニアリングの努力に基づいているため、人工知能にはまだかなりの量の「人工的」な部分が残っています。データ収集には、データソースの手動による特定またはクローラーの手動による記述が必要です。データ処理には、データの観察とクリーニングプロセス全体の手動による記述が必要です。データのラベル付けは、データにラベルを付ける方法を特定のビジネスによって異なります。

これらのプロセスは労働集約的であり、処理パスが明確でない場合は重複や余分な人的労力につながることもあります。したがって、事前に具体的な処理フローが決定され、データをどのように管理するか、コンピューティング能力をどのように割り当てるか、モデルをどのように展開するかが明確であれば、開発プロセス全体で人的コストとエンジニアリングの負担を大幅に削減できます。

マイニングランプテクノロジーグループの主任科学者であり、マイニングランプ科学アカデミーの学長である呉新東教授は、次のように述べています。「データガバナンスの本質は、組織（企業または政府部門）のデータの収集と統合から分析、管理、利用までを評価、指導、監督し、データサービスを提供することで価値を創造することです。データガバナンスは、データの戦略的資産を管理し、収集と集約から処理と適用までの一連のガバナンスメカニズムを通じてデータ品質を向上させ、データの共有と価値の最大化を実現します。」

非常に重要なので、フレームワークが必要です。DL モデルは最初は手動で記述されていましたが、主流になってからは TensforFlow のようなフレームワークが必要になりました。 Wu Xindong などの研究者は、データガバナンスのさまざまなモジュールを詳細に分析し、データガバナンスは 1 回限りの手順ではないと述べています。各組織は、長期的な目標を達成するために、小さく、達成可能で、測定可能なステップを数多く実行する必要があります。

したがって、データガバナンスのコストを削減し、データ、モデル、コンピューティング能力を最適に割り当てるには、成熟したフレームワークが必要です。以下では、「HAO ガバナンス」モデルの概念とプロセスに焦点を当て、公安データガバナンスの観点から、このフレームワークが実際の適用でどのように見えるかを見ていきます。

HAO ガバナンスモデルとは何ですか?

前述したように、データガバナンスはデータ収集からアプリケーション処理までの管理メカニズムであり、フレームワークはデータに関連するプロセス、原則、または定義を指定します。たとえば、現在、多数の画像データセットがある場合、画像ソース、画像取得、画像保存に至るまで、まずデータにアクセスする方法を決定する必要があります。

その後、これらの画像は複数のタスクに使用されるため、標準化された形式を決定し、クリーニングと前処理を実行する必要があります。もちろん、注釈はタスクに応じて決定されます。最後に、これらの画像データは、さまざまなサービスを構築するためにさまざまなモデルやタスクに均一に提供される必要があり、この部分も均一に管理される必要があります。

Minglu Technologyが設計した「HAOガバナンス」モデルは、ビッグデータから始まり、「HI」（人間の知能）、「AI」（人工知能）、「OI」（組織の知能）の協調知能に対するデータガバナンスサポートを提供します。 HAO の例を次に示します。

HAOインテリジェンスの入力には、さまざまなセンサーだけでなく、人間の主観的な感情も含まれます。その後のフォグコンピューティングでは、すべての情報を分析し、機械の計算/推論結果を人間の分析と照合して、確率的および正規化された方法を有機的に調整した最適化された判断を下します。人間、機械、組織がデータと判断を相互に補助し合うことで、データの力を最大限に引き出すことができます。

人間と機械の協働システム全体は非常に複雑であるため、データと計算能力の配分を規制するための成熟したガバナンスフレームワークが必要です。

このようなシステムは、包括的なデータアクセスメカニズム、標準化されたデータ処理手順、マルチ統合データ編成モデル、さまざまなデータサービスモデルなど、多くの要件を満たす必要があります。データサービスモデルは、クエリの取得、比較、並べ替えなどの基本的なデータサービスをユーザーに提供できるだけでなく、マイニング分析やエキスパートモデリングなどのインテリジェントなデータサービスを専門家に提供することもできます。

HAO インテリジェンスの青写真設計を以下に示します。主に、知覚、認知、アクションの 3 つの部分が含まれます。

一般的に、プロセス全体はビッグデータ環境から始まり、ビッグデータ、人間のエキスパートシステム、人工知能、組織知能に基づいて対応する知識グラフを生成し、それによってビッグナレッジを人間とコンピュータのコラボレーションに適用します。また、「HAO Governance」は実用的なシステムであるため、モジュール化されたデータソースとガバナンス機能が必要であり、新機能をより迅速かつ柔軟に構築する必要があります。

HAO ガバナンスモデルとは何ですか?

「HAO ガバナンス」モデルは、主にデータアクセスモジュール、データガバナンスモジュール、データサービスモジュールの 3 つの部分で構成されます。データアクセスには、異種のビッグデータを構築するための収集や集約などの操作が必要です。次に、データガバナンスモジュールは主にデータに対して一連の前処理プロセスを実行し、モデル化しやすいデータを構築します。最終的なデータサービスモジュールは、分析と処理を通じて外部にさまざまな新しい機能を提供します。

1. データアクセス

一般的に、現実世界のデータは主に構造化データと非構造化データに分けられ、画像やテキストなどのさまざまなデータを統一的にアクセスして管理する必要があります。データソースの上位のアクセスモジュールでは、主に、異種データベース間のデータ転送と集約、異なる種類のファイルデータとサービスインターフェイス間の転送など、さまざまな種類の抽出および集約タスクの構成を完了します。

2. データガバナンス

アクセス後のデータは比較的乱雑で、冗長な情報や欠落した情報が含まれています。したがって、データガバナンスモジュールには、主に集約ライブラリ内のデータのデータクリーニングとデータ標準化、必要に応じて主題の分割とデータの関連付け、そしてデータ統合が含まれます。ガバナンスが完了すると、データはデータ共有センターに収集され、その後のモデリングに使用されます。

その中でも、私たちがよく知っているのがデータクリーニングです。これは、データをレビューおよび検証し、それによって非準拠データを除外し、重複データを削除し、エラーのあるデータを修正し、フォーマット変換を完了します。

3. データサービス

データガバナンスの目標は、直接使用でき、管理が容易なデータベースを提供し、最終的にはさまざまなモデルの学習基盤を提供することです。このモデルは最終的にはさまざまなインテリジェントサービスを提供することを目的としているため、この部分も標準化された方法で管理する必要があります。

データサービスモジュールは、データガバナンスモジュールに基づいて、最初にデータ共有センターに基づくナレッジグラフを構築します。モデル管理、モデル探索、データ探索などのデータサービスをユーザーに提供するだけでなく、マイニング分析やエキスパートモデリングなどのインテリジェントなデータサービスを専門家に提供します。

コアナレッジグラフは、ノードとエッジで構成された巨大なナレッジネットワークです。ノードはエンティティを表し、エッジはエンティティ間の関係を表し、各エンティティはキーと値のペアで記述されます。ドメインエキスパートは、ナレッジグラフ内のエンティティや関係などのコアデータに基づいてモデルを構築し、高度なデータマイニング分析と処理を実行できます。

データアクセス、ガバナンス、サービスモジュールを統合することで、最も一般的な処理フローを指定する「HAO ガバナンス」モデルを構築できます。呉新東教授は、「多次元認識とデータガバナンス技術を使用して高品質のデータを接続することによってのみ、知識をインテリジェントに抽出し、ナレッジグラフとブルートフォースマイニングに基づいて知識の多次元分析と推論を実行し、意思決定モデルを構築し、デジタル化とネットワーキングからインテリジェンスへの移行を完了することができます。」と述べました。

公安のデータガバナンスはどうあるべきでしょうか?

以上、「HAOガバナンス」モデルの主なコンセプトを紹介しましたが、これを現実社会に適用するとどうなるのでしょうか。さらに人件費を削減できるのでしょうか。論文の最後の部分では、研究者らは公共の安全に関するデータガバナンスを例に挙げ、全体的なプロセスとフレームワークがどのようなものかを紹介しました。

まず図を見てみましょう。下の図 13 は、公共セキュリティデータガバナンスフレームワークを示しています。プラットフォームアーキテクチャには、主にデータストレージ、データコンピューティング、データ管理、データアプリケーションの 4 つの部分が含まれます。永住人口主題ライブラリや企業情報主題ライブラリなど、用途に応じてさまざまなデータをさまざまなテーマまたは主題ライブラリに分割します。同時に、さまざまなデータが最終的に知識グラフを形成する可能性があり、これは膨大な背景知識を構築することと同等です。

この図は非常に複雑に見えますが、実際にはストレージ、コンピューティング、管理、アプリケーションの 4 つの部分に分かれています。

データストレージ: 分散型ビッグデータストレージプラットフォームに基づく。
データコンピューティング: これは、データの探索、抽出、クリーニング、変換、統合などを含むデータガバナンスの最も重要な部分です。
データ管理：統合データの統一的な保守と管理。
データ応用：データの価値を最も直接的に表現したもの。自然言語処理などの技術を通じて、データの詳細な分析を行うことができます。

上図から、ワークフロー全体は、前処理から分析、マイニングまで、大まかに 7 つの部分に分かれていることがわかります。異なる部分では異なるデータ知識ベースが呼び出され、最終的な分析とマイニングが、私たちが期待する結果となります。

プロセス全体を通して、データに対してさまざまな操作や処理を実行するだけでなく、知識を表現する新しい方法も作成する必要があります。たとえば、モデルは、特定のテーマに従ってデータを関連付けることによって構築されます。公共セキュリティデータガバナンスでは、人、オブジェクト、時間と空間、組織、仮想識別子、ケースなどのテーマに基づいてモデルを構築します。

さらに、ナレッジグラフは対象データに応じてエンティティ、イベント、リレーションシップの 3 種類に分類され、データ間の関連性を確立します。以下に示すように、公共の安全のシナリオでは、人を中心エンティティとする単純なナレッジグラフを構築できます。人と電話番号、人とパスポート、人と人などの関係を確立する必要があります。

上記は、公共安全データガバナンスの概略的な構造です。呉新東教授は次のように述べています。「明膠科技は、オンラインデータ、分析的洞察、閉ループインテリジェンスの「3段階」戦略を通じて、知覚から認知、行動へのフィードバック閉ループを構築し、人間、機械、組織のインテリジェンスを統合し、企業や組織に分析的意思決定機能を備えた高度な人工知能アプリケーションを提供することを目的とした、このようなデータガバナンスフレームワークを提案しました。」「

<<: WeBank AI 主任科学者 NeurIPS の論文で「最新のニューラルネットワーク盗難防止技術」が明らかに

>>: sklearnのトレーニング速度が100倍以上向上、米「Fanli.com」がsk-distフレームワークをオープンソース化