データが多すぎたり、乱雑すぎたり、複雑すぎたりしていませんか?このようなデータガバナンスプロセスが必要です

データが多すぎたり、乱雑すぎたり、複雑すぎたりしていませんか?このようなデータガバナンスプロセスが必要です

機械学習の基盤となるデータは、GB、TB、PB と数え切れないほど増加してきました。現在、より大規模なビジネス シナリオでは、TB レベルのデータがなければ効率的なエクスペリエンスを提供できません。では、データはどのように管理され、モデルや計算能力とどのように組み合わせられるのでしょうか?この記事では、HAO データ ガバナンス モデルとは何か、そして公共のセキュリティ データが標準化された方法でどのように処理されるかについて説明します。

最近、Minglue Technologyと合肥理工大学の研究者が、中国の主要ジャーナル「Journal of Software」にデータガバナンスに関する論文を発表しました。データガバナンスの概念を紹介し、データのクリーニング、交換、統合を具体的に分析し、新しいビッグデータガバナンスフレームワーク「HAOガバナンス」モデルを提案します。

論文アドレス: http://www.jos.org.cn/1000-9825/5854.htm

データガバナンスは本当に重要ですか?

知能はデータに基づいており、データは多くの手作業とエンジニアリングの努力に基づいているため、人工知能にはまだかなりの量の「人工的」な部分が残っています。データ収集には、データ ソースの手動による特定またはクローラーの手動による記述が必要です。データ処理には、データの観察とクリーニング プロセス全体の手動による記述が必要です。データのラベル付けは、データにラベルを付ける方法を特定のビジネスによって異なります。

これらのプロセスは労働集約的であり、処理パスが明確でない場合は重複や余分な人的労力につながることもあります。したがって、事前に具体的な処理フローが決定され、データをどのように管理するか、コンピューティング能力をどのように割り当てるか、モデルをどのように展開するかが明確であれば、開発プロセス全体で人的コストとエンジニアリングの負担を大幅に削減できます。

マイニングランプテクノロジーグループの主任科学者であり、マイニングランプ科学アカデミーの学長である呉新東教授は、次のように述べています。「データガバナンスの本質は、組織(企業または政府部門)のデータの収集と統合から分析、管理、利用までを評価、指導、監督し、データサービスを提供することで価値を創造することです。データガバナンスは、データの戦略的資産を管理し、収集と集約から処理と適用までの一連のガバナンスメカニズムを通じてデータ品質を向上させ、データの共有と価値の最大化を実現します。」

非常に重要なので、フレームワークが必要です。DL モデルは最初は手動で記述されていましたが、主流になってからは TensforFlow のようなフレームワークが必要になりました。 Wu Xindong などの研究者は、データ ガバナンスのさまざまなモジュールを詳細に分析し、データ ガバナンスは 1 回限りの手順ではないと述べています。各組織は、長期的な目標を達成するために、小さく、達成可能で、測定可能なステップを数多く実行する必要があります。

したがって、データ ガバナンスのコストを削減し、データ、モデル、コンピューティング能力を最適に割り当てるには、成熟したフレームワークが必要です。以下では、「HAO ガバナンス」モデルの概念とプロセスに焦点を当て、公安データ ガバナンスの観点から、このフレームワークが実際の適用でどのように見えるかを見ていきます。

HAO ガバナンス モデルとは何ですか?

前述したように、データ ガバナンスはデータ収集からアプリケーション処理までの管理メカニズムであり、フレームワークはデータに関連するプロセス、原則、または定義を指定します。たとえば、現在、多数の画像データ セットがある場合、画像ソース、画像取得、画像保存に至るまで、まずデータにアクセスする方法を決定する必要があります。

その後、これらの画像は複数のタスクに使用されるため、標準化された形式を決定し、クリーニングと前処理を実行する必要があります。もちろん、注釈はタスクに応じて決定されます。最後に、これらの画像データは、さまざまなサービスを構築するためにさまざまなモデルやタスクに均一に提供される必要があり、この部分も均一に管理される必要があります。

Minglu Technologyが設計した「HAOガバナンス」モデルは、ビッグデータから始まり、「HI」(人間の知能)、「AI」(人工知能)、「OI」(組織の知能)の協調知能に対するデータガバナンスサポートを提供します。 HAO の例を次に示します。

HAOインテリジェンスの入力には、さまざまなセンサーだけでなく、人間の主観的な感情も含まれます。その後のフォグ コンピューティングでは、すべての情報を分析し、機械の計算/推論結果を人間の分析と照合して、確率的および正規化された方法を有機的に調整した最適化された判断を下します。人間、機械、組織がデータと判断を相互に補助し合うことで、データの力を最大限に引き出すことができます。

人間と機械の協働システム全体は非常に複雑であるため、データと計算能力の配分を規制するための成熟したガバナンス フレームワークが必要です。

このようなシステムは、包括的なデータ アクセス メカニズム、標準化されたデータ処理手順、マルチ統合データ編成モデル、さまざまなデータ サービス モデルなど、多くの要件を満たす必要があります。データ サービス モデルは、クエリの取得、比較、並べ替えなどの基本的なデータ サービスをユーザーに提供できるだけでなく、マイニング分析やエキスパート モデリングなどのインテリジェントなデータ サービスを専門家に提供することもできます。

HAO インテリジェンスの青写真設計を以下に示します。主に、知覚、認知、アクションの 3 つの部分が含まれます。

一般的に、プロセス全体はビッグデータ環境から始まり、ビッグデータ、人間のエキスパートシステム、人工知能、組織知能に基づいて対応する知識グラフを生成し、それによってビッグナレッジを人間とコンピュータのコラボレーションに適用します。また、「HAO Governance」は実用的なシステムであるため、モジュール化されたデータソースとガバナンス機能が必要であり、新機能をより迅速かつ柔軟に構築する必要があります。

HAO ガバナンス モデルとは何ですか?

「HAO ガバナンス」モデルは、主にデータ アクセス モジュール、データ ガバナンス モジュール、データ サービス モジュールの 3 つの部分で構成されます。データ アクセスには、異種のビッグ データを構築するための収集や集約などの操作が必要です。次に、データ ガバナンス モジュールは主にデータに対して一連の前処理プロセスを実行し、モデル化しやすいデータを構築します。最終的なデータ サービス モジュールは、分析と処理を通じて外部にさまざまな新しい機能を提供します。

1. データアクセス

一般的に、現実世界のデータは主に構造化データと非構造化データに分けられ、画像やテキストなどのさまざまなデータを統一的にアクセスして管理する必要があります。データ ソースの上位のアクセス モジュールでは、主に、異​​種データベース間のデータ転送と集約、異なる種類のファイル データとサービス インターフェイス間の転送など、さまざまな種類の抽出および集約タスクの構成を完了します。

2. データガバナンス

アクセス後のデータは比較的乱雑で、冗長な情報や欠落した情報が含まれています。したがって、データ ガバナンス モジュールには、主に集約ライブラリ内のデータのデータ クリーニングとデータ標準化、必要に応じて主題の分割とデータの関連付け、そしてデータ統合が含まれます。ガバナンスが完了すると、データはデータ共有センターに収集され、その後のモデリングに使用されます。

その中でも、私たちがよく知っているのがデータクリーニングです。これは、データをレビューおよび検証し、それによって非準拠データを除外し、重複データを削除し、エラーのあるデータを修正し、フォーマット変換を完了します。

3. データサービス

データ ガバナンスの目標は、直接使用でき、管理が容易なデータベースを提供し、最終的にはさまざまなモデルの学習基盤を提供することです。このモデルは最終的にはさまざまなインテリジェント サービスを提供することを目的としているため、この部分も標準化された方法で管理する必要があります。

データ サービス モジュールは、データ ガバナンス モジュールに基づいて、最初にデータ共有センターに基づくナレッジ グラフを構築します。モデル管理、モデル探索、データ探索などのデータ サービスをユーザーに提供するだけでなく、マイニング分析やエキスパート モデリングなどのインテリジェントなデータ サービスを専門家に提供します。

コア ナレッジ グラフは、ノードとエッジで構成された巨大なナレッジ ネットワークです。ノードはエンティティを表し、エッジはエンティティ間の関係を表し、各エンティティはキーと値のペアで記述されます。ドメイン エキスパートは、ナレッジ グラフ内のエンティティや関係などのコア データに基づいてモデルを構築し、高度なデータ マイニング分析と処理を実行できます。

データ アクセス、ガバナンス、サービス モジュールを統合することで、最も一般的な処理フローを指定する「HAO ガバナンス」モデルを構築できます。呉新東教授は、「多次元認識とデータガバナンス技術を使用して高品質のデータを接続することによってのみ、知識をインテリジェントに抽出し、ナレッジグラフとブルートフォースマイニングに基づいて知識の多次元分析と推論を実行し、意思決定モデルを構築し、デジタル化とネットワーキングからインテリジェンスへの移行を完了することができます。」と述べました。

公安のデータガバナンスはどうあるべきでしょうか?

以上、「HAOガバナンス」モデルの主なコンセプトを紹介しましたが、これを現実社会に適用するとどうなるのでしょうか。さらに人件費を削減できるのでしょうか。論文の最後の部分では、研究者らは公共の安全に関するデータガバナンスを例に挙げ、全体的なプロセスとフレームワークがどのようなものかを紹介しました。

まず図を見てみましょう。下の図 13 は、公共セキュリティ データ ガバナンス フレームワークを示しています。プラットフォーム アーキテクチャには、主にデータ ストレージ、データ コンピューティング、データ管理、データ アプリケーションの 4 つの部分が含まれます。永住人口主題ライブラリや企業情報主題ライブラリなど、用途に応じてさまざまなデータをさまざまなテーマまたは主題ライブラリに分割します。同時に、さまざまなデータが最終的に知識グラフを形成する可能性があり、これは膨大な背景知識を構築することと同等です。

この図は非常に複雑に見えますが、実際にはストレージ、コンピューティング、管理、アプリケーションの 4 つの部分に分かれています。

  • データストレージ: 分散型ビッグデータストレージプラットフォームに基づく。
  • データ コンピューティング: これは、データの探索、抽出、クリーニング、変換、統合などを含むデータ ガバナンスの最も重要な部分です。
  • データ管理:統合データの統一的な保守と管理。
  • データ応用:データの価値を最も直接的に表現したもの。自然言語処理などの技術を通じて、データの詳細な分析を行うことができます。

上図から、ワークフロー全体は、前処理から分析、マイニングまで、大まかに 7 つの部分に分かれていることがわかります。異なる部分では異なるデータ知識ベースが呼び出され、最終的な分析とマイニングが、私たちが期待する結果となります。

プロセス全体を通して、データに対してさまざまな操作や処理を実行するだけでなく、知識を表現する新しい方法も作成する必要があります。たとえば、モデルは、特定のテーマに従ってデータを関連付けることによって構築されます。公共セキュリティ データ ガバナンスでは、人、オブジェクト、時間と空間、組織、仮想識別子、ケースなどのテーマに基づいてモデルを構築します。

さらに、ナレッジグラフは対象データに応じてエンティティ、イベント、リレーションシップの 3 種類に分類され、データ間の関連性を確立します。以下に示すように、公共の安全のシナリオでは、人を中心エンティティとする単純なナレッジ グラフを構築できます。人と電話番号、人とパスポート、人と人などの関係を確立する必要があります。

上記は、公共安全データガバナンスの概略的な構造です。呉新東教授は次のように述べています。「明膠科技は、オンラインデータ、分析的洞察、閉ループインテリジェンスの「3段階」戦略を通じて、知覚から認知、行動へのフィードバック閉ループを構築し、人間、機械、組織のインテリジェンスを統合し、企業や組織に分析的意思決定機能を備えた高度な人工知能アプリケーションを提供することを目的とした、このようなデータガバナンスフレームワークを提案しました。」 「

<<:  WeBank AI 主任科学者 NeurIPS の論文で「最新のニューラル ネットワーク盗難防止技術」が明らかに

>>:  sklearnのトレーニング速度が100倍以上向上、米「Fanli.com」がsk-distフレームワークをオープンソース化

ブログ    
ブログ    

推薦する

2021年にITリーダーがAIと機械学習に期待すること

毎年末と翌年の初めに、IT 思想リーダーが翌年のテクノロジー、革新的なサービス、業界の進歩などの開発...

複雑な課題に対するスマートなソリューション: 自動化の成功への道

マッキンゼーの「2022年世界産業用ロボット調査」によると、産業企業は世界的な労働力不足に対処するた...

AI + データサイエンス: スポーツ業界を変える6つの方法

[[329380]]テクノロジーの発展に伴い、人工知能とデータサイエンスはスポーツの分野でますます重...

テンセントクラウドのフルリンクAI開発者サービスシステムがAIと産業の融合を加速

12月15日、第1回テンセントクラウド+コミュニティ開発者会議で、テンセントクラウドの副社長である王...

FPSからRTSまで、ゲーム人工知能におけるディープラーニングアルゴリズムの概要記事

この論文では、ビデオゲームをプレイするためのディープラーニングアルゴリズムをレビューし、さまざまな種...

UniPAD: 自動運転のためのユニバーサル事前トレーニングパラダイムが登場!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

蘇寧における知識抽出分野におけるディープラーニングの試みと実践

[[257470]] 【51CTO.comオリジナル記事】背景近年、膨大なデータの蓄積、計算能力の向...

私の国における人工知能の発展に対する最大の圧力は、基礎理論と独自のアルゴリズムです。

業界では、人工知能はこれまで2世代を経てきたと一般的に考えられています。第一世代の人工知能は知識主導...

数千億ドル規模の市場:教育用ロボットは本当に実現可能か?

[[341606]]ある調査では、2025年までに中国の教育用ロボット市場は3000億ドルに達し、...

水に溶けるロボットを見たことがありますか?ゼラチンと砂糖の3Dプリント

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

5G消毒ロボットが武漢を支援し、人間の感染を効果的に防ぐことができる

中国移動の公式ニュースによると、2月3日と2月4日、武漢協和病院と同済天佑病院はそれぞれ、中国移動と...

レポート:AI関連職の年間給与は8.9%減少し、収入は2018年より低い

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

IDCは、米国の人工知能への支出が2025年までに倍増すると予測している

米国のAIへの支出は2025年までに1,200億ドルに増加するだろう。 2021年から2025年の予...