コンピレーション | ブガッティ 編集者 | 薛燕澤 [51CTO.com クイック翻訳]多くの企業は、機械学習システムを導入する際に時代遅れのデータ管理方法を使用していますが、これには 2 つの悪影響があります。1 つ目は、時代遅れのデータ複製方法により最終的な洞察結果が遅れること、2 つ目は、データに統一性とコンテキストが欠けていることです。 過度のデータ重複とその結果生じる「二次的影響」により、ほとんどの組織のデータ サイエンティストにとって大きな非効率性と無駄が生じています。 IDC によれば、昨年は 60ZB を超えるデータが生成され、年平均成長率は 23% に達し、2025 年まで続くと予想されています。さらに悪いことに、一意のデータと重複データの比率は 1:10 であり、ほとんどの組織のデータ管理アプローチはデータのコピーに基づいていることを意味します。 企業が機械学習モデルを作成する場合、通常は関連するデータをさまざまなデータソースからコピーして分割します。モデルは通常、データの 20% をトレーニングに使用し、残りの 80% はテスト用に予約されます。データのクリーニング、特徴量エンジニアリング、モデル評価には 6 か月以上かかる場合があり、その過程でデータが古くなり、洞察を得るまでの時間が遅れ、データの結果に影響を及ぼします。 データ管理に対する従来の時代遅れのアプローチによる 2 つ目の影響は、洞察の質の低下です。この影響は、古いデータを使用してモデルを構築することだけでなく、関係性の認識が不十分であること、垂直方向のデータ サイロが分断されていること、コンテキスト情報が不十分であること、リレーショナル データ管理テクノロジのスキーマの制限などにも起因します。 最新のデータ構造を使用してナレッジグラフを適切に実装すると、これらのデータ管理の問題を修正し、機械学習の価値を高めることができます。ナレッジグラフを活用したデータ構造にデータ仮想化を導入することで、データ サイエンティストは時間とリソースを無駄にすることなく、データに機械学習を導入できるようになります。 さらに、グラフ モデルが持つ固有の柔軟性と相互関係を活用する能力により、改善された特徴エンジニアリング、根本原因分析、グラフ分析などの機能が提供され、組織は機械学習用のデータを非常に簡単に準備できるようになります。この機能は、データ管理と人工知能が融合する今後 20 年間で、ナレッジ グラフがデータ管理構造の主要要素となることにも役立ちます。つまり、AI がナレッジ グラフを支援するのと同じくらい、ナレッジ グラフも AI を支援することになります。 データサイエンティストには戦略的なデータ管理が必要長期的な機械学習の導入に取り組むデータ組織が増えています。データ サイロまたはデータ レイク内のデータ形式、スキーマ、用語が異なると、このトレーニング データを必要とする機械学習の取り組みが遅れる可能性があります。コンテキストとセマンティック注釈が不足しているため、組織がデータの意味と特定のモデルの目的を理解することが困難になります。データに十分なコンテキストがある場合でも、この情報が持続することはほとんどないため、組織は後続のプロジェクトを最初からやり直す必要があります。 IoT デバイスによって収集された情報など、動きの速いデータの場合、この異なるデータを複製するために必要な数か月のトレーニングはさらに困難になります。組織は、この障害に対処するために、新しいデータを再度コピーし、モデルの機能を損なう時間のかかるプロセスを再開せざるを得なくなります。 推奨されるアプローチは、データをサイロにコピーするのではなく、データ構造レイヤーでモデルをトレーニングすることです。組織はデータを移動することなく、トレーニング データセットとテスト データセットを簡単に作成できます。たとえば、組織はデータのランダムな 20% のサンプルを指定し、クエリを使用して機能を抽出し、このナレッジ グラフ ベースのデータ仮想化アプローチを通じてトレーニング データセットを提供することもできます。このアプローチにより、データ管理と機械学習の関係が明確になり、洞察が加速されるとともに、より新しいデータを使用してモデルをトレーニングできるという利点も得られます。 高品質な機械学習の洞察を得るナレッジ グラフは、リレーショナル アプローチやその他のアプローチよりも、企業データを理解するための、より豊富で強固な基盤を提供します。グラフがデータを保存する方法であるノードとエッジ間のコンテキスト理解と関係検出を提供します。この機能は、企業固有の用語を階層的な語彙または分類法のセットに標準化するセマンティック グラフ データ モデルによって大幅に強化されます。したがって、データ サイエンティストは、データが何を意味するのか、そしてそれが機械学習などのユース ケースとどのように関連しているのかを本質的に理解しています。セマンティック グラフ データ モデルは、スキーマ レベルでデータを調整し、概念やビジネス カテゴリに関するインテリジェントな推論を提供し、用語や同義語に関する従来の問題を回避しながら、エンタープライズ データの完全なビューを提供します。 これらの機能は、利用可能なデータから非常に微妙で文脈的な洞察を生成しながら、機械学習用のデータの準備に必要な時間を短縮するために不可欠です。このアプローチのもう 1 つの利点は、グラフのアルゴリズムが機械学習と密接に関連していることです。これらにより、データ サイエンティストは、機械学習用のグラフ形式でトレーニング データを準備するのに適したクラスタリング、次元削減、主成分分析 (PCA)、教師なし学習に関連する特定の手法を最大限に活用できるようになります。これらおよびその他の技術 (グラフ埋め込みなど) により、特徴生成プロセスを高速化したり、データ準備の影響分析を提供したりできます。 データ管理と知識管理の融合機械学習におけるナレッジグラフの全体的な有用性は、データ管理とナレッジ管理の相補的な性質を示しています。著名な Google 研究教授の Peter Norvig 氏の言葉を引用すると、十分なデータがあれば、複雑なアルゴリズムは必要ありません。つまり、ナレッジ グラフとデータ仮想化によってサポートされる統合データ構造でのデータ管理とナレッジ管理の融合により、より豊富で高品質なデータが提供され、組織は完璧なアルゴリズムがない場合でも機械学習を最適化できるようになります。 たとえば、組織が顧客の購買習慣に関する十分なデータを持っている場合、どの顧客が新製品に興味を持つかを予測するために複雑なアルゴリズムは必要ありません。データ管理とナレッジ管理を統合することで、組織は強化されたインテリジェントなアルゴリズムとモデルを利用できるようになります。これにより、意思決定のための強力な情報基盤が提供され、AI の利点が最大限に引き出されます。 原題: 機械学習の改善: ナレッジグラフがデータに深い意味をもたらす方法、著者: Kendall Clark [51CTOによる翻訳。パートナーサイトに転載する場合は、元の翻訳者と出典を51CTO.comとして明記してください] |
<<: 自動運転制御プロセスにおいて解決すべき規制上の問題は何ですか?
>>: 一貫性ハッシュアルゴリズムの使い方がわからない場合は、履歴書に負荷分散に取り組んだと書かないでください。
マウスを研究するのと同じ方法で AI を研究できるでしょうか?多分。 ICLR 2020 Spotl...
高速ロボット動作の分野では、速度と安全性の両立が常に大きな課題となっています。しかし今、カーネギーメ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
確かに、人工知能(AI)主導のテクノロジーが人間を不要にするか否かをめぐる議論は、少なくともこの聴衆...
パスワードを隠すためにまだモザイクを使用していますか? 「見透かされる」ことには注意してください。ピ...
ニューロテクノロジーは人間の神経系の原理に基づいており、人間の脳の極めて複雑なモデル構造を研究するこ...
導入前回の記事では、プロジェクトに必要な知識のポイントについて簡単に説明しました。今日は、プロジェク...
KDnuggets は、学界と産業界のさまざまな分野の機械学習と AI の専門家 11 名に相談し、...
自動運転前夜2021年、ビル・ゲイツは「すべての家庭にロボットを」と題する記事を発表し、爆弾処理ロボ...
[[438879]] 2021年10月25日、テスラの時価総額は1兆ドルを超え、米国株式市場で時価...
今日、世界的な食糧問題は現実的な問題となっており、悪化する環境危機がこの課題をさらに悪化させています...