AIビッグモデルの時代、データはIT担当者に「新たな使命」を与える今日、IT プロフェッショナルは企業における運用サポートの役割を果たしています。運用保守管理に関しては、誰もが涙を流したことがあると思います。彼らは、日々、面倒で負荷が高く、リスクの高い運用保守業務を担っていますが、事業計画やキャリア開発となると「見えない存在」になってしまいます。業界には「お金を使うだけの人間に発言権はない」というジョークがある。 AIビッグモデルアプリケーションの普及により、データは企業の重要な資産および中核的な競争力となっています。近年、企業データの規模はPBレベルから数百PBレベルへと飛躍的に増大しており、データの種類もデータベースをベースとした構造化データから、ファイル、ログ、動画などをベースとした半構造化・非構造化データへと進化しています。事業部門は、データストレージが図書館のように分類され、いつでもアクセスできるようになることを望んでいますが、同時に、データストレージがより安全で信頼性の高いものになることも望んでいます。 IT 担当者はもはや、IT リソースの構築と管理、および機器の安定性の確保を担当する受動的な役割を担うだけではありません。 IT 担当者の新たな使命は、高品質なデータ サービスの提供、データの使いやすさの向上、業務部門によるデータの有効活用の支援へと進化しました。 「インフラ」と「データ」は近いが、両者の「管理」は遠いインフラストラクチャ管理の場合、業界では AIOps テクノロジを使用して、面倒な手作業による日常的な運用と保守をツールを使用した自動実行に変換し、エキスパート システムやナレッジ グラフなどのインテリジェント機能を通じてシステム リスクを積極的に検出し、障害を自動的に修復することが一般的な方法です。生成AI技術の普及に伴い、最近ではインテリジェントな顧客サービスやインタラクティブな運用・保守などの新しいアプリケーションが登場しています。 データ管理に関しては、業界にはInformaticaやIBMに代表される専門的なDataOpsソフトウェアベンダーがあり、データ統合、データラベリング、データ分析、データ最適化、データマーケットなどの機能をサポートし、データアナリスト、BIアナリスト、データサイエンティストなどのビジネスチームにサービスを提供しています。 筆者の調査によると、現在、ほとんどの企業ではインフラの運用・保守管理とデータ管理が分離されており、別々のチームで処理されている。また、ツールプラットフォーム間の効果的な連携も行われていない。ビジネスでは、データはストレージなどの IT インフラストラクチャに保存され、統合される必要があります。しかし、現実には、両者の管理は大きく離れており、両チームの言語さえも一致していません。これにより、通常、いくつかの欠点が生じます。 1 ) 異なるソースからのデータ: 異なるチームが異なるツールを使用しているため、ビジネス チームは通常、ETL やその他の方法を使用して元のデータをデータ管理プラットフォームにコピーし、分析と処理を行います。これにより、ストレージスペースが浪費されるだけでなく、データの不整合やタイミングの悪いデータ更新などの問題が発生し、データ分析の精度に影響します。 2 ) 地域間の連携の難しさ: 現在、企業のデータセンターは複数の都市に分散しています。地域間でデータを転送する場合、現在は主に DataOps ソフトウェアを介してホスト層でコピーされます。このデータ転送方法は非効率的であるだけでなく、転送プロセス中にセキュリティ、コンプライアンス、プライバシーなどに重大なリスクを伴います。 3 ) 不十分なシステム最適化: 現在、最適化は通常、インフラストラクチャ リソースの利用に基づいて実行されます。データ レイアウトを認識してグローバル最適化を実現することは不可能であるため、データ保存のコストは高いままです。限られた成長予算とデータ規模の指数関数的な成長との間の矛盾は、企業のデータ資産の蓄積を制限する重要な矛盾になっています。 IT担当者は、「インフラ」と「データ」のチャネルを開き、デジタルフライホイールを始動させましょう著者は、IT チームは「インフラストラクチャ」と「データ」を有機的な全体として管理および最適化し、データの相同性、グローバル最適化、安全な循環を実現し、データ資産管理者の重要な役割を果たす必要があると考えています。 まず、グローバル ファイルの統合ビューを実装します。グローバル ファイル システムや統合メタデータ管理などのテクノロジを使用することで、さまざまな地域、さまざまなデータ センター、さまざまなタイプのデバイスにあるデータの統合されたグローバル ビューを形成できます。これを基に、ホット、ウォーム、コールド、繰り返し、期限切れなどのディメンションに応じてグローバル最適化戦略を策定し、ストレージデバイスに送信して実行することができます。このアプローチにより、グローバル最適化を実現できます。ストレージ層のレプリケーションに基づく圧縮、暗号化などのテクノロジーにより、通常は数十倍のデータ移動速度を実現でき、効率性とセキュリティの両方が保証されます。 次に、大量の非構造化データのデータカタログを自動的に生成します。メタデータ、拡張メタデータなどを通じてデータ ディレクトリ サービスを自動的に生成し、データを分類して効率的に管理します。ビジネス チームはカタログに基づいて、干し草の山から針を探すように手動でデータを検索する必要なく、分析および処理の条件を満たすデータを自動的に抽出できます。著者は、AI 認識アルゴリズムによるデータラベル付けの技術がすでに比較的成熟していることを発見しました。そのため、オープンフレームワークを使用して、さまざまなシナリオの AI アルゴリズムを統合し、ファイルコンテンツを自動的に分析して多様なラベルを形成し、それを拡張メタデータとして使用してデータ管理機能を向上させることができます。 同時に、データがデバイス間で流れる場合は、データ主権、コンプライアンス、プライバシーなどの問題に特別な考慮を払う必要があります。ストレージ デバイス内のデータは、自動的に分類され、プライバシーが等級付けされ、分散化される必要があります。管理ソフトウェアは、機密情報やプライバシー データの漏洩を防ぐために、データ アクセス、使用、フロー ポリシーを統一的に管理する必要があります。これらは、将来のデータ要素トランザクション シナリオにおける基本的な要件になります。たとえば、データがストレージ デバイスから流出する場合、コンプライアンスや個人のプライバシーなどがポリシー要件を満たしているかどうかをまず判断する必要があります。そうでないと、企業は重大な法的および規制上のリスクに直面することになります。 リファレンスアーキテクチャは次のとおりです。 筆者の調査や同業の専門家との協議によると、Huawei StorageやNetAppなど業界をリードするストレージメーカーが、ストレージとデータ管理を統合した製品ソリューションをすでにリリースしていることがわかりました。今後、さらに多くのメーカーがこれをサポートするようになると思います。 機器とデータの両方に細心の注意を払い、両方が強力であることを確認する必要があります。 AI時代においてIT人材はより重要な役割を果たすことができます。 |
<<: AIエンジニアリングのためのJavaScriptツールトップ5
大規模な人工知能 (AI) により、容量とパフォーマンスの面でストレージ インフラストラクチャの水準...
強化学習 (RL) アルゴリズムのトレーニング プロセスでは、サポートとして環境との相互作用のサンプ...
編纂者:Xing Xuan企画 | ヤン・ジェン制作:51CTO テクノロジースタック(WeChat...
11月15日、科学技術部と深セン市人民政府が共催する「2023西里湖フォーラム」が深セン大学城国際会...
コミュニティは常に Facebook のハードウェア研究に細心の注意を払ってきました。本日の Ope...
事前トレーニングの時代に入ってから、視覚認識モデルのパフォーマンスは急速に向上しましたが、生成的敵対...
1. 要件の説明長い文字列と短い文字列を入力し、短い文字列に現れる文字を長い文字列から削除するプログ...
2020年ももうすぐ終わります! 12月15日、IDCとInspurは共同で「2020~2021年...
10月9日、清華大学の公式Weiboアカウントは、オンチップ学習をサポートする世界初のメモリスタス...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
米国で売上高最大のソーセージブランドであるジョンソンビルソーセージのグローバルネットワークオペレーシ...
規制基準の強化は、アルゴリズム推奨技術の標準化と健全な発展に根本的に利益をもたらすだろう。近年、科学...
「注目の式」に8年間存在していたバグが外国人によって発見された?一瞬にして、この話題はインターネット...
テクノロジー・トラベラー、北京、12 月 27 日: AI 開発に関する最近の調査、研究、予測、その...