機械学習における3つの重要なデータ課題

機械学習にとってデータがどれほど重要であるかは誰もが知っています。データアクセスパターンを理解することで、データサイエンティストはプロジェクトに適したストレージインフラストラクチャを決定できるようになります。データインフラストラクチャにより機械学習が可能になります。しかし、機械学習が実際に使用されると、まず対処する必要がある重要なデータ課題に直面します。

品質
スパース性
完全

次に、機械学習の課題を克服する方法を理解できるように、それぞれについて詳しく見ていきましょう。

1. 品質

多くのデータサイエンティストは、外部ソースからのデータを活用したいと考えています。ただし、生データがどのように取得されたかについては、品質管理や保証が行われていないことがよくあります。

外部データの正確さを信頼しますか?

これは良い例です。海に浮かぶブイに取り付けられたセンサーが海水温に関するデータを収集します。ただし、センサーが温度を収集できない場合は、999 として記録されます。さらに、2000 年以前は、年号は 2 桁のみで記録されていました。しかし、2000年以降、記録された数は4に変わりました。

したがって、データの品質とその準備方法を理解する必要があります。この場合、ブイデータを分析する科学者は、平均値、中間値、最小値、最大値を使用して生データを視覚化し、これらのデータベースエラーを検出して、それに応じてエラーをクリーンアップできます。

2. スパース性

この場合、スパース性はメタデータに適用されます。多くの場合、メタデータフィールドは不完全で、一部のフィールドは入力され、一部のフィールドは空白のままになっています。データが単一のソースから生成される場合、それは人間側の規範や知識の欠如が原因である可能性があります。ただし、データがメタデータの標準定義のないさまざまなソースから取得される場合、各データセットにはまったく異なるフィールドが含まれる可能性があります。そのため、それらを組み合わせると、完了したフィールドが一致しない可能性があります。

現在、どのようなメタデータをキャプチャするかについての業界標準はありません。ただし、メタデータはデータ自体と同じくらい重要です。同じ種類のデータが異なるメタデータフィールドに入力されている場合、データをどのように関連付け、フィルター処理しますか?

ブイを例に挙げると、初期のデータセンサーは 10 分ごとに水温を収集していましたが、新しいブイは 3 分ごとに水温を収集します。データを関連付ける唯一の方法は、キャプチャ時に公開されるメタデータを使用することです。科学者が歴史的分析を行う際には、それに応じてモデルを調整できるようにメタデータが必要です。

3. 完全性

データの整合性は、データの正確性と一貫性を保証します。データの保管チェーンは、データがパイプラインや場所を移動する際に侵害されていないことを証明するために重要です。データのキャプチャと取り込みが制御されている場合、データの整合性を比較的簡単に検証できます。しかし、他の人と協力する場合、検証するのは困難です。データが生成されるときに、外部データに対するセキュリティ証明書は存在しません。また、データが期待どおりに記録されたことや、受信したデータが元々記録されていたものとまったく同じであることを保証することもできません。

IoT データとブロックチェーンに関しては興味深い概念がいくつかありますが、そのような概念が広く採用されるまで、データの整合性はセキュリティ技術とポリシーの組み合わせに依存します。たとえば、データは保存中または転送中に侵害される可能性があるため、ネットワーク経由で送信されるデータは https を使用し、保存時には暗号化する必要があります。一方、人為的なエラーを回避するために、アクセス制御はポリシーに基づいて行う必要があります。

始めるにはどうすればいいですか?

データの品質、スパース性、完全性は、最終モデルの精度に直接影響し、今日の機械学習が直面している最大の課題の一部です。明確なデータ定義とポリシーを持ち、業界固有のデータ標準を探求する組織は、短期プロジェクトと長期プロジェクトの両方でメリットを得られます。

まだ行っていない場合は、まず組織で独自のデータ収集ポリシーとメタデータ形式を定義し、次に標準的なセキュリティ手法を適用する必要があります。データの品質とスパース性は密接に関係しています。次に、メタデータ戦略を設定し、収集した定性データを使用してデータの有効性を検証できるようにします。最後に、データの整合性を確保するために、データの生成時にデジタル証明書を適用し、送信中に SSL を強制し、暗号化を常に有効にする必要があります。

安全なデータコラボレーション

外部組織と常にデータを交換する必要がある業界の場合、データとメタ形式をオープンソース化することが最善です。これらの標準は、多くの独自の標準よりも広く普及しているからです。さらに良い方法としては、業界のオープンスタンダード委員会を立ち上げ、他の人が参加して貢献できるようにすることができます。良い例は Open Targets (https://www.opentargets.org/) です。これは「ヒト遺伝学とゲノミクスのデータを活用して、薬剤ターゲットを体系的に特定し、優先順位を付ける官民パートナーシップ」です。

特に、研究データのエコシステムは非常に複雑になっており、組織内外の協力者はデータへの迅速なアクセスとデータ管理の簡素化を必要としています。機械学習には多くの課題があります。最初のステップは、適切なデータとインフラストラクチャを使用してプロジェクトを開始することです。

<<: 7つの部門：AI、IoTなどの技術を活用し、廃家電リサイクル・処理のインテリジェント化を推進

>>: 人工知能がウェブホスティング業界に優位性をもたらす