機械学習における3つの重要なデータ課題

機械学習における3つの重要なデータ課題

機械学習にとってデータがどれほど重要であるかは誰もが知っています。データ アクセス パターンを理解することで、データ サイエンティストはプロジェクトに適したストレージ インフラストラクチャを決定できるようになります。データ インフラストラクチャにより機械学習が可能になります。しかし、機械学習が実際に使用されると、まず対処する必要がある重要なデータ課題に直面します。

  • 品質
  • スパース性
  • 完全

次に、機械学習の課題を克服する方法を理解できるように、それぞれについて詳しく見ていきましょう。

1. 品質

多くのデータ サイエンティストは、外部ソースからのデータを活用したいと考えています。ただし、生データがどのように取得されたかについては、品質管理や保証が行われていないことがよくあります。

外部データの正確さを信頼しますか?

これは良い例です。海に浮かぶブイに取り付けられたセンサーが海水温に関するデータを収集します。ただし、センサーが温度を収集できない場合は、999 として記録されます。さらに、2000 年以前は、年号は 2 桁のみで記録されていました。しかし、2000年以降、記録された数は4に変わりました。

したがって、データの品質とその準備方法を理解する必要があります。この場合、ブイ データを分析する科学者は、平均値、中間値、最小値、最大値を使用して生データを視覚化し、これらのデータベース エラーを検出して、それに応じてエラーをクリーンアップできます。

2. スパース性

この場合、スパース性はメタデータに適用されます。多くの場合、メタデータ フィールドは不完全で、一部のフィールドは入力され、一部のフィールドは空白のままになっています。データが単一のソースから生成される場合、それは人間側の規範や知識の欠如が原因である可能性があります。ただし、データがメタデータの標準定義のないさまざまなソースから取得される場合、各データセットにはまったく異なるフィールドが含まれる可能性があります。そのため、それらを組み合わせると、完了したフィールドが一致しない可能性があります。

現在、どのようなメタデータをキャプチャするかについての業界標準はありません。ただし、メタデータはデータ自体と同じくらい重要です。同じ種類のデータが異なるメタデータ フィールドに入力されている場合、データをどのように関連付け、フィルター処理しますか?

ブイを例に挙げると、初期のデータ センサーは 10 分ごとに水温を収集していましたが、新しいブイは 3 分ごとに水温を収集します。データを関連付ける唯一の方法は、キャプチャ時に公開されるメタデータを使用することです。科学者が歴史的分析を行う際には、それに応じてモデルを調整できるようにメタデータが必要です。

3. 完全性

データの整合性は、データの正確性と一貫性を保証します。データの保管チェーンは、データがパイプラインや場所を移動する際に侵害されていないことを証明するために重要です。データのキャプチャと取り込みが制御されている場合、データの整合性を比較的簡単に検証できます。しかし、他の人と協力する場合、検証するのは困難です。データが生成されるときに、外部データに対するセキュリティ証明書は存在しません。また、データが期待どおりに記録されたことや、受信したデータが元々記録されていたものとまったく同じであることを保証することもできません。

IoT データとブロックチェーンに関しては興味深い概念がいくつかありますが、そのような概念が広く採用されるまで、データの整合性はセキュリティ技術とポリシーの組み合わせに依存します。たとえば、データは保存中または転送中に侵害される可能性があるため、ネットワーク経由で送信されるデータは https を使用し、保存時には暗号化する必要があります。一方、人為的なエラーを回避するために、アクセス制御はポリシーに基づいて行う必要があります。

始めるにはどうすればいいですか?

データの品質、スパース性、完全性は、最終モデルの精度に直接影響し、今日の機械学習が直面している最大の課題の一部です。明確なデータ定義とポリシーを持ち、業界固有のデータ標準を探求する組織は、短期プロジェクトと長期プロジェクトの両方でメリットを得られます。

まだ行っていない場合は、まず組織で独自のデータ収集ポリシーとメタデータ形式を定義し、次に標準的なセキュリティ手法を適用する必要があります。データの品質とスパース性は密接に関係しています。次に、メタデータ戦略を設定し、収集した定性データを使用してデータの有効性を検証できるようにします。最後に、データの整合性を確保するために、データの生成時にデジタル証明書を適用し、送信中に SSL を強制し、暗号化を常に有効にする必要があります。

安全なデータコラボレーション

外部組織と常にデータを交換する必要がある業界の場合、データとメタ形式をオープンソース化することが最善です。これらの標準は、多くの独自の標準よりも広く普及しているからです。さらに良い方法としては、業界のオープン スタンダード委員会を立ち上げ、他の人が参加して貢献できるようにすることができます。良い例は Open Targets (https://www.opentargets.org/) です。これは「ヒト遺伝学とゲノミクスのデータを活用して、薬剤ターゲットを体系的に特定し、優先順位を付ける官民パートナーシップ」です。

特に、研究データのエコシステムは非常に複雑になっており、組織内外の協力者はデータへの迅速なアクセスとデータ管理の簡素化を必要としています。機械学習には多くの課題があります。最初のステップは、適切なデータとインフラストラクチャを使用してプロジェクトを開始することです。

<<:  7つの部門:AI、IoTなどの技術を活用し、廃家電リサイクル・処理のインテリジェント化を推進

>>:  人工知能がウェブホスティング業界に優位性をもたらす

推薦する

2018年ロシアワールドカップではどのような「スマートハードウェア」が使用されましたか?

4年待ちに待ったワールドカップがついにやって来ました。業界に数十億ドルの資金が投入され、世界人口の...

...

トラフィックエンジニアリングによりコード生成の精度が2倍に向上: 19%から44%

新しい論文の著者は、コード生成を「強化」する方法を提案しています。コード生成は人工知能においてますま...

...

IEEE コンピュータ協会が 2023 年の技術トレンド予測評価を発表

コンピューターサイエンスとエンジニアリングの主要会員コミュニティである IEEE コンピューターソサ...

3Wイノベーションフェスティバル:先進的な起業家のアイデアが古都西安に流入

最近、西安で3Wイノベーションフェスティバルが開催されました。西安起業・イノベーション週間の代表的な...

クロス検証は非常に重要です!

まず、クロス検証がなぜ必要なのかを理解する必要があります。クロス検証は、予測モデルのパフォーマンスと...

これら 5 つのオープンソース ソフトウェアを使用すると、音声からテキストへの変換が簡単になります。

音声テキスト変換(STT)システムは、話した言葉をテキストに変換できる方法です。私たちがよく使うWe...

...

Huaweiは封鎖を突破し、GoogleのDropout特許をベンチマークし、独自のアルゴリズムDisoutをオープンソース化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

初心者のための CNN と Keras のクイックガイド

[[201203]] 1. Keras を使用する理由ディープラーニングが大人気の昨今、サードパーテ...

GitHub スター 6000 以上! Pythonで機械学習のバイブルPRMLを実践

ビショップの PRML は機械学習のバイブルと言っても過言ではありません。この本では、パターン認識と...

AIに勝てずイ・セドルが引退を発表

[[284089]] AI囲碁プログラム「アルファ碁」を破った唯一の人間である韓国の九段、イ・セドル...

DeepMap COO 羅偉氏との独占インタビュー:自動運転の時代に、スタートアップは高精度地図の分野でどのように躍進できるのか?

最近、シリコンバレーの高精度地図サービスプロバイダーであるDeepMapは、Accelが主導し、エン...

...