現代の産業環境にはセンサーやスマート コンポーネントが満載されており、それらすべてが組み合わさって大量のデータが生成されます。現在、ほとんどの工場ではほとんど活用されていないこのデータは、さまざまな魅力的な新しいアプリケーションの原動力となります。実際、IBM によれば、平均的な工場では毎日 1 TB の生産データが生成されます。しかし、このデータのうち実用的な洞察に変換されるのは約 1% にすぎません。 機械学習 (ML) は、このデータを活用して豊富な価値を引き出すために設計された基礎技術です。機械学習システムはトレーニング データを使用して数学モデルを構築し、明示的な指示なしに特定のタスクを実行するようにシステムを指導します。 ML は、データを処理するアルゴリズムを使用して、主に人間の介入なしに意思決定を行います。産業オートメーションにおける機械学習の最も一般的な形式は、人間がラベル付けした大量の履歴データを使用してモデルをトレーニングする(つまり、人間がアルゴリズムのトレーニングを監督する)教師あり機械学習です。 これは、ベアリングの欠陥、潤滑不良、製品の欠陥などのよく知られた問題に役立ちます。十分な履歴データが利用できない場合、ラベル付けに時間がかかりすぎるかコストがかかりすぎる場合、またはユーザーがデータ内で探しているものが正確にわからない場合、教師あり機械学習は不十分になります。ここで、教師なし機械学習が役立ちます。 教師なし機械学習は、データ内のパターンを識別し、異常を正確に特定するのに優れたアルゴリズムを使用して、ラベルのないデータを処理することを目的としています。適切に適用された教師なし機械学習は、状態監視やパフォーマンス テストからサイバー セキュリティや資産管理まで、さまざまな産業オートメーションのユース ケースに役立ちます。 教師あり学習と教師なし学習教師あり機械学習は、教師なし機械学習よりも実行が簡単です。適切にトレーニングされたモデルを使用すると、非常に一貫性があり信頼性の高い結果を提供できます。教師あり機械学習では、関連するすべての事例を含める必要があるのと同様に、大量の履歴データが必要になる場合があります。つまり、製品の欠陥を検出するには、データに十分な数の欠陥製品の事例が含まれている必要があります。これらの膨大なデータセットにラベルを付けるには、時間がかかり、コストもかかる可能性があります。さらに、モデルのトレーニングは芸術です。良い結果を生み出すには、適切に整理された大量のデータが必要です。 現在、このプロセスは、さまざまな ML アルゴリズムをベンチマークするための AutoML などのツールによって大幅に簡素化されています。同時に、トレーニング プロセスを過度に制約すると、トレーニング セットでは適切に機能するモデルが、実際のデータでは適切に機能しない可能性があります。もう一つの重要な欠点は、教師あり機械学習は、データ内の予期しない傾向を特定したり、新しい現象を発見したりするのにあまり効果的ではないことです。このようなタイプのアプリケーションでは、教師なし機械学習によってより良い結果が得られます。 一般的な教師なし機械学習の手法教師あり機械学習とは対照的に、教師なし機械学習はラベルのない入力に対してのみ動作します。データ探索のための強力なツールを提供し、人間の支援なしに未知のパターンや関連性を発見します。ラベルなしデータで操作する機能により、時間とコストが節約され、入力が生成された後、できるだけ早く教師なし機械学習でデータを操作できるようになります。 欠点としては、教師なし機械学習は教師あり機械学習よりも複雑であることです。コストが高く、高度な専門知識が必要となり、一般的にはより多くのデータが必要になります。その出力は教師あり機械学習よりも信頼性が低い傾向があり、最適な結果を得るには最終的には人間による監督が必要になります。 教師なし機械学習技術の 3 つの重要な形式は、クラスタリング、異常検出、およびデータ次元削減です。 クラスタリング名前が示すように、クラスタリングではデータセットを分析してデータ間の共通機能を識別し、類似したインスタンスをグループ化します。クラスタリングは教師なしの ML 技術であるため、ランキング基準は人間ではなくアルゴリズムによって決定されます。したがって、クラスタリングは驚くべき発見につながる可能性があり、優れたデータ探索ツールとなります。 簡単な例を挙げると、青果売り場で 3 人の人が果物を仕分けるように頼まれているとします。 1 つは、柑橘類、核果類、熱帯果物などの果物の種類で並べ替える場合、もう 1 つは色で並べ替える場合、3 つ目は形状で並べ替える場合です。それぞれのアプローチでは、異なる機能セットが強調されます。 クラスタリングはいくつかのタイプに分けられます。最も一般的なものは次のとおりです。 排他的クラスタリング:データ インスタンスはクラスターに排他的に割り当てられます。 ファジーまたは重複クラスタリング:データ インスタンスを複数のクラスターに割り当てることができます。たとえば、オレンジは柑橘系の果物であると同時に熱帯の果物でもあります。ラベルなしデータに対して動作する教師なし ML アルゴリズムの場合、データ ブロックがグループ A とグループ B のどちらに正しく属するかの確率を割り当てることができます。 階層的クラスタリング:この手法では、クラスターのセットではなく、クラスター化されたデータの階層を構築します。オレンジは柑橘類ですが、球形の果物の大きなグループにも含まれており、すべての果物グループによってさらに吸収されます。 最も人気のあるクラスタリング アルゴリズムのセットを見てみましょう。
K 平均アルゴリズムはデータを K 個のクラスターに分類します。K の値はユーザーによって事前に設定されます。プロセスの開始時に、アルゴリズムは K 個のデータ ポイントを K 個のクラスターの重心としてランダムに割り当てます。次に、各データ ポイントとそのクラスターの重心の間の平均を計算します。これにより、データのクラスタリングが実現します。この時点で、アルゴリズムは重心を再計算し、平均計算を繰り返します。一定の解に到達するまで、重心を計算し、クラスターを並べ替えるプロセスを繰り返します (図 1 を参照)。 図 1: K 平均法アルゴリズムは、最初に K 個のデータ ポイントを重心としてランダムに選択し、残りのインスタンスをクラスター間でランダムに割り当てることで、データセットを K 個のクラスターに分割します。 K-means アルゴリズムはシンプルで効率的です。パターン認識やデータマイニングに非常に役立ちます。欠点としては、設定を最適化するにはデータセットに関する高度な知識が必要になることです。また、外れ値の影響も不均衡に受けます。
K-median アルゴリズムは、K-means に近いものです。基本的には同じプロセスを使用しますが、各データ ポイントの平均を計算する代わりに、中央値を計算する点が異なります。したがって、このアルゴリズムは外れ値に対してそれほど敏感ではありません。 クラスター分析の一般的な使用例を以下に示します。
異常検出異常検出は、欠陥検出から状態監視、サイバーセキュリティに至るまで、さまざまなユースケースにとって重要です。これは教師なし機械学習における重要なタスクです。教師なし機械学習で使用される異常検出アルゴリズムは数多くあります。最も人気のある 2 つを見てみましょう。
異常検出の標準的なアプローチは、一連の正常値を確立し、各データを分析して、正常値から逸脱しているかどうか、またどの程度逸脱しているかを確認することです。これは、ML で使用されるような大規模なデータセットを扱う場合、非常に時間のかかるプロセスです。分離フォレスト アルゴリズムは逆のアプローチを採用します。外れ値は、データセット内の他のインスタンスとは珍しく、かつ大きく異なるものとして定義されます。したがって、他のインスタンスのデータセットの残りの部分から簡単に分離できます。 Isolation Forest アルゴリズムはメモリ要件が最小限で、データセットのサイズに比例して時間がかかります。無関係な属性が含まれている場合でも、高次元データを処理できます。
重心からの距離のみで外れ値を識別する際の課題の 1 つは、小さなクラスターから近い距離にあるデータ ポイントは外れ値である可能性がある一方で、大きなクラスターから遠く離れているように見えるポイントは外れ値ではない可能性があることです。 LOF アルゴリズムは、この区別を行うように設計されています。 LOF では、外れ値を、局所的な密度偏差が隣接するデータ ポイントの密度偏差よりもはるかに大きいデータ ポイントとして定義します (図 2 を参照)。 K-means と同様に、事前にユーザーによる設定が必要ですが、非常に効果的です。半教師ありアルゴリズムとして使用し、通常のデータのみでトレーニングすると、新規性の検出にも適用できます。 図 2: ローカル外れ値係数 (LOF) は、各データ ポイントのローカル密度偏差を使用して異常スコアを計算し、正常なデータ ポイントと外れ値を区別します。 異常検出の使用例をいくつか紹介します。
次元削減機械学習は大量のデータ、多くの場合非常に大量のデータに基づいています。 10 から数十の特徴に絞り込めるデータセットを持つことは、一つの方法です。何千もの特徴を持つデータセット(確かに存在します)は、圧倒的になる可能性があります。したがって、ML の最初のステップは、次元削減を行ってデータを最も意味のある特徴に減らすことです。 次元削減、パターン認識、データ探索に使用される一般的なアルゴリズムは、主成分分析 (PCA) です。このアルゴリズムの詳細な説明はこの記事の範囲を超えています。おそらく、これは相互に直交するデータのサブセットを識別するのに役立ちます。つまり、メインの分析に影響を与えずにデータセットから削除できます。 PCA には興味深い使用例がいくつかあります。
教師なし機械学習は、教師あり機械学習と比べて優れているわけでも劣っているわけでもありません。適切なプロジェクトであれば、非常に効果的です。とはいえ、最も良い経験則はシンプルにしておくことなので、教師なし機械学習は通常、教師あり機械学習では解決できない問題にのみ使用されます。 プロジェクトに最適な機械学習アプローチを決定するために検討すべきいくつかの質問を以下に示します。
最後に、成功を確実にするためのヒントをいくつか紹介します。
産業現場で収集されたデータは、適切に活用された場合に限り、貴重なリソースとなります。教師なし機械学習は、データセットを分析して実用的な洞察を抽出するための強力なツールになります。このテクノロジーを導入するのは難しいかもしれませんが、厳しい世界において大きな競争上の優位性をもたらすことができます。 |
<<: アリババ・ダモ・アカデミーは、電力網の負荷を正確に予測するための新しい時系列予測モデルを提案している。
>>: 人工知能はメタバースのビジョンの実現に役立つでしょうか?
最近、「つながりとインテリジェンス、より安全な世界の構築」をテーマにした2021年世界セキュリティ博...
[51CTO.comより引用] モバイルインターネットの発展に伴い、あらゆるものの相互接続が可能に...
ロシア新聞は1月19日、「もう隠せないのか?」と題する記事を掲載し、米スタンフォード大学の学者マイケ...
英国最大の報道機関であるBBCは10月7日、ニュース、アーカイブ、「パーソナライズされた体験」の研究...
人工知能技術の急速な発展は、あらゆる分野で技術革新を推進し、多数の新興産業を生み出しました。今後 1...
この記事では、まず RAG の概念と理論に焦点を当てます。次に、オーケストレーション用の LangC...
人類が科学技術の時代に入り、初期の単純な産業時代から複雑で多面的なハイテク産業時代へと進化して数百年...
[[188839]]ビッグデータの概念が普及するにつれ、ビールとおむつの話は広く知られるようになり...
サイエンス フィクションの世界では、デジタル ツインの概念は長い間定番であり、作家たちは、人間が操作...