機械学習入門

1. 機械学習の定義

機械学習はコンピュータサイエンスのサブフィールドであり、人工知能の分野および実装方法です。機械学習は、コンピュータプログラムが経験を積むにつれてパフォーマンスを自動的に向上させる方法を扱います。機械学習の正式な説明: ある種のタスク T とパフォーマンスメトリック P について、コンピュータプログラムが経験 E によって、P によって測定される T でのパフォーマンスに関して自らを向上させる場合、そのコンピュータプログラムは経験 E から学習していると言われます。
機械学習の主な理論的基礎には、確率論、数理統計、数値近似、最適化理論、計算複雑性理論などが含まれます。中核となる要素は、データ、アルゴリズム、モデルです。

2. 機械学習の開発

機械学習の開発は、知識推論、知識工学、浅い学習、深い学習といういくつかの段階に分けられます。機械学習の発展において、人々の知能と現実世界の問題に対する解決策の理解が進むにつれて、象徴主義、ベイズ主義、コネクショニズム、進化論、行動類推という 5 つの主要な学派が生まれました。

3. 機械学習の進化

4. 機械学習、人工知能、データマイニング

機械学習は人工知能の一分野であり、人工知能を実現するための中核技術であり、人工知能における問題を解決する手段として機械学習を使用することです。機械学習では、コンピューターがデータからパターンを自動的に「学習」して分析し、それらのパターンを使用して新しいサンプルに関する予測を行えるアルゴリズムを使用します。

データマイニングとは、大量のビジネスデータから隠れた、有用で正しい知識を抽出し、意思決定を促進するプロセスです。多くのデータマイニングアルゴリズムは機械学習から生まれ、実際のアプリケーションに最適化されています。近年、機械学習は徐々に研究室から出て、実際のデータからパターンを学習し、実用的な問題を解決するようになりました。データマイニングと機械学習の交差点は拡大しています。

5. 機械学習の代表的な応用分野

芸術的創造
金融セクター
医療分野
自然言語処理
サイバーセキュリティ
産業分野
エンターテインメント業界

6. 機械学習アプリケーション

人間対機械

AlphaGo は、深層畳み込みニューラルネットワーク (CNN)、強化学習 (RL)、モンテカルロ木探索 (MCTS) を組み合わせたものです。

トレンド予測

Google インフルエンザトレンド予測

社会保障詐欺

スパム対策システム

パーソナライズされた推奨事項

7. 機械学習プロセス

機械学習は始めるのは簡単だが習得するのは難しい分野である
機械学習アナリストは、ビジネスプロセスを理解するために業界知識を習得し、データを適切に解釈するためにデータの背後にある暗黙の情報を理解し、変化と時間次元の観点からニーズを把握してどのデータを使用するかを決定する必要があります。これがデータ分析の基礎です。
機械学習の主なプロセスは、分析目的の明確化、データ収集、データ前処理、モデリング分析、結果評価、展開と使用、学習の更新です。

8. 機械学習のやり方

データ分析の目標を明確にする: データ分析の目標を明確にすることは機械学習の最初の重要なステップであり、このステップではユーザーとの十分なコミュニケーションが必要です。
データ収集: 十分かつ包括的で高品質なデータが機械学習の基礎となります。
データ前処理: データのクリーニング。データの品質を確保するには、必要なデータガバナンスが必要です。
データモデリング: アルゴリズム自体に絶対的な良し悪しはなく、機械学習アルゴリズムごとに使用範囲が異なります。適切なモデリング方法またはアルゴリズムを選択します。アルゴリズムの品質は実験を通じて判断する必要があります。このフェーズは機械学習の中核部分であり、高度な分析方法を使用してデータから知識を抽出します。モデリング手法の選択、テスト設計の生成、モデルの構築と評価が含まれます。アルゴリズムのチューニング（パラメータや構造などを含む）、機械学習アルゴリズムは科学であり、その応用は芸術です。
有効性評価: モデルを選択したら、機械学習の結果がビジネス目標の達成にどの程度役立つかを評価します。このフェーズの要素には、機械学習プロセスにフィードバックを提供するために学習成果を評価することが含まれます。
展開と使用方法の更新: 効果的な機械学習の結果により、顧客のビジネス上の意思決定の有効性が向上し、顧客に価値がもたらされます。ビジネスは変化する可能性があるため、展開プロセス中に機械学習モデルを更新する必要があります。機械学習は一度きりのものではありません（増分学習）。

9. 一般的な機械学習アルゴリズム

教師あり学習: サポートベクターマシン SVM、決定木、ナイーブベイズ分類、k近傍法 KNN
教師なし学習: 主成分分析、特異値分解、K平均法クラスタリング
強化学習: Q学習
クラスタリングアルゴリズム
分類アルゴリズム
回帰分析
関連性分析

10. データマイニングでよく使われるアルゴリズム

推奨アルゴリズム
ソーシャルネットワーク分析 - テキスト分析
11. 機械学習における一般的な問題
データ品質の問題と前処理
少量のデータ
データが多すぎる
次元の呪い
不完全なデータ
異常なデータ

12. データ分析のよくある落とし穴

1. 相関関係の誤解

物事の間に相関関係があるということは、因果関係があることを意味するわけではなく、因果関係が逆転する可能性もあります。
ほとんどの間違いを避けるには、ビジネスを深く理解する必要があります
3 番目の変数が両方の変数の変化を同時に引き起こすかどうかを分析し、その理由を突き止める必要があります。

2. 比較対象が間違っている

機械学習で結果や効果を比較する場合、異なるサンプルセットの結果を比較するのは簡単です。比較対象が不合理であれば、当然結果は無効になり、結論も有効ではなくなります。

3. データサンプリング

データサンプリングの偏りが分析結果に影響する可能性があります。
サンプリング基準を考慮する必要がある

4. 極端な値を無視するか、それに焦点を当てる

極端な値を無視すると、特定の種類のサンプルや重要な機能が失われる可能性があります。
極端な値に注意を払いすぎると結果に偏りが生じ、結論に影響を与える可能性がある。

5. 偶然のデータを信じる

実験を複数回繰り返すことで偶然のデータの発生を避けることができる

6. データが正規化されていない

2 つのデータを比較する場合、合計を比較し、割合の比較を無視することは簡単です。

7. サードパーティのデータを無視する

クローラーを使用してより多くのデータを収集し、データソースを充実させる

8. 統計指標への過度の注目

特定の方法や結論の前提を無視することがある
12. 機械学習手法の選択
機械学習の方法を選択するには、ターゲット要件を理解することが鍵となります。まず、問題を分類する必要があります。データセットにラベルがある場合は、教師あり学習を使用できます。そうでない場合は、教師なし学習を適用できます。
さまざまな機械学習手法の特性を理解することは、分析手法を選択するための基礎となります。さまざまな分析アルゴリズムの使用方法を理解するだけでなく、その実装の原理を理解することも必要です。
モデルを選択する前に、データの探索的分析を実行します。
機械学習手法を選択するプロセスでは、いくつかの可能なモデルの中からより優れたモデルを選択できます。
モデルを選択したら、さまざまなモデルの適合性を比較し、パラメータを繰り返し調整して、モデルの結果を安定させます。

13. 機械学習プロジェクトチームの結成