機械学習入門

機械学習入門

1. 機械学習の定義

機械学習はコンピュータサイエンスのサブフィールドであり、人工知能の分野および実装方法です。機械学習は、コンピュータ プログラムが経験を積むにつれてパフォーマンスを自動的に向上させる方法を扱います。機械学習の正式な説明: ある種のタスク T とパフォーマンス メトリック P について、コンピュータ プログラムが経験 E によって、P によって測定される T でのパフォーマンスに関して自らを向上させる場合、そのコンピュータ プログラムは経験 E から学習していると言われます。
機械学習の主な理論的基礎には、確率論、数理統計、数値近似、最適化理論、計算複雑性理論などが含まれます。中核となる要素は、データ、アルゴリズム、モデルです。

2. 機械学習の開発

機械学習の開発は、知識推論、知識工学、浅い学習、深い学習といういくつかの段階に分けられます。機械学習の発展において、人々の知能と現実世界の問題に対する解決策の理解が進むにつれて、象徴主義、ベイズ主義、コネクショニズム、進化論、行動類推という 5 つの主要な学派が生まれました。

3. 機械学習の進化

4. 機械学習、人工知能、データマイニング

機械学習は人工知能の一分野であり、人工知能を実現するための中核技術であり、人工知能における問題を解決する手段として機械学習を使用することです。機械学習では、コンピューターがデータからパターンを自動的に「学習」して分析し、それらのパターンを使用して新しいサンプルに関する予測を行えるアルゴリズムを使用します。

データ マイニングとは、大量のビジネス データから隠れた、有用で正しい知識を抽出し、意思決定を促進するプロセスです。多くのデータ マイニング アルゴリズムは機械学習から生まれ、実際のアプリケーションに最適化されています。近年、機械学習は徐々に研究室から出て、実際のデータからパターンを学習し、実用的な問題を解決するようになりました。データマイニングと機械学習の交差点は拡大しています。

5. 機械学習の代表的な応用分野

  • 芸術的創造
  • 金融セクター
  • 医療分野
  • 自然言語処理
  • サイバーセキュリティ
  • 産業分野
  • エンターテインメント業界

6. 機械学習アプリケーション

  • 人間対機械

AlphaGo は、深層畳み込みニューラル ネットワーク (CNN)、強化学習 (RL)、モンテカルロ木探索 (MCTS) を組み合わせたものです。

  • トレンド予測

Google インフルエンザ トレンド予測

  • 社会保障詐欺

スパム対策システム

  • パーソナライズされた推奨事項

7. 機械学習プロセス

  • 機械学習は始めるのは簡単だが習得するのは難しい分野である
  • 機械学習アナリストは、ビジネスプロセスを理解するために業界知識を習得し、データを適切に解釈するためにデータの背後にある暗黙の情報を理解し、変化と時間次元の観点からニーズを把握してどのデータを使用するかを決定する必要があります。これがデータ分析の基礎です。
  • 機械学習の主なプロセスは、分析目的の明確化、データ収集、データ前処理、モデリング分析、結果評価、展開と使用、学習の更新です。

8. 機械学習のやり方

  • データ分析の目標を明確にする: データ分析の目標を明確にすることは機械学習の最初の重要なステップであり、このステップではユーザーとの十分なコミュニケーションが必要です。
  • データ収集: 十分かつ包括的で高品質なデータが機械学習の基礎となります。
  • データ前処理: データのクリーニング。データの品質を確保するには、必要なデータ ガバナンスが必要です。
  • データモデリング: アルゴリズム自体に絶対的な良し悪しはなく、機械学習アルゴリズムごとに使用範囲が異なります。適切なモデリング方法またはアルゴリズムを選択します。アルゴリズムの品質は実験を通じて判断する必要があります。このフェーズは機械学習の中核部分であり、高度な分析方法を使用してデータから知識を抽出します。モデリング手法の選択、テスト設計の生成、モデルの構築と評価が含まれます。アルゴリズムのチューニング(パラメータや構造などを含む)、機械学習アルゴリズムは科学であり、その応用は芸術です。
  • 有効性評価: モデルを選択したら、機械学習の結果がビジネス目標の達成にどの程度役立つかを評価します。このフェーズの要素には、機械学習プロセスにフィードバックを提供するために学習成果を評価することが含まれます。
  • 展開と使用方法の更新: 効果的な機械学習の結果により、顧客のビジネス上の意思決定の有効性が向上し、顧客に価値がもたらされます。ビジネスは変化する可能性があるため、展開プロセス中に機械学習モデルを更新する必要があります。機械学習は一度きりのものではありません(増分学習)。

9. 一般的な機械学習アルゴリズム

  • 教師あり学習: サポートベクターマシン SVM、決定木、ナイーブベイズ分類、k近傍法 KNN
  • 教師なし学習: 主成分分析、特異値分解、K平均法クラスタリング
  • 強化学習: Q学習
  • クラスタリングアルゴリズム
  • 分類アルゴリズム
  • 回帰分析
  • 関連性分析

10. データマイニングでよく使われるアルゴリズム

  • 推奨アルゴリズム
  • ソーシャルネットワーク分析 - テキスト分析
  • 11. 機械学習における一般的な問題
  • データ品質の問題と前処理
  • 少量のデータ
  • データが多すぎる
  • 次元の呪い
  • 不完全なデータ
  • 異常なデータ

12. データ分析のよくある落とし穴

1. 相関関係の誤解

  • 物事の間に相関関係があるということは、因果関係があることを意味するわけではなく、因果関係が逆転する可能性もあります。
  • ほとんどの間違いを避けるには、ビジネスを深く理解する必要があります
  • 3 番目の変数が両方の変数の変化を同時に引き起こすかどうかを分析し、その理由を突き止める必要があります。

2. 比較対象が間違っている

  • 機械学習で結果や効果を比較する場合、異なるサンプルセットの結果を比較するのは簡単です。比較対象が不合理であれば、当然結果は無効になり、結論も有効ではなくなります。

3. データサンプリング

  • データ サンプリングの偏りが分析結果に影響する可能性があります。
  • サンプリング基準を考慮する必要がある

4. 極端な値を無視するか、それに焦点を当てる

  • 極端な値を無視すると、特定の種類のサンプルや重要な機能が失われる可能性があります。
  • 極端な値に注意を払いすぎると結果に偏りが生じ、結論に影響を与える可能性がある。

5. 偶然のデータを信じる

  • 実験を複数回繰り返すことで偶然のデータの発生を避けることができる

6. データが正規化されていない

  • 2 つのデータを比較する場合、合計を比較し、割合の比較を無視することは簡単です。

7. サードパーティのデータを無視する

  • クローラーを使用してより多くのデータを収集し、データソースを充実させる

8. 統計指標への過度の注目

  • 特定の方法や結論の前提を無視することがある
  • 12. 機械学習手法の選択
  • 機械学習の方法を選択するには、ターゲット要件を理解することが鍵となります。まず、問題を分類する必要があります。データセットにラベルがある場合は、教師あり学習を使用できます。そうでない場合は、教師なし学習を適用できます。
  • さまざまな機械学習手法の特性を理解することは、分析手法を選択するための基礎となります。さまざまな分析アルゴリズムの使用方法を理解するだけでなく、その実装の原理を理解することも必要です。
  • モデルを選択する前に、データの探索的分析を実行します。
  • 機械学習手法を選択するプロセスでは、いくつかの可能なモデルの中からより優れたモデルを選択できます。
  • モデルを選択したら、さまざまなモデルの適合性を比較し、パラメータを繰り返し調整して、モデルの結果を安定させます。

13. 機械学習プロジェクトチームの結成

  • 機能的ポジション
  • プロジェクトマネージャー
  • ビジネス専門家
  • 機械学習エンジニア
  • データ モデラー
  • 可視化スタッフ
  • 評価者
  • 他の

14. 機械学習の人材育成の難しさ

  • 高い数学的要件
  • 高い学習コスト
  • 学際的な総合力
  • 練習の機会が少ない

15. 機械学習スキルの要件

16. 一般的な機械学習プラットフォーム

  • パイソン
  • R
  • テンソルフロー
  • カフェ
  • オープンソースコミュニティ Github

<<:  人工知能は改めてすごいですね!科学者は偶然、死者を「蘇らせる」ことができることを発見した

>>:  2021年に人工知能の倫理的問題、社会的価値、影響について読むべき8冊の本

ブログ    
ブログ    
ブログ    

推薦する

DAMOアカデミーが音声AIの新たな進歩を発表:モバイル端末でも実際の人間に近い音声対話体験を実現可能

DAMOアカデミーは9月18日、2020年雲奇大会において、音声AI技術の最新のブレークスルーを発表...

小型モデルは大型モデルとどう比較できるのか?北京理工大学はMindの大型モデルであるMindLLMをリリースし、小型モデルの大きな可能性を示した。

大規模言語モデル (LLM) は、さまざまな自然言語タスクで優れたパフォーマンスを発揮しています。た...

オペレーティング システムのプロセス スケジューリング アルゴリズム (CPU 仮想化)

前回の記事では、オペレーティング システムが CPU を仮想化する方法についてすでに説明しました。今...

Qi Lu: 人工知能の時代では、チップと基盤となるソフトウェアは基本的に作り直す必要がある

2019年5月18日、YC Chinaが開催したYC China起業家会議において、YC China...

...

ダイクストラのアルゴリズムの詳細な説明

この記事では、まず単一ソース最短経路問題から始め、次にベルマン・フォード アルゴリズムについて説明し...

人工知能によりデータセンターのコストと制御ニーズが増加

人工知能 (AI) はコンピューティングとデータ分析の世界を変えています。機械学習、自然言語処理、コ...

自動運転制御プロセスにおいて解決すべき規制上の問題は何ですか?

自動運転車は自動車の知能化の究極の目標であると広く考えられていますが、自動車技術のさまざまな段階の発...

...

NeurIPS 2023 レビュー: ビッグモデルが最も注目されており、清華大学 ToT 思考ツリーがリストに載る

最近、米国のトップ 10 テクノロジー ブログの 1 つである Latent Space が、終了し...

海底撈のIPOは1000億元規模:将来、厨房に必要なのはエンジニア2人だけ

[[245580]] 2018年9月26日、海底撈国際ホールディングス株式会社(06862.HK)が...

スマート革命の始まり! AIは今後10年間で医療と芸術に革命を起こすだろう

人工知能 (AI) は、新しい材料を設計し、学習方法や周囲のあらゆるものとのやり取り方法を変え、人々...

Microsoft は、全二重音声インタラクションにおいて画期的な進歩を達成しました。ロボットは本当に「人間」になる

マイクロソフト(アジア)インターネットエンジニアリングアカデミーは、新世代の音声インタラクション技術...

673本の論文を要約し、UIUCなどが20ヶ月で完成させた信頼性の高い機械学習レビューを発表

少し前、UIUC と南洋理工大学の 3 人の研究者が 20 か月かけて 673 本の論文を研究し、信...

AIが「エッジ」に必要である理由

インテリジェンスは急速に増加しており、今日では、新しい生成型人工知能 (gen-AI) と機械学習 ...