機械学習入門

機械学習入門

1. 機械学習の定義

機械学習はコンピュータサイエンスのサブフィールドであり、人工知能の分野および実装方法です。機械学習は、コンピュータ プログラムが経験を積むにつれてパフォーマンスを自動的に向上させる方法を扱います。機械学習の正式な説明: ある種のタスク T とパフォーマンス メトリック P について、コンピュータ プログラムが経験 E によって、P によって測定される T でのパフォーマンスに関して自らを向上させる場合、そのコンピュータ プログラムは経験 E から学習していると言われます。
機械学習の主な理論的基礎には、確率論、数理統計、数値近似、最適化理論、計算複雑性理論などが含まれます。中核となる要素は、データ、アルゴリズム、モデルです。

2. 機械学習の開発

機械学習の開発は、知識推論、知識工学、浅い学習、深い学習といういくつかの段階に分けられます。機械学習の発展において、人々の知能と現実世界の問題に対する解決策の理解が進むにつれて、象徴主義、ベイズ主義、コネクショニズム、進化論、行動類推という 5 つの主要な学派が生まれました。

3. 機械学習の進化

4. 機械学習、人工知能、データマイニング

機械学習は人工知能の一分野であり、人工知能を実現するための中核技術であり、人工知能における問題を解決する手段として機械学習を使用することです。機械学習では、コンピューターがデータからパターンを自動的に「学習」して分析し、それらのパターンを使用して新しいサンプルに関する予測を行えるアルゴリズムを使用します。

データ マイニングとは、大量のビジネス データから隠れた、有用で正しい知識を抽出し、意思決定を促進するプロセスです。多くのデータ マイニング アルゴリズムは機械学習から生まれ、実際のアプリケーションに最適化されています。近年、機械学習は徐々に研究室から出て、実際のデータからパターンを学習し、実用的な問題を解決するようになりました。データマイニングと機械学習の交差点は拡大しています。

5. 機械学習の代表的な応用分野

  • 芸術的創造
  • 金融セクター
  • 医療分野
  • 自然言語処理
  • サイバーセキュリティ
  • 産業分野
  • エンターテインメント業界

6. 機械学習アプリケーション

  • 人間対機械

AlphaGo は、深層畳み込みニューラル ネットワーク (CNN)、強化学習 (RL)、モンテカルロ木探索 (MCTS) を組み合わせたものです。

  • トレンド予測

Google インフルエンザ トレンド予測

  • 社会保障詐欺

スパム対策システム

  • パーソナライズされた推奨事項

7. 機械学習プロセス

  • 機械学習は始めるのは簡単だが習得するのは難しい分野である
  • 機械学習アナリストは、ビジネスプロセスを理解するために業界知識を習得し、データを適切に解釈するためにデータの背後にある暗黙の情報を理解し、変化と時間次元の観点からニーズを把握してどのデータを使用するかを決定する必要があります。これがデータ分析の基礎です。
  • 機械学習の主なプロセスは、分析目的の明確化、データ収集、データ前処理、モデリング分析、結果評価、展開と使用、学習の更新です。

8. 機械学習のやり方

  • データ分析の目標を明確にする: データ分析の目標を明確にすることは機械学習の最初の重要なステップであり、このステップではユーザーとの十分なコミュニケーションが必要です。
  • データ収集: 十分かつ包括的で高品質なデータが機械学習の基礎となります。
  • データ前処理: データのクリーニング。データの品質を確保するには、必要なデータ ガバナンスが必要です。
  • データモデリング: アルゴリズム自体に絶対的な良し悪しはなく、機械学習アルゴリズムごとに使用範囲が異なります。適切なモデリング方法またはアルゴリズムを選択します。アルゴリズムの品質は実験を通じて判断する必要があります。このフェーズは機械学習の中核部分であり、高度な分析方法を使用してデータから知識を抽出します。モデリング手法の選択、テスト設計の生成、モデルの構築と評価が含まれます。アルゴリズムのチューニング(パラメータや構造などを含む)、機械学習アルゴリズムは科学であり、その応用は芸術です。
  • 有効性評価: モデルを選択したら、機械学習の結果がビジネス目標の達成にどの程度役立つかを評価します。このフェーズの要素には、機械学習プロセスにフィードバックを提供するために学習成果を評価することが含まれます。
  • 展開と使用方法の更新: 効果的な機械学習の結果により、顧客のビジネス上の意思決定の有効性が向上し、顧客に価値がもたらされます。ビジネスは変化する可能性があるため、展開プロセス中に機械学習モデルを更新する必要があります。機械学習は一度きりのものではありません(増分学習)。

9. 一般的な機械学習アルゴリズム

  • 教師あり学習: サポートベクターマシン SVM、決定木、ナイーブベイズ分類、k近傍法 KNN
  • 教師なし学習: 主成分分析、特異値分解、K平均法クラスタリング
  • 強化学習: Q学習
  • クラスタリングアルゴリズム
  • 分類アルゴリズム
  • 回帰分析
  • 関連性分析

10. データマイニングでよく使われるアルゴリズム

  • 推奨アルゴリズム
  • ソーシャルネットワーク分析 - テキスト分析
  • 11. 機械学習における一般的な問題
  • データ品質の問題と前処理
  • 少量のデータ
  • データが多すぎる
  • 次元の呪い
  • 不完全なデータ
  • 異常なデータ

12. データ分析のよくある落とし穴

1. 相関関係の誤解

  • 物事の間に相関関係があるということは、因果関係があることを意味するわけではなく、因果関係が逆転する可能性もあります。
  • ほとんどの間違いを避けるには、ビジネスを深く理解する必要があります
  • 3 番目の変数が両方の変数の変化を同時に引き起こすかどうかを分析し、その理由を突き止める必要があります。

2. 比較対象が間違っている

  • 機械学習で結果や効果を比較する場合、異なるサンプルセットの結果を比較するのは簡単です。比較対象が不合理であれば、当然結果は無効になり、結論も有効ではなくなります。

3. データサンプリング

  • データ サンプリングの偏りが分析結果に影響する可能性があります。
  • サンプリング基準を考慮する必要がある

4. 極端な値を無視するか、それに焦点を当てる

  • 極端な値を無視すると、特定の種類のサンプルや重要な機能が失われる可能性があります。
  • 極端な値に注意を払いすぎると結果に偏りが生じ、結論に影響を与える可能性がある。

5. 偶然のデータを信じる

  • 実験を複数回繰り返すことで偶然のデータの発生を避けることができる

6. データが正規化されていない

  • 2 つのデータを比較する場合、合計を比較し、割合の比較を無視することは簡単です。

7. サードパーティのデータを無視する

  • クローラーを使用してより多くのデータを収集し、データソースを充実させる

8. 統計指標への過度の注目

  • 特定の方法や結論の前提を無視することがある
  • 12. 機械学習手法の選択
  • 機械学習の方法を選択するには、ターゲット要件を理解することが鍵となります。まず、問題を分類する必要があります。データセットにラベルがある場合は、教師あり学習を使用できます。そうでない場合は、教師なし学習を適用できます。
  • さまざまな機械学習手法の特性を理解することは、分析手法を選択するための基礎となります。さまざまな分析アルゴリズムの使用方法を理解するだけでなく、その実装の原理を理解することも必要です。
  • モデルを選択する前に、データの探索的分析を実行します。
  • 機械学習手法を選択するプロセスでは、いくつかの可能なモデルの中からより優れたモデルを選択できます。
  • モデルを選択したら、さまざまなモデルの適合性を比較し、パラメータを繰り返し調整して、モデルの結果を安定させます。

13. 機械学習プロジェクトチームの結成

  • 機能的ポジション
  • プロジェクトマネージャー
  • ビジネス専門家
  • 機械学習エンジニア
  • データ モデラー
  • 可視化スタッフ
  • 評価者
  • 他の

14. 機械学習の人材育成の難しさ

  • 高い数学的要件
  • 高い学習コスト
  • 学際的な総合力
  • 練習の機会が少ない

15. 機械学習スキルの要件

16. 一般的な機械学習プラットフォーム

  • パイソン
  • R
  • テンソルフロー
  • カフェ
  • オープンソースコミュニティ Github

<<:  人工知能は改めてすごいですね!科学者は偶然、死者を「蘇らせる」ことができることを発見した

>>:  2021年に人工知能の倫理的問題、社会的価値、影響について読むべき8冊の本

ブログ    

推薦する

数独問題を解くには人工知能や量子コンピューティングを使うべきでしょうか?

楽しいボードゲームとして誕生してから 100 年経った今、数独はどのようにして計算研究の焦点となった...

あなたは人工知能/機械学習についてどれくらい知っていますか?

[[188835]]クイズ番組やマンマシン囲碁で人間に勝ったり、広告で人種差別的な偏見を示したとし...

...

...

米国は中国のAI企業に対する制裁で目的を果たせなかったのか?

[[278497]]中国の人工知能企業数社は、ある日、自分たちがこのようなユニークな形で世界の注目...

海外の研究者がAIを使って生体認証を欺く顔を生成

海外メディアによると、イスラエルのテルアビブ大学の研究者らは最近、画像生成システムStyleGANを...

機械学習プロジェクトを管理および組織化する方法

この記事では主に、機械学習プロジェクトの編成と管理に関する実践的な経験をいくつか紹介します。パイソン...

...

4Kウィンドウの長さで長いテキストを読むことができ、陳丹奇の弟子がMetaと提携して、大規模なモデルでメモリを強化する新しい方法を立ち上げました

ウィンドウの長さが 4k でも、大きなモデルで大きなテキストを読み取ることができます。プリンストン大...

オーストラリアの裁判所は、特許出願においてAIを発明者とみなすことができると判決を下した。

[[415316]]海外メディアの報道によると、オーストラリアの裁判所は、特許出願において人工知能...

...

「コーチ」はとても優しくて合格率も高いです!上海に「無人運転訓練」が登場。試してみませんか?

運転免許試験を受けるとき、2番目の科目で行き詰まっていませんか?コーチに「支配される」ことへの恐怖は...

中国工程院院士の李軍氏:単一車両知能には5つの大きな問題があり、自動運転には新たな技術的ルートが必要

Leifeng.com(公式アカウント:Leifeng.com)注:少し前、2020年世界インテリジ...

AIとブロックチェーンの統合:6つの予測と可能性

今のところ、AI とブロックチェーン技術がもたらす可能性について聞いたことも、気付いていないのであれ...

素手でネジを動かす、ボストンダイナミクスのアトラスが再び進化:兄弟たち、工場に入る準備をしよう

現在注目を集めているヒューマノイドロボット分野において、ボストン・ダイナミクスは早期参入企業の1つで...