機械学習の基礎チャート: 概念、原則、歴史、トレンド、アルゴリズム

機械学習の基礎チャート: 概念、原則、歴史、トレンド、アルゴリズム

1. 機械学習の概要

1. 機械学習とは何ですか?

機械は大量のデータを分析して学習します。たとえば、猫や人間の顔を認識するようにプログラムするのではなく、画像を使用して特定の物体を一般化して認識するようにトレーニングすることができます。

2. 機械学習と人工知能の関係

機械学習は、データ内のパターンを見つけ、そのパターンを使用して予測を行うことに重点を置いた研究とアルゴリズムのクラスです。機械学習は人工知能の分野の一部であり、知識の発見とデータマイニングと関連しています。

3. 機械学習の仕組み

①データの選択:データをトレーニングデータ、検証データ、テストデータの3つのグループに分けます。

②モデルデータ:トレーニングデータを使用して、関連する特徴量を使用してモデルを構築します

③モデルの検証:検証データを使用してモデルにアクセスします

④モデルをテストする: テストデータを使用して検証済みモデルのパフォーマンスを確認します

⑤モデルを使用する:完全にトレーニングされたモデルを使用して新しいデータの予測を行う

⑥ モデルを調整する: より多くのデータ、異なる機能、または調整されたパラメータを使用して、アルゴリズムのパフォーマンスを向上させる

4. 機械学習の位置づけ

① 従来のプログラミング:ソフトウェアエンジニアは問題を解決するためにプログラムを作成します。まずデータがある→問題を解決するために、ソフトウェアエンジニアはマシンに何をすべきかを指示するプロセスを書く→コンピュータはこのプロセスに従って結果を得る

②統計:アナリストは変数間の関係を比較する

③機械学習:データサイエンティストはトレーニングデータセットを使用してコンピューターに何をすべきかを教え、その後システムがタスクを実行します。まずビッグデータがあります → マシンはトレーニングデータセットを使用して分類を学習し、特定のアルゴリズムを調整して目標分類を達成します → コンピューターはデータ内の関係性、傾向、パターンを識別することを学習できます

④ 知能化応用:知能化応用に人工知能を活用して得られた成果。下図はドローンで収集したデータを基にした精密農業応用の例です。

5. 機械学習の実用的応用

機械学習にはさまざまな応用シナリオがあります。ここにいくつか例を挙げます。どのように活用しますか?

  • 迅速な 3D マッピングとモデリング: 鉄道橋を建設するために、PwC のデータ サイエンティストとドメイン エキスパートは、ドローンで収集したデータに機械学習を適用しました。この組み合わせにより、作業の成功に関する正確な監視と迅速なフィードバックが可能になります。
  • リスクを軽減するための分析の強化: インサイダー取引を検出するために、PwC は機械学習とその他の分析手法を組み合わせて、より包括的なユーザー プロファイルを作成し、複雑で疑わしい行動をより深く理解しました。
  • 最高の成績を収めるターゲットの予測: PwC は機械学習やその他の分析手法を使用して、メルボルン カップに出場するさまざまな馬の潜在能力を評価しました。

2. 機械学習の進化

何十年もの間、人工知能研究者のさまざまな「部族」が優位を競い合ってきました。これらの部族が団結する時が来たのでしょうか?真の汎用人工知能 (AGI) を実現するには、コラボレーションとアルゴリズムの収束が唯一の方法であるため、そうする必要があるかもしれません。ここでは、機械学習の方法がどのように進化してきたか、そして将来はどうなるかについて説明します。

1. 5大学校

①記号化:記号、ルール、ロジックを使用して知識を表現し、論理的推論を実行します。人気のあるアルゴリズムは、ルールと決定木です。

② ベイズ法:確率的推論のために発生の可能性を求める。推奨されるアルゴリズムは、ナイーブベイズ法またはマルコフ法である。

③コネクショニズム:確率行列と重み付きニューロンを使用して、パターンを動的に識別して要約します。お気に入りのアルゴリズムは、ニューラルネットワークです。

④ 進化論: 変化を生成し、特定の目標に最適なものを取得します。 推奨されるアルゴリズムは遺伝的アルゴリズムです。

⑤アナライザー: 制約に従って関数を最適化します(できるだけ高くしますが、同時に道を外れないようにします)。お気に入りのアルゴリズムは、サポートベクターマシンです。

2. 進化の段階

1980年代

  • 主なジャンル: 象徴主義
  • アーキテクチャ: サーバーまたはメインフレーム
  • 主要理論: 知識工学
  • 基本的な意思決定ロジック: 意思決定支援システム、実用性は限られている

1990年代から2000年代

  • 主流派: ベイズ派
  • アーキテクチャ: 小規模サーバー クラスター
  • 支配的な理論: 確率論
  • 分類: スケーラブルな比較または対比、多くのタスクに十分対応可能

2010年代前半から中頃

  • 主流派: コネクショニズム
  • アーキテクチャ: 大規模サーバーファーム
  • 主導理論:神経科学と確率
  • 認識: より正確な画像および音声認識、翻訳、感情分析など。

3. これらの学校は協力し、それぞれのアプローチを融合することが期待されている

2010年代後半

  • 主なジャンル: コネクショニズム + 象徴主義
  • アーキテクチャ: 多数のクラウド
  • 主要理論: 記憶ニューラルネットワーク、大規模統合、知識ベース推論
  • シンプルなQ&A: 限定されたドメイン固有の知識の共有

2020年代以降

  • 主な学派: コネクショニズム + 象徴主義 + ベイズ主義 +…
  • アーキテクチャ: クラウド コンピューティングとフォグ コンピューティング
  • 支配的な理論: 知覚のためのネットワーク、推論と作業のルール
  • 単純な認識、推論、行動:限定的な自動化または人間とコンピュータの相互作用

2040年代以降

  • 主なジャンル: アルゴリズム融合
  • アーキテクチャ: あらゆる場所にサーバー
  • ドミナント理論:最適な組み合わせのメタ学習
  • 感知して反応する:さまざまな学習方法を通じて得た知識や経験に基づいて行動を起こしたり反応したりする

3. 機械学習アルゴリズム

どの機械学習アルゴリズムを使用すべきでしょうか?これは、利用可能なデータの性質と量、および特定のユースケースごとのトレーニング目標によって大きく異なります。結果が高価なオーバーヘッドとリソースに見合うものでない限り、最も複雑なアルゴリズムを使用しないでください。ここでは、使いやすさ順に並べた、最も一般的なアルゴリズムをいくつか紹介します。

1. 決定木: 典型的な決定木分析では、段階的な回答プロセスで階層変数または決定ノードを使用して、たとえば、特定のユーザーを信頼できるか信頼できないかに分類します。

  • 強み: 人、場所、物事のさまざまな特徴、性質、特性を評価するのが得意
  • シナリオ例: ルールベースの信用評価、競馬結果予測

2. サポート ベクター マシン: サポート ベクター マシンは、超平面に基づいてデータ グループを分類できます。

  • 利点: サポート ベクター マシンは、関係が線形であるかどうかに関係なく、変数 X と他の変数間のバイナリ分類操作を実行するのに適しています。
  • シナリオ例: ニュース分類、手書き認識。

3. 回帰: 回帰は、従属変数と 1 つ以上の従属変数間の状態関係を概説できます。この例では、スパムと非スパムが区別されます。

利点: 回帰は、関係があまり明白でない場合でも、変数間の連続的な関係を識別するために使用できます。

シナリオ例: 道路交通流分析、電子メールフィルタリング

4. ナイーブ ベイズ分類: ナイーブ ベイズ分類器は、起こり得る条件の分岐確率を計算するために使用されます。それぞれの個別の機能は「素朴」または条件付きで独立しているため、他のオブジェクトに影響を与えません。たとえば、黄色と赤色のボールが 5 個入った瓶の中で、黄色のボールが 2 個連続して出る確率はどれくらいでしょうか。図の上の枝からわかるように、前後に2つの黄色いボールをつかむ確率は1/10です。ナイーブ ベイズ分類器は、複数の特徴の結合条件付き確率を計算できます。

  • 利点: 小さなデータセット内の重要な特徴を持つ関連オブジェクトの場合、ナイーブベイズ法はそれらを迅速に分類できます。
  • シナリオ例: 感情分析、消費者分類

5. 隠れマルコフモデル: 明示的なマルコフ過程は完全に決定論的であり、特定の状態の後には別の状態が続くことがよくあります。信号機がその一例です。対照的に、隠れマルコフモデルは、可視データを分析することで隠れ状態の発生を計算します。その後、隠れ状態分析の助けを借りて、隠れマルコフモデルは将来の観測パターンの可能性を推定できます。この場合、高気圧または低気圧の確率(隠れた状態)を使用して、晴れ、雨、曇りの日の確率を予測できます。

  • 利点: データの変動性が可能で、認識および予測操作に適しています。
  • シナリオ例: 表情分析、天気予報

6. ランダム フォレスト: ランダム フォレスト アルゴリズムは、ランダムに選択されたデータ サブセットを持つ複数のツリーを使用することで、決定木の精度を向上させます。この症例では、乳がんの再発に関連する多数の遺伝子を遺伝子発現レベルで調べ、再発リスクを算出しました。

  • 利点: ランダム フォレストは、大規模なデータセットや、大規模で関連性のない機能を持つアイテムに有効であることが証明されています。
  • シナリオ例: ユーザー離脱分析、リスク評価

7. 再帰型ニューラル ネットワーク: どのニューラル ネットワークでも、各ニューロンは 1 つ以上の隠れ層を介して多数の入力を 1 つの出力に変換します。リカレントニューラルネットワーク(RNN)は、値を層ごとにさらに渡すため、層ごとの学習が可能になります。言い換えれば、RNN には、以前の出力が後の入力に影響を与えることを可能にする一種のメモリがあります。

  • 利点: RNNは大量の順序付けられた情報がある場合に予測力を発揮する
  • シナリオ例: 画像分類とキャプション、政治的感情分析

8. 長短期記憶 (LSTM) とゲート付き再帰型ニューラル ネットワーク: 初期の RNN は非可逆でした。これらの初期のリカレント ニューラル ネットワークでは、少量の初期情報しか保持できませんでしたが、最近の長短期記憶 (LSTM) およびゲート リカレント ユニット (GRU) ニューラル ネットワークでは、長期記憶と短期記憶の両方が保持されます。言い換えれば、これらの最近の RNN はメモリを制御する能力が優れており、以前の値を保持したり、一連の大きなステップで必要に応じてリセットしたりすることができます。これにより、「勾配減衰」、つまりレイヤーからレイヤーに渡される値の最終的な劣化を回避できます。 LSTM および GRU ネットワークを使用すると、必要に応じて値を渡したりリセットしたりできる「ゲート」と呼ばれるメモリ モジュールまたは構造を使用してメモリを制御できます。

  • 利点: LSTM および GRU ニューラル ネットワークには他の RNN と同じ利点がありますが、メモリ機能が優れているため、より一般的に使用されています。
  • シナリオ例: 自然言語処理、翻訳

9. 畳み込みニューラル ネットワーク: 畳み込みとは、後続の層からの重みを融合することを指し、出力層にラベルを付けるために使用されます。

  • 利点: 畳み込みニューラル ネットワークは、データセットが非常に大きく、特徴の数が多く、分類タスクが複雑な場合に非常に役立ちます。
  • シナリオ例: 画像認識、テキスト読み上げ、新薬発見

<<:  AIプロジェクトの失敗はもはや人材不足のせいにはされない

>>:  人工知能が再び警告を発する!研究者は懸念している:将来、研究者が全てを支配することになる

ブログ    
ブログ    

推薦する

2024年に最も使用される11のAIテキスト生成ツール

世界は、スーパーヒーローのマントを身につけていない強力な世界的勢力のような人工知能 (AI) が支配...

エントロピーを理解する: 機械学習のゴールドスタンダード

[[335033]]決定木からニューラルネットワークへTL;DR: エントロピーはシステム内の混沌の...

...

...

...

...

構造化データのためのテキスト生成技術の研究

1. テキスト生成入門まず、現段階で人気のテキスト生成について紹介します。 1.人工知能の発展段階人...

ソフトウェア定義車の基礎 - FOTA および SOTA ソリューション

OTAとは何ですか? OTA(Over-the-Air Technology)は中国語でエアダウンロ...

AI ライティングの限界はどこにあるのでしょうか?

[[248875]]画像出典: Visual China本質的に、この記事は AI ライティングを...

...

Cloudera Greater Chinaのテクニカルディレクター、Liu Lifang氏:より正確なAIにはより正確なデータが必要

アプリケーションの可観測性と AI の信頼、リスク、セキュリティ管理は、ガートナーが 2023 年に...

...

...

Baiduカスタマイズ画像オープンプラットフォームのトレーニングと評価

背景Baiduは昨年11月にカスタマイズされた画像トレーニングサービスを開始しました(https:/...