1 つの記事で機械学習を理解する: 基本概念、5 つの主要な流派、9 つの一般的なアルゴリズム

1. 機械学習の概要

1. 機械学習とは何ですか?

機械は大量のデータを分析して学習します。たとえば、猫や人間の顔を認識するようにプログラムするのではなく、画像を使用して特定の物体を一般化して認識するようにトレーニングすることができます。

2. 機械学習と人工知能の関係

機械学習は、データ内のパターンを見つけ、そのパターンを使用して予測を行うことに重点を置いた研究とアルゴリズムのクラスです。機械学習は人工知能の分野の一部であり、知識の発見とデータマイニングと関連しています。

3. 機械学習の仕組み

①データの選択：データをトレーニングデータ、検証データ、テストデータの3つのグループに分けます。

②モデルデータ:トレーニングデータを使用して、関連する特徴量を使用してモデルを構築します

③モデルの検証：検証データを使用してモデルにアクセスします

④モデルをテストする:テストデータを使用して検証済みモデルのパフォーマンスを確認します

⑤モデルを使用する：完全にトレーニングされたモデルを使用して新しいデータの予測を行う

⑥ モデルを調整する:より多くのデータ、異なる機能、または調整されたパラメータを使用して、アルゴリズムのパフォーマンスを向上させる

4. 機械学習の位置づけ

① 従来のプログラミング：ソフトウェアエンジニアは問題を解決するためにプログラムを作成します。まずデータがある→問題を解決するために、ソフトウェアエンジニアはマシンに何をすべきかを指示するプロセスを書く→コンピュータはこのプロセスに従って結果を得る

②統計：アナリストは変数間の関係を比較する

③機械学習：データサイエンティストはトレーニングデータセットを使用してコンピューターに何をすべきかを教え、その後システムがタスクを実行します。まずビッグデータがあります → マシンはトレーニングデータセットを使用して分類を学習し、特定のアルゴリズムを調整して目標分類を達成します → コンピューターはデータ内の関係性、傾向、パターンを識別することを学習できます

④ 知能化応用：知能化応用に人工知能を活用して得られた成果。下図はドローンで収集したデータを基にした精密農業応用の例です。

5. 機械学習の実用的応用

機械学習にはさまざまな応用シナリオがあります。ここにいくつか例を挙げます。どのように活用しますか?

迅速な 3D マッピングとモデリング: 鉄道橋を建設するために、PwC のデータサイエンティストとドメインエキスパートは、ドローンで収集したデータに機械学習を適用しました。この組み合わせにより、作業の成功に関する正確な監視と迅速なフィードバックが可能になります。
リスクを軽減するための分析の強化: インサイダー取引を検出するために、PwC は機械学習とその他の分析手法を組み合わせて、より包括的なユーザープロファイルを作成し、複雑で疑わしい行動をより深く理解しました。
最高の成績を収めるターゲットの予測: PwC は機械学習やその他の分析手法を使用して、メルボルンカップに出場するさまざまな馬の潜在能力を評価しました。

2. 機械学習の進化

数十年にわたり、人工知能研究者のさまざまな「部族」が優位を競い合ってきました。Machine Heart の記事「ワシントン大学教授 Pedro Domingos: 機械学習分野の 5 つの主要学派 (スピーチ PPT 添付)」をご覧ください。これらの部族が団結する時が来たのでしょうか?真の汎用人工知能 (AGI) を実現するには、コラボレーションとアルゴリズムの収束が唯一の方法であるため、そうする必要があるかもしれません。ここでは、機械学習の方法がどのように進化してきたか、そして将来はどうなるかについて説明します。

1. 5大学校

①記号化：記号、ルール、ロジックを使用して知識を表現し、論理的推論を実行します。人気のあるアルゴリズムは、ルールと決定木です。

② ベイズ法：確率的推論のために発生の可能性を求める。推奨されるアルゴリズムは、ナイーブベイズ法またはマルコフ法である。

③コネクショニズム：確率行列と重み付きニューロンを使用して、パターンを動的に識別して要約します。お気に入りのアルゴリズムは、ニューラルネットワークです。

④ 進化論:変化を生成し、特定の目標に最適なものを取得します。推奨されるアルゴリズムは遺伝的アルゴリズムです。

⑤アナライザー:制約に従って関数を最適化します（できるだけ高くしますが、同時に道を外れないようにします）。お気に入りのアルゴリズムは、サポートベクターマシンです。

2. 進化の段階

1980年代

主なジャンル: 象徴主義
アーキテクチャ: サーバーまたはメインフレーム
主要理論: 知識工学
基本的な意思決定ロジック: 意思決定支援システム、実用性は限られている

1990年代から2000年代

主流派: ベイズ派
アーキテクチャ: 小規模サーバークラスター
支配的な理論: 確率論
分類: スケーラブルな比較または対比、多くのタスクに十分対応可能

2010年代前半から中頃

主流派: コネクショニズム
アーキテクチャ: 大規模サーバーファーム
主導理論：神経科学と確率
認識: より正確な画像および音声認識、翻訳、感情分析など。

3. これらの学校は協力し、それぞれのアプローチを融合することが期待されている

2010年代後半

主なジャンル: コネクショニズム + 象徴主義
アーキテクチャ: 多数のクラウド
主要理論: 記憶ニューラルネットワーク、大規模統合、知識ベース推論
シンプルなQ&A: 限定されたドメイン固有の知識の共有

2020年代以降

主な学派: コネクショニズム + 象徴主義 + ベイズ主義 +…
アーキテクチャ: クラウドコンピューティングとフォグコンピューティング
支配的な理論: 知覚のためのネットワーク、推論と作業のルール
単純な認識、推論、行動：限定的な自動化または人間とコンピュータの相互作用

2040年代以降

主なジャンル: アルゴリズム融合
アーキテクチャ: あらゆる場所にサーバー
ドミナント理論：最適な組み合わせのメタ学習
感知して反応する：さまざまな学習方法を通じて得た知識や経験に基づいて行動を起こしたり反応したりする

3. 機械学習アルゴリズム

どの機械学習アルゴリズムを使用すべきでしょうか?これは、利用可能なデータの性質と量、および特定のユースケースごとのトレーニング目標によって大きく異なります。結果が高価なオーバーヘッドとリソースに見合うものでない限り、最も複雑なアルゴリズムを使用しないでください。ここでは、使いやすさ順に並べた、最も一般的なアルゴリズムをいくつか紹介します。詳細については、マシンインテリジェンスに関する記事「機械学習アルゴリズムのコレクション: ベイズからディープラーニングまで、およびその長所と短所」および「経験: 機械学習の問題に適したアルゴリズムを選択するには?」を参照してください。》

1. 決定木

一般的な決定木分析では、たとえば、特定のユーザーを信頼できるか信頼できないか分類するために、段階的な応答プロセスで階層変数または決定ノードを使用します。

強み: 人、場所、物事のさまざまな特徴、性質、特性を評価するのが得意
シナリオ例: ルールベースの信用評価、競馬結果予測

2. サポートベクターマシン

サポートベクターマシンは、超平面に基づいてデータグループを分類できます。

利点: サポートベクターマシンは、関係が線形であるかどうかに関係なく、変数 X と他の変数間のバイナリ分類操作を実行するのに適しています。
シナリオ例: ニュース分類、手書き認識。

3. 回帰

回帰では、従属変数と 1 つ以上の従属変数間の状態関係を概説できます。この例では、スパムと非スパムが区別されます。

利点: 回帰は、関係があまり明白でない場合でも、変数間の連続的な関係を識別するために使用できます。
シナリオ例: 道路交通流分析、電子メールフィルタリング

4. ナイーブベイズ分類

ナイーブベイズ分類器は、起こりうる条件の分岐確率を計算するために使用されます。それぞれの個別の機能は「素朴」または条件付きで独立しているため、他のオブジェクトに影響を与えません。たとえば、黄色と赤色のボールが 5 個入った瓶の中で、黄色のボールが 2 個連続して出る確率はどれくらいでしょうか。図の上の枝からわかるように、前後に2つの黄色いボールをつかむ確率は1/10です。ナイーブベイズ分類器は、複数の特徴の結合条件付き確率を計算できます。

利点: 小さなデータセット内の重要な特徴を持つ関連オブジェクトの場合、ナイーブベイズ法はそれらを迅速に分類できます。
シナリオ例: 感情分析、消費者分類

5. 隠れマルコフモデル

明示的なマルコフ過程は完全に決定論的であり、特定の状態の後に別の状態が続くことがよくあります。信号機がその一例です。対照的に、隠れマルコフモデルは、可視データを分析することで隠れ状態の発生を計算します。その後、隠れ状態分析の助けを借りて、隠れマルコフモデルは将来の観測パターンの可能性を推定できます。この場合、高気圧または低気圧の確率（隠れた状態）を使用して、晴れ、雨、曇りの日の確率を予測できます。

利点: データの変動性が可能で、認識および予測操作に適しています。
シナリオ例: 表情分析、天気予報

6. ランダムフォレスト

ランダムフォレストアルゴリズムは、ランダムに選択されたデータのサブセットを含む複数のツリーを使用することで、決定木の精度を向上させます。この症例では、乳がんの再発に関連する多数の遺伝子を遺伝子発現レベルで調べ、再発リスクを算出しました。

利点: ランダムフォレストは、大規模なデータセットや、大規模で関連性のない機能を持つアイテムに有効であることが証明されています。
シナリオ例: ユーザー離脱分析、リスク評価

7. リカレントニューラルネットワーク

どのニューラルネットワークでも、各ニューロンは 1 つ以上の隠し層を介して多数の入力を 1 つの出力に変換します。リカレントニューラルネットワーク（RNN）は、値を層ごとにさらに渡すため、層ごとの学習が可能になります。言い換えれば、RNN には、以前の出力が後の入力に影響を与えることを可能にする一種のメモリがあります。

利点: RNNは大量の順序付けられた情報がある場合に予測力を発揮する
シナリオ例: 画像分類とキャプション、政治的感情分析

8. 長期短期記憶（LSTM）

ゲート付き再帰型ユニットニューラルネットワーク: RNN の初期の形式は非可逆でした。これらの初期のリカレントニューラルネットワークでは、少量の初期情報しか保持できませんでしたが、最近の長短期記憶 (LSTM) およびゲートリカレントユニット (GRU) ニューラルネットワークでは、長期記憶と短期記憶の両方が保持されます。

言い換えれば、これらの最近の RNN はメモリを制御する能力が優れており、以前の値を保持したり、一連の大きなステップで必要に応じてリセットしたりすることができます。これにより、「勾配減衰」、つまりレイヤーからレイヤーに渡される値の最終的な劣化を回避できます。 LSTM および GRU ネットワークを使用すると、必要に応じて値を渡したりリセットしたりできる「ゲート」と呼ばれるメモリモジュールまたは構造を使用してメモリを制御できます。

利点: LSTM および GRU ニューラルネットワークには他の RNN と同じ利点がありますが、メモリ機能が優れているため、より一般的に使用されています。
シナリオ例: 自然言語処理、翻訳