これらの10の機械学習手法をマスターすれば、あなたはサークルで最も人気のある人になるでしょう

科学研究でも産業界でも、機械学習はホットな話題であり、新しい機械学習手法が次々と登場しています。機械学習は急速に進化しており、複雑です。初心者がその発展に追いつくのは間違いなく困難であり、専門家にとっても簡単ではありません。

[[268023]]

画像はUnsplashより、写真はchuttersnapによるもの

機械学習の神秘性を解き明かし、初心者がこの分野の中核となる概念を学習できるようにするために、この記事では、簡単な説明と視覚化を含む 10 種類の異なる機械学習手法を紹介し、例を挙げて説明します。

機械学習アルゴリズム (モデル) は、問題 (通常はビジネス上の問題) に含まれるデータ情報を表す数式です。アルゴリズムは、データを分析して有用な情報を取得するように設計されています。たとえば、オンライン小売業者が次の四半期の売上を予測したい場合、機械学習アルゴリズムを使用して、過去の売上やその他の関連データに基づいて予測を行う場合があります。同様に、風車メーカーは、機器の亀裂を識別するようにトレーニングできるアルゴリズムにビデオデータを供給することで、重要な機器を監視することができます。

この記事で紹介した 10 種類の機械学習手法は、機械学習の全体的な理解を深め、関連する知識とスキルの基礎を築くのに役立ちます。

戻る
分類
クラスタリング
次元削減
アンサンブル法
ニューラルネットワークとディープラーニング
転移学習
強化学習
自然言語処理
単語埋め込み

最後に、これらの方法を紹介する前に、まず機械学習の 2 つのカテゴリ、教師あり学習と教師なし学習を区別しましょう。

教師あり学習は、既存のデータに基づいて予測や説明を行うために、つまり、以前の入力と出力のデータを使用して新しいデータに基づいて出力を予測するために使用されます。たとえば、教師あり機械学習技術を使用すると、サービス会社が翌月にサービスに加入する新規ユーザーの数を予測するのに役立ちます。

対照的に、教師なし機械学習は、ターゲット変数を使用せずにデータポイントを関連付け、グループ化して予測を行うことです。つまり、特性に基づいてデータを評価し、その特性に基づいて類似のデータをクラスター化します。たとえば、教師なし学習技術を使用すると、小売業者は事前に特性を指定しなくても、類似した特性を持つ製品を分類できるようになります。

1. 回帰

回帰は、過去のデータに基づいて特定の値を予測または説明する教師あり機械学習手法です。たとえば、不動産の価値を知りたい場合は、類似の不動産の価格に基づいて予測を行うことができます。

線形回帰は最も単純な回帰法であり、直線の方程式 (y = m * x + b) を使用してデータセットを適合させます。多くのデータペア (x、y) を持つ線形回帰モデルは、すべてのデータポイントからその直線までの距離の合計が最小になる直線の位置と傾きを計算することによって得られます。つまり、データ内の観測値に最もよく適合する直線の傾き（m）とy切片（b）を計算します。

具体的な線形回帰の例をいくつか見てみましょう。建物の築年数、階数、面積、壁に接続されている機器の数に関するデータを組み合わせ、線形回帰法を使用して建物のエネルギー消費量 (キロワット時単位) を予測しました。入力値が複数あるため（年齢、地域など）、多変量線形回帰法を選択できます。原理は単純な単変量線形回帰と同じですが、この場合、変数が複数あるため、作成される最終的な「線」は多次元になります。

下の図は、線形回帰モデルが建物の実際のエネルギー消費にどの程度適合しているかを示しています。建物の特性（築年数、面積など）はわかっているが、エネルギー消費量が不明な場合は、近似直線を使用して推定することができます。

線形回帰は、各要因が最終エネルギー消費に与える影響を推定するためにも使用できることに注意してください。たとえば、数式を使用すると、建物の築年数、大きさ、高さのどれが最も重要な要素であるかを判断できます。

建物のエネルギー消費量をキロワット時で推定するために使用される線形回帰モデル

回帰分析には、単純な回帰分析（線形回帰）と複雑な回帰分析（正規化線形回帰、多項式回帰、決定木とランダムフォレスト回帰、ニューラルネットワークなど）があります。混乱する必要はありません。単純な線形回帰から始めて、分析手法を習得し、その後、より複雑なタイプに移行することができます。

2. 分類

分類は、クラス値について予測または説明を行う別の教師あり機械学習手法です。たとえば、分類方法を使用すると、オンライン顧客が特定の製品を購入するかどうかを予測できます。出力は、はいまたはいいえ、つまり購入者か非購入者かに分類できます。しかし、分類は 2 つのオプションに限定されません。たとえば、分類を使用すると、画像に車やトラックが含まれているかどうかを確認できます。この場合、出力には 3 つの異なる値があります: 1) 画像に車が含まれている、2) 画像にトラックが含まれている、3) 画像に車もトラックも含まれていない。

ロジスティック回帰は、最も単純なタイプの分類アルゴリズムです。回帰法と非常によく似ていますが、異なります。ロジスティック回帰は、1 つ以上の入力に基づいてイベントが発生する確率を推定するアルゴリズムです。

たとえば、ロジスティック回帰では、2 つのテストのスコアに基づいて、学生が特定の大学に入学する確率を推定できます。推定値は確率であるため、出力は 0 から 1 の間の数値のみになります。1 は完全な確実性を意味します。この学生の場合、推定確率が 0.5 より大きい場合、予測結果は「彼（彼女）は入学できる」となります。推定確率が 0.5 より小さい場合、予測結果は「彼（彼女）は入学できない」となります。

下のグラフは、過去の学生の成績と最終的な入学結果を示しています。ロジスティック回帰を使用して、決定境界を表す線が描画されます。

ロジスティック回帰決定境界: 彼らは大学に入学できるでしょうか?

ロジスティック回帰は線形モデルなので、分類方法を学習する初心者に適しています。進歩を続けると、決定木、ランダムフォレスト、サポートベクターマシン、ニューラルネットワークなどの非線形分類器をさらに深く掘り下げることができます。

3. クラスタリング

クラスタリング手法の目的は、類似した特性を持つ観測をグループ化またはクラスタ化することです。これは、教師なしの機械学習手法です。クラスタリング手法は出力情報でトレーニングされるのではなく、アルゴリズムによって出力が定義されます。このアプローチでは、視覚化のみを使用してソリューションの品質を検証できます。

最も一般的なクラスタリング手法は K 平均法クラスタリングです。ここで、「K」はユーザーが作成することを選択したクラスタの数を表します。 (K の値を選択するには、エルボールールなどさまざまな手法があることに注意してください。)

一般的に、データポイントの K 平均法クラスタリングの手順は次のとおりです。

データ内の K 個の中心をランダムに選択します。
各データポイントを、ランダムに作成された最も近い中心に割り当てます。
各クラスターの中心を再計算します。
中心が変化しない場合（またはほとんど変化しない場合）、プロセスは終了します。それ以外の場合は、手順 2 に戻ります。（中心が変化し続ける場合は、無限ループが発生しないように、事前に最大反復回数を設定することが重要です。）

下の図は、建物データセットに K-means クラスタリングを適用しています。グラフの各列は各建物の効率を示しています。測定対象となる 4 つの量には、エアコン、プラグイン機器 (電子レンジ、冷蔵庫など)、家庭用ガス、可燃性ガスが含まれます。クラスタリングには K 値 2 が選択されました。これにより、クラスタの 1 つを効率的な建物のグループとして、もう 1 つを非効率的な建物のグループとして簡単に解釈できるようになります。左側には建物の場所が表示され、右側にはプラグイン機器と可燃性ガスの 2 つの入力値が表示されます。

建物を効率的な建物（緑）と非効率的な建物（赤）にクラスタリングする

クラスタリング手法には、ノイズ付き密度ベースクラスタリング (DBSCAN)、平均シフトクラスタリング、集約階層クラスタリング、ガウス混合モデルに基づく期待値最大化クラスタリングなど、非常に便利なアルゴリズムがいくつか含まれています。

4. 次元削減

名前が示すように、次元削減はデータセット内の最も重要でないデータを削除するために使用できます。実際には、数百または数千の列 (機能とも呼ばれる) を含むデータセットに遭遇することはよくあるため、合計量を削減することが重要です。たとえば、画像内の数千のピクセルすべてを分析する必要はありません。また、製造プロセス中にマイクロチップをテストする場合、すべてのチップをテストすると、何千ものテストが必要になることがありますが、実際には、多くのチップによって提供される情報は冗長です。このような場合、データセットを管理可能にするために次元削減アルゴリズムが必要になります。

主成分分析 (PCA) は最も一般的に使用される次元削減方法であり、データの線形変化を最大化する新しいベクトルを見つけることで特徴空間の次元を削減します。データの線形相関が非常に強い場合、主成分分析により、多くの情報を失うことなくデータの次元を大幅に削減できます。 (実際には、実際の情報損失の程度を測定し、それに応じて調整することもできます。)

t-分散近傍埋め込み (t-SNE) は、非線形次元削減によく使用されるもう 1 つの方法です。 t 分布近傍埋め込みは、データの視覚化によく使用されますが、特徴空間の削減やクラスタリングなどの機械学習タスクにも使用できます。

下の図は、手書き数字の MNIST データベースの分析を示しています。 MNIST には 0 から 9 までの数字の画像が何千枚も含まれており、研究者はこれを使用してクラスタリングおよび分類アルゴリズムをテストします。データセットの各行は、元の画像（サイズ 28×28 = 784）と各画像のラベル（0、1、2、3、…、9）のベクトル化されたバージョンです。これにより次元が 784 (ピクセル) から 2 (視覚化次元) に減少することに注意してください。 2 次元への投影により、高次元の元のデータセットを視覚化できます。

手書き数字のMNISTデータベースの反復t分布近傍埋め込み

5. アンサンブル法

市販の自転車に満足できず、自分で自転車を組み立てることにしたとします。まずは最適な部品を探し、最終的に最適な自転車を組み立てることになります。

アンサンブル法でもこの原理を利用して、複数の予測モデル (教師あり機械学習法) を組み合わせて、単一のモデルで得られるものよりも高品質の予測結果を取得します。ランダムフォレストアルゴリズムは、さまざまなデータセットのサンプルを使用してトレーニングされた多数の決定木を組み合わせたアンサンブルメソッドです。したがって、ランダムフォレストの予測品質は、単一の決定木よりも高くなります。

アンサンブル法は、単一の機械学習モデルの分散とバイアスを減らす方法として理解できます。特定のモデルは、ある条件下では正確であっても、他の条件下では不正確である可能性があるため、このアプローチは重要です。別のモデルを使用すると、相対的な精度が低くなる可能性があります。これら 2 つのモデルを組み合わせることで、予測の品質のバランスをとることができます。

Kaggle コンペティションの優勝者の大多数はアンサンブル手法を使用しています。最も人気のあるアンサンブルアルゴリズムは、ランダムフォレスト、XGBoost、LightGBM です。

6. ニューラルネットワークとディープラーニング

線形回帰やロジスティック回帰などの線形モデルとは対照的に、ニューラルネットワークの目的は、モデルにパラメーターのレイヤーを追加することで、データ内の非線形パターンをキャプチャすることです。下の図では、単純なニューラルネットワークに 4 つの入力、5 つのパラメータを持つ 1 つの隠し層、および 1 つの出力層があります。

1つの隠れ層を持つニューラルネットワーク

実際、ニューラルネットワークの構造は非常に柔軟であり、私たちがよく知っている線形回帰やロジスティック回帰を構築できます。ディープラーニングという用語は、複数の隠れ層を持つニューラルネットワーク (下の図を参照) に由来し、さまざまなアーキテクチャを一般化したものです。

ディープラーニングの発展のペースについていくのは特に困難です。その理由の 1 つは、研究と産業界の両方でディープラーニングの研究に多大な努力が注がれており、新しい手法が絶えず登場しているためです。

ディープラーニング: 複数の隠れ層を持つニューラルネットワーク

ディープラーニング技術を最適に機能させるには、大量のデータが必要であり、また、大規模なアーキテクチャ内で多数のパラメータを自動調整するため、かなりの計算能力も必要になります。これを踏まえると、ディープラーニングの専門家が強力なグラフィック処理装置 (GPU) を搭載したコンピューターを使用する理由を理解するのは難しくありません。

ディープラーニング技術は、視覚（画像分類）、テキスト、オーディオ、ビデオの分野で最も効果的に適用されてきました。最も一般的なディープラーニングパッケージは Tensorflow と PyTorch です。

7. 転移学習

あなたが小売業界のデータサイエンティストで、画像をシャツ、T シャツ、ポロシャツの 3 つのカテゴリに分類する高品質モデルのトレーニングに数か月を費やしたとします。新しいタスクは、衣服の画像をジーンズ、オーバーオール、カジュアルパンツ、ドレスパンツのカテゴリに分類する同様のモデルを構築することです。では、最初のモデルで確立された知識を 2 番目のモデルに転送することは可能でしょうか? もちろん、転移学習では可能です。

転移学習とは、以前にトレーニングされたニューラルネットワークの一部を再利用し、同様の新しいタスクに適応させることを指します。具体的には、以前のタスクでトレーニングされたニューラルネットワークを使用して、トレーニング済みのレイヤーの一部を転送し、新しいタスクのデータでトレーニングされたいくつかのレイヤーと組み合わせることができます。レイヤーを追加することで、新しいニューラルネットワークは新しいタスクを迅速に学習して適応できるようになります。

転移学習の主な利点は、ニューラルネットワークのトレーニングに必要なデータが少なくなることです。これは、ディープラーニングアルゴリズムのトレーニングには時間がかかり、コストもかかる (計算リソースの観点から) ため、特に重要です。さらに、トレーニングに十分なラベル付きデータを見つけるのが難しい場合がよくあります。

上記の例に戻りましょう。シャツモデルに 20 個の隠れ層を持つニューラルネットワークを使用したとします。何度か試行した結果、シャツモデルレイヤーのうち 18 個を移行し、パンツ画像のトレーニングに使用する新しいパラメーターレイヤーと組み合わせることができることがわかりました。この時点で、パンツモデルには 19 個の隠し層が存在します。これら 2 つのタスクの入力と出力は異なりますが、生地、衣服の留め具、形状など、両方に関連する情報をまとめた一部のパラメーターレイヤーは再利用されます。

転移学習はますます普及してきており、画像やテキストの分類など、一般的なディープラーニングタスクを完了するために使用できる、固定された事前トレーニング済みモデルが数多く存在します。

8. 強化学習

迷路の中にネズミがいて、どこかに隠されたチーズを探しているところを想像してください。ネズミが迷路に入る回数が増えるほど、チーズを見つける可能性が高くなります。最初はマウスはランダムに動き回りますが、しばらくするとチーズを見つけるためにどの方向に動けばよいかを学習します。

マウスがチーズを見つけるプロセスは、強化学習を使用してシステムまたはゲームをトレーニングする方法を反映しています。一般的に言えば、強化学習はエージェントが経験から学習するのを助ける機械学習手法です。強化学習は、設定された環境での行動を記録し、試行錯誤を行うことで累積報酬を最大化します。上記の例では、エージェントはマウスであり、環境は迷路です。マウスが実行できるアクションは、前進、後退、左または右への移動で、報酬はチーズです。

問題に関する履歴データがほとんどまたはまったくない場合は、従来の機械学習方法とは異なり事前の情報が必要ないため、強化学習方法を選択できます。強化学習フレームワークでは、データを学びながら進めていきます。したがって、強化学習がゲーム、特にチェスや囲碁などの「完全情報」ゲームで成功していることは驚くべきことではありません。プレイ中は、エージェントと環境からのフィードバックに基づいて迅速に調整できるため、モデルは迅速に学習できます。強化学習の欠点は、問題が複雑な場合、トレーニング時間が非常に長くなる可能性があることです。

IBM の Deep Blue は 1997 年に人間の最強チェスプレイヤーを破り、同様に、ディープラーニングベースのアルゴリズム AlphaGo は 2016 年に人間の最強囲碁プレイヤーを破りました。現在、英国のテクノロジー企業 DeepMind はディープラーニング研究のリーダーです。

2019年4月、OpenAI FiveチームはeスポーツDota 2の世界チャンピオンチームを破り、この偉業を達成した初の人工知能チームとなった。 Dota 2 は非常に複雑なビデオゲームであり、当時このゲームで勝てる強化学習アルゴリズムがなかったため、OpenAI Five チームはこれを選択しました。 Dota 2で人間のチャンピオンチームに勝利したAIチームは、ブロックを再配置する（そして物をつかむ）ことができるロボットハンドも開発しました。

強化学習は人工知能の非常に強力な形態であると言え、今後もさらに大きな進歩が確実になされるでしょうが、これらの方法にも限界があることも忘れてはなりません。

9. 自然言語処理

世界のデータと知識の大部分は、人間の言語の形で存在しています。数千冊の本、記事、ブログを数秒で読んで理解できると想像できますか? もちろん、コンピューターはまだ人間の言語を完全に理解することはできませんが、特定のタスクを実行するようにトレーニングすることは可能です。たとえば、携帯電話はテキストメッセージに自動的に返信したり、スペルミスを修正したりするようにトレーニングできます。また、機械に人と簡単な会話をするように教えることもできます。

自然言語処理（NLP）は、それ自体は機械学習の方法ではなく、機械学習用のテキストを準備する技術であり、その応用範囲は非常に広いです。想像してみてください。さまざまな形式 (単語、オンラインブログなど) のテキストドキュメントが多数あり、スペルの誤り、文字の欠落、余分な単語が満載です。現在、スタンフォード大学の研究者によって作成された NLTK (Natural Language Toolkit) が最も広く使用されているテキスト処理パッケージです。

テキストを数値表現にマッピングする最も簡単な方法は、各テキストドキュメント内の各単語の頻度をカウントすることです。整数行列では、各行はテキストドキュメントを表し、各列は単語を表します。このような単語頻度マトリックスは、用語頻度マトリックス (TFM) と呼ばれることがよくあります。これに基づいて、マトリックス内の各エントリを、ドキュメントセット全体の各単語の重要度の重みで割って、テキストドキュメントの別の一般的なマトリックス表現を取得できます。このアプローチは、Term Frequency Inverse Document Frequency (TFIDF) と呼ばれ、多くの場合、機械学習タスクに適しています。

10. 単語の埋め込み

TFM と TFIDF はテキストドキュメントの数値表現であり、頻度と加重頻度のみに基づいてテキストドキュメントを表します。対照的に、単語の埋め込みは文書内の単語のコンテキストをキャプチャします。埋め込みは、単語のコンテキストに基づいて単語間の類似性を定量化し、単語に対する算術演算を容易にします。

Word2Vec は、コーパス内の単語を数値ベクトルにマッピングするニューラルネットワークベースの方法です。これらのベクトルは、同義語の検索、単語の算術演算の実行、またはテキストドキュメントの表現 (ドキュメント内のすべての単語ベクトルの平均を取る) に使用できます。たとえば、単語の埋め込みを推定するための大きなテキストドキュメントがあり、そのコーパスに「king」、「queen」、「man」、「woman」という単語が含まれているとします。vector('word') は、単語「word」を表す数値ベクトルです。ベクトル（「女性」）を推定するには、ベクトルを使用して算術演算を実行します。

ベクトル('王')+ベクトル('女性')-ベクトル('男性')~ベクトル('女王')

単語（ベクトル）埋め込みの数値演算

単語表現を使用すると、2 つの単語のベクトル表現間のコサイン類似度を計算することで、単語間の類似度を見つけることができます。コサイン類似度は、2 つのベクトル間の角度を測定します。

機械学習手法を使用して単語の埋め込みを計算できますが、これは多くの場合、機械学習アルゴリズムを適用するための前提条件となるステップです。たとえば、何千人もの Twitter ユーザーのツイートにアクセスでき、そのうちのどのユーザーが家を購入したかがわかっているとします。新規ユーザーが住宅を購入する確率を予測するには、Word2Vec をロジスティック回帰と組み合わせることができます。

単語埋め込みをトレーニングすることも、事前にトレーニングされた（転移学習）単語ベクトルのセットを使用することもできます。 157 種類の言語の事前トレーニング済み単語ベクトルをダウンロードするには、FastText を参照してください。

<<: Adobe、フォトショップで加工された人間の顔を自動検出できるAIツールを開発

>>: 顔認識を禁止した後、サンフランシスコは検察官の事件処理を支援するためにAIを活用