機械学習とディープラーニングの違いは何ですか?

機械学習とディープラーニングのアルゴリズムフロー

ついに人工知能研究僧に入学しました。機械学習とディープラーニングの違いがわかりません。何でもディープラーニングのような気がします。
先輩が10ヶ月間パラメータを調整し、2000億のパラメータを持つT9 Kaitian Piliモデルをリリースする準備をしていると聞きました。パラメータを調整してT10をリリースし、ベストペーパーを獲得したいです。

昨今、従来の機械学習に関連する研究論文の割合は、実のところそれほど高くありません。ディープラーニングは数学的な内容のない単なるシステムエンジニアリングプロジェクトに過ぎないと不満を言う人もいます。

しかし、ディープラーニングが非常に使いやすいことは否定できません。従来の機械学習のアルゴリズム分析と学習プロセス全体を大幅に簡素化しました。さらに重要なのは、従来の機械学習アルゴリズムでは一部の一般的なフィールドタスクで達成できなかった精度と正確さを一新したことです。

ディープラーニングは、5年前のビッグデータと同様に、近年非常に人気があります。ただし、ディープラーニングは主に機械学習の分野に属するため、この記事では、機械学習とディープラーニングのアルゴリズムプロセスの違いについて説明します。

1. 機械学習のアルゴリズムフロー

実際、機械学習はデータサイエンスの研究です（少し退屈に聞こえます）。機械学習アルゴリズムの主なプロセスは次のとおりです。

データセットの準備
データの探索的分析
データ前処理
データのセグメンテーション
機械学習アルゴリズムモデリング
機械学習タスクの選択
最後に、機械学習アルゴリズムが実際のデータにどの程度適用されているかを評価します。

1.1 データセット

最初に検討する必要があるのはデータの問題です。データセットは機械学習モデルを構築するための出発点です。簡単に言えば、データセットは基本的に M×N 行列であり、M は列 (特徴) を表し、N は行 (サンプル) を表します。

列は X と Y に分解できます。X は特徴、独立変数、または入力変数を参照できます。 Y は、カテゴリラベル、従属変数、出力変数を参照することもできます。

1.2 データ分析

データの予備的な理解を得るために、探索的データ分析 (EDA) が実行されます。 EDA の主なタスクは、データのクリーニング、データの記述 (統計、グラフの記述)、データの分布の確認、データ間の関係の比較、データに関する直感の養成、データの要約などです。

簡単に言えば、探索的データ分析法とは、データを理解し、データを分析し、データの分布を把握することです。データの実際の分布に焦点を当て、データの視覚化を重視することで、アナリストはデータ内の暗黙のルールを一目で確認してインスピレーションを得ることができ、データに適したモデルを見つけるのに役立ちます。

典型的な機械学習アルゴリズムのプロセスとデータサイエンスプロジェクトでは、まず最初に「データを見て」データをより深く理解します。個人が一般的に使用する 3 つの主要な EDA 方法は次のとおりです。

記述統計

平均、中央値、最頻値、標準偏差。

データの視覚化

ヒートマップ（特徴の内部相関を識別する）、ボックスプロット（グループの違いを視覚化する）、散布図（特徴間の相関を視覚化する）、主成分分析（データセットに提示されたクラスター分布を視覚化する）など。

データ整形

ピボット、グループ化、フィルターなど。

1.3 データの前処理

データ前処理は、実際にはデータのクリーニング、データの整理、または一般的なデータ処理です。データに対して実行される、欠損値やスペルミスの修正、比較可能な値への正規化/標準化、データの変換（対数変換など）などのさまざまなチェックと修正プロセスを指します。

たとえば、画像を均一なサイズまたは解像度に変更します。

データの品質は、機械学習アルゴリズムモデルの品質に大きな影響を与えます。したがって、機械学習モデルの最高品質を実現するために、従来の機械学習アルゴリズムプロセスにおける作業の大部分は、実際にデータを分析して処理することです。

一般的に、機械学習プロジェクトではデータの前処理に時間の 80% が費やされる可能性がありますが、実際のモデル構築フェーズとその後のモデル分析には残りの 20% しかかからないと考えられます。

1.4 データのセグメンテーション

トレーニングセットとテストセット

機械学習モデルを開発する過程では、トレーニング済みのモデルが新しい未知のデータに対して優れたパフォーマンスを発揮することが求められます。新しい、目に見えないデータをシミュレートするために、利用可能なデータに対してデータセグメンテーションが実行され、処理されたデータセットがトレーニングセットとテストセットの 2 つの部分に分割されます。

最初の部分はデータのより大きなサブセットで、トレーニングセットとして使用されます (元のデータの 80% など)。2 番目の部分は通常、テストセットとして使用されるより小さなサブセットです (データの残りの 20%)。

次に、トレーニングセットを使用して予測モデルを構築し、このトレーニング済みモデルをテストセット (つまり、新しい、未知のデータ) に適用して予測を行います。テストセットでのモデルのパフォーマンスに基づいて最適なモデルが選択されます。最適なモデルを取得するために、ハイパーパラメータの最適化も実行できます。

トレーニングセット & 検証セット & テストセット

データを分割するもう 1 つの一般的な方法は、データを 3 つの部分に分割することです。

トレーニングセット
検証セット
テストセット

トレーニングセットは予測モデルの構築に使用され、検証セットは評価され、それに基づいて予測が行われます。モデルのチューニング (ハイパーパラメータの最適化など) を実行し、検証セットの結果に基づいて最もパフォーマンスの高いモデルを選択できます。

検証セットはトレーニングセットと同様の方法で操作されます。ただし、テストセットは機械学習モデルの確立と準備には関与しないことに注意してください。これは、機械学習モデルのトレーニングプロセス中に別途確保されるサンプルセットであり、モデルのハイパーパラメータを調整し、モデルの機能の予備評価を行うために使用されます。通常、検証はトレーニング中に実行されます。ここでの検証は、検証セットを使用してモデルの初期効果をテストすることです。

クロス検証

実際、機械学習プロセスではデータが最も価値があります。既存のデータをより経済的に使用するために、通常、N 分割クロス検証を使用してデータセットを N 個の部分に分割します。このような N 倍のデータセットでは、そのうちの 1 つがテストデータとして保持され、残りはモデルを構築するためのトレーニングデータとして使用されます。機械学習プロセスは、繰り返しのクロス反復を通じて検証されます。

このクロス検証法は機械学習プロセスでは広く使用されていますが、ディープラーニングではあまり使用されていません。

1.5 機械学習アルゴリズムモデリング

ここからが楽しい部分です。データのフィルタリングと処理のプロセスは実は非常に退屈です。ここで、慎重に準備されたデータを使用してモデルを構築できます。ターゲット変数 (多くの場合、Y 変数と呼ばれる) のデータ型に応じて、分類モデルまたは回帰モデルを構築できます。

機械学習アルゴリズム

機械学習アルゴリズムは、大きく分けて次の 3 つのタイプに分類できます。

教師あり学習

これは、入力 X 変数と出力 Y 変数間の数学的 (マッピング) 関係を確立する機械学習タスクです。このような (X, Y) ペアは、入力から出力を予測する方法を学習するためのモデルを構築するために使用されるラベル付きデータを構成します。

教師なし学習

入力 X 変数のみを使用する機械学習タスクです。 X 変数はラベルのないデータであり、学習アルゴリズムはモデリング時にデータの固有の構造を使用します。

強化学習

これは、次の行動方針を決定する機械学習タスクです。試行錯誤学習を通じてこの目標を達成し、報酬を最大化するよう努めます。

パラメータ調整

伝説のパラメータ調整器が主にこの作業を行います。ハイパーパラメータは本質的には機械学習アルゴリズムのパラメータであり、学習プロセスと予測パフォーマンスに直接影響します。すべてのデータセットに普遍的に適用できる万能のハイパーパラメータ設定は存在しないため、ハイパーパラメータの最適化が必要です。

ランダムフォレストを例に挙げてみましょう。 randomForest を使用する場合、通常、mtry パラメータと ntree パラメータを含む 2 つの一般的なハイパーパラメータが最適化されます。 mtry(maxfeatures) は、各分割で候補変数としてランダムにサンプリングされる変数の数を表し、ntree(nestimators) は成長するツリーの数を表します。

10 年前でもまだ主流だった別の機械学習アルゴリズムは、サポートベクターマシン (SVM) です。最適化する必要があるハイパーパラメータは、ラジアル基底関数 (RBF) カーネルの C パラメータとガンマパラメータです。 C パラメータは過剰適合を制限するためのペナルティ項であり、ガンマパラメータは RBF カーネルの幅を制御します。

チューニングは通常、より優れたハイパーパラメータ値のセットを取得するために行われます。多くの場合、ハイパーパラメータの最適値を見つけることを追求する必要はありません。実際、パラメータのチューニングは単なる冗談です。本当に必要なのは、アルゴリズムの原理を理解して習得し、データとモデルに適したパラメータを見つけることです。

機能選択

特徴選択とは、文字通り、初期の多数の特徴から特徴のサブセットを選択するプロセスを意味します。高精度のモデルを実現することに加え、機械学習モデル構築の最も重要な側面の 1 つは、実用的な洞察を得ることです。この目標を達成するには、多数の特徴から重要な特徴のサブセットを選択できることが重要です。

特徴選択のタスクはそれ自体が一つの研究領域を構成しており、新しいアルゴリズムや方法の設計に多大な努力が注がれてきました。利用可能な多数の特徴選択アルゴリズムのうち、いくつかの古典的な方法は、シミュレーテッドアニーリングと遺伝的アルゴリズムに基づいています。さらに、進化的アルゴリズム（粒子群最適化、蟻コロニー最適化など）や確率的手法（モンテカルロなど）に基づく手法も多数存在します。

1.6 機械学習タスク

教師あり学習では、分類と回帰という 2 つの一般的な機械学習タスクがあります。

分類

トレーニングされた分類モデルは、一連の変数を入力として受け取り、出力クラスラベルを予測します。次の図は、異なる色とラベルで表される 3 つのクラスを示しています。それぞれの小さな色付きの球はデータサンプルを表します。 3 つのクラスのデータサンプルを 2 次元で視覚化します。この視覚化は、PCA 分析を実行して最初の 2 つの主成分 (PC) を表示することによって作成できます。または、2 つの変数の単純な散布図視覚化を選択することもできます。

パフォーマンス指標

トレーニングされた機械学習モデルのパフォーマンスが良いか悪いかはどうやってわかるのでしょうか?つまり、パフォーマンス評価指標 (メトリック) を使用します。分類パフォーマンスを評価するための一般的な指標には、精度 (AC)、感度 (SN)、特異度 (SP)、マシュー相関係数 (MCC) などがあります。

戻る

最も単純な回帰モデルは、次の単純な式で要約できます: Y = f(X)。ここで、Y は定量的な出力変数に対応し、X は入力変数を参照し、f は入力特徴として出力値を計算するマッピング関数 (機械学習モデルから取得) を参照します。

上記の回帰例の式の本質は、X がわかっていれば、Y を導き出せるということです。 Y が計算（予測）されたら、それを視覚化する一般的な方法は、下の図に示すように、実際の値と予測値の単純な散布図を作成することです。

回帰モデルのパフォーマンスは、適合モデルが入力データ値をどの程度正確に予測できるかを評価するために評価されます。回帰モデルのパフォーマンスを評価するための一般的な指標は、決定係数 (R²) です。さらに、平均二乗誤差 (MSE) と平均二乗根誤差 (RMSE) も、残差または予測誤差を測定するためによく使用される指標です。