機械学習とディープラーニングのアルゴリズムフロー
昨今、従来の機械学習に関連する研究論文の割合は、実のところそれほど高くありません。ディープラーニングは数学的な内容のない単なるシステムエンジニアリングプロジェクトに過ぎないと不満を言う人もいます。 しかし、ディープラーニングが非常に使いやすいことは否定できません。従来の機械学習のアルゴリズム分析と学習プロセス全体を大幅に簡素化しました。さらに重要なのは、従来の機械学習アルゴリズムでは一部の一般的なフィールドタスクで達成できなかった精度と正確さを一新したことです。 ディープラーニングは、5年前のビッグデータと同様に、近年非常に人気があります。ただし、ディープラーニングは主に機械学習の分野に属するため、この記事では、機械学習とディープラーニングのアルゴリズムプロセスの違いについて説明します。 1. 機械学習のアルゴリズムフロー実際、機械学習はデータサイエンスの研究です(少し退屈に聞こえます)。機械学習アルゴリズムの主なプロセスは次のとおりです。
= 1.1 データセット最初に検討する必要があるのはデータの問題です。データセットは機械学習モデルを構築するための出発点です。簡単に言えば、データセットは基本的に M×N 行列であり、M は列 (特徴) を表し、N は行 (サンプル) を表します。 列は X と Y に分解できます。X は特徴、独立変数、または入力変数を参照できます。 Y は、カテゴリ ラベル、従属変数、出力変数を参照することもできます。 1.2 データ分析データの予備的な理解を得るために、探索的データ分析 (EDA) が実行されます。 EDA の主なタスクは、データのクリーニング、データの記述 (統計、グラフの記述)、データの分布の確認、データ間の関係の比較、データに関する直感の養成、データの要約などです。 簡単に言えば、探索的データ分析法とは、データを理解し、データを分析し、データの分布を把握することです。データの実際の分布に焦点を当て、データの視覚化を重視することで、アナリストはデータ内の暗黙のルールを一目で確認してインスピレーションを得ることができ、データに適したモデルを見つけるのに役立ちます。 典型的な機械学習アルゴリズムのプロセスとデータ サイエンス プロジェクトでは、まず最初に「データを見て」データをより深く理解します。個人が一般的に使用する 3 つの主要な EDA 方法は次のとおりです。 記述統計 平均、中央値、最頻値、標準偏差。 データの視覚化 ヒートマップ(特徴の内部相関を識別する)、ボックス プロット(グループの違いを視覚化する)、散布図(特徴間の相関を視覚化する)、主成分分析(データ セットに提示されたクラスター分布を視覚化する)など。 データ整形 ピボット、グループ化、フィルターなど。 1.3 データの前処理データ前処理は、実際にはデータのクリーニング、データの整理、または一般的なデータ処理です。データに対して実行される、欠損値やスペルミスの修正、比較可能な値への正規化/標準化、データの変換(対数変換など)などのさまざまなチェックと修正プロセスを指します。 たとえば、画像を均一なサイズまたは解像度に変更します。 データの品質は、機械学習アルゴリズム モデルの品質に大きな影響を与えます。したがって、機械学習モデルの最高品質を実現するために、従来の機械学習アルゴリズム プロセスにおける作業の大部分は、実際にデータを分析して処理することです。 一般的に、機械学習プロジェクトではデータの前処理に時間の 80% が費やされる可能性がありますが、実際のモデル構築フェーズとその後のモデル分析には残りの 20% しかかからないと考えられます。 1.4 データのセグメンテーショントレーニングセットとテストセット 機械学習モデルを開発する過程では、トレーニング済みのモデルが新しい未知のデータに対して優れたパフォーマンスを発揮することが求められます。新しい、目に見えないデータをシミュレートするために、利用可能なデータに対してデータ セグメンテーションが実行され、処理されたデータ セットがトレーニング セットとテスト セットの 2 つの部分に分割されます。 最初の部分はデータのより大きなサブセットで、トレーニング セットとして使用されます (元のデータの 80% など)。2 番目の部分は通常、テスト セットとして使用されるより小さなサブセットです (データの残りの 20%)。 次に、トレーニング セットを使用して予測モデルを構築し、このトレーニング済みモデルをテスト セット (つまり、新しい、未知のデータ) に適用して予測を行います。テスト セットでのモデルのパフォーマンスに基づいて最適なモデルが選択されます。最適なモデルを取得するために、ハイパーパラメータの最適化も実行できます。 トレーニング セット & 検証セット & テスト セット データを分割するもう 1 つの一般的な方法は、データを 3 つの部分に分割することです。
トレーニング セットは予測モデルの構築に使用され、検証セットは評価され、それに基づいて予測が行われます。モデルのチューニング (ハイパーパラメータの最適化など) を実行し、検証セットの結果に基づいて最もパフォーマンスの高いモデルを選択できます。 検証セットはトレーニング セットと同様の方法で操作されます。ただし、テスト セットは機械学習モデルの確立と準備には関与しないことに注意してください。これは、機械学習モデルのトレーニング プロセス中に別途確保されるサンプル セットであり、モデルのハイパーパラメータを調整し、モデルの機能の予備評価を行うために使用されます。通常、検証はトレーニング中に実行されます。ここでの検証は、検証セットを使用してモデルの初期効果をテストすることです。 クロス検証 実際、機械学習プロセスではデータが最も価値があります。既存のデータをより経済的に使用するために、通常、N 分割クロス検証を使用してデータセットを N 個の部分に分割します。このような N 倍のデータセットでは、そのうちの 1 つがテスト データとして保持され、残りはモデルを構築するためのトレーニング データとして使用されます。機械学習プロセスは、繰り返しのクロス反復を通じて検証されます。 このクロス検証法は機械学習プロセスでは広く使用されていますが、ディープラーニングではあまり使用されていません。 1.5 機械学習アルゴリズムモデリングここからが楽しい部分です。データのフィルタリングと処理のプロセスは実は非常に退屈です。ここで、慎重に準備されたデータを使用してモデルを構築できます。ターゲット変数 (多くの場合、Y 変数と呼ばれる) のデータ型に応じて、分類モデルまたは回帰モデルを構築できます。 機械学習アルゴリズム 機械学習アルゴリズムは、大きく分けて次の 3 つのタイプに分類できます。 教師あり学習 これは、入力 X 変数と出力 Y 変数間の数学的 (マッピング) 関係を確立する機械学習タスクです。このような (X, Y) ペアは、入力から出力を予測する方法を学習するためのモデルを構築するために使用されるラベル付きデータを構成します。 教師なし学習 入力 X 変数のみを使用する機械学習タスクです。 X 変数はラベルのないデータであり、学習アルゴリズムはモデリング時にデータの固有の構造を使用します。 強化学習 これは、次の行動方針を決定する機械学習タスクです。試行錯誤学習を通じてこの目標を達成し、報酬を最大化するよう努めます。 パラメータ調整伝説のパラメータ調整器が主にこの作業を行います。ハイパーパラメータは本質的には機械学習アルゴリズムのパラメータであり、学習プロセスと予測パフォーマンスに直接影響します。すべてのデータセットに普遍的に適用できる万能のハイパーパラメータ設定は存在しないため、ハイパーパラメータの最適化が必要です。 ランダムフォレストを例に挙げてみましょう。 randomForest を使用する場合、通常、mtry パラメータと ntree パラメータを含む 2 つの一般的なハイパーパラメータが最適化されます。 mtry(maxfeatures) は、各分割で候補変数としてランダムにサンプリングされる変数の数を表し、ntree(nestimators) は成長するツリーの数を表します。 10 年前でもまだ主流だった別の機械学習アルゴリズムは、サポート ベクター マシン (SVM) です。最適化する必要があるハイパーパラメータは、ラジアル基底関数 (RBF) カーネルの C パラメータとガンマ パラメータです。 C パラメータは過剰適合を制限するためのペナルティ項であり、ガンマ パラメータは RBF カーネルの幅を制御します。 チューニングは通常、より優れたハイパーパラメータ値のセットを取得するために行われます。多くの場合、ハイパーパラメータの最適値を見つけることを追求する必要はありません。実際、パラメータのチューニングは単なる冗談です。本当に必要なのは、アルゴリズムの原理を理解して習得し、データとモデルに適したパラメータを見つけることです。 機能選択特徴選択とは、文字通り、初期の多数の特徴から特徴のサブセットを選択するプロセスを意味します。高精度のモデルを実現することに加え、機械学習モデル構築の最も重要な側面の 1 つは、実用的な洞察を得ることです。この目標を達成するには、多数の特徴から重要な特徴のサブセットを選択できることが重要です。 特徴選択のタスクはそれ自体が一つの研究領域を構成しており、新しいアルゴリズムや方法の設計に多大な努力が注がれてきました。利用可能な多数の特徴選択アルゴリズムのうち、いくつかの古典的な方法は、シミュレーテッドアニーリングと遺伝的アルゴリズムに基づいています。さらに、進化的アルゴリズム(粒子群最適化、蟻コロニー最適化など)や確率的手法(モンテカルロなど)に基づく手法も多数存在します。 1.6 機械学習タスク教師あり学習では、分類と回帰という 2 つの一般的な機械学習タスクがあります。 分類トレーニングされた分類モデルは、一連の変数を入力として受け取り、出力クラス ラベルを予測します。次の図は、異なる色とラベルで表される 3 つのクラスを示しています。それぞれの小さな色付きの球はデータ サンプルを表します。 3 つのクラスのデータ サンプルを 2 次元で視覚化します。この視覚化は、PCA 分析を実行して最初の 2 つの主成分 (PC) を表示することによって作成できます。または、2 つの変数の単純な散布図視覚化を選択することもできます。 パフォーマンス指標 トレーニングされた機械学習モデルのパフォーマンスが良いか悪いかはどうやってわかるのでしょうか?つまり、パフォーマンス評価指標 (メトリック) を使用します。分類パフォーマンスを評価するための一般的な指標には、精度 (AC)、感度 (SN)、特異度 (SP)、マシュー相関係数 (MCC) などがあります。 戻る最も単純な回帰モデルは、次の単純な式で要約できます: Y = f(X)。ここで、Y は定量的な出力変数に対応し、X は入力変数を参照し、f は入力特徴として出力値を計算するマッピング関数 (機械学習モデルから取得) を参照します。 上記の回帰例の式の本質は、X がわかっていれば、Y を導き出せるということです。 Y が計算(予測)されたら、それを視覚化する一般的な方法は、下の図に示すように、実際の値と予測値の単純な散布図を作成することです。 回帰モデルのパフォーマンスは、適合モデルが入力データ値をどの程度正確に予測できるかを評価するために評価されます。回帰モデルのパフォーマンスを評価するための一般的な指標は、決定係数 (R²) です。さらに、平均二乗誤差 (MSE) と平均二乗根誤差 (RMSE) も、残差または予測誤差を測定するためによく使用される指標です。 2. ディープラーニングアルゴリズムのプロセスディープラーニングは実際には機械学習のパラダイムなので、主なプロセスは似ています。ディープラーニングはデータ分析を最適化し、モデリングプロセスを短縮します。ニューラルネットワークは機械学習のさまざまなアルゴリズムを統合します。 ディープラーニングが正式に大規模に使用される前は、機械学習アルゴリズムのプロセスでは、データを収集し、データをスクリーニングし、さまざまな特徴抽出機械学習アルゴリズムを試したり、複数の異なる特徴を組み合わせてデータを分類および回帰したりするのに多くの時間がかかっていました。 機械学習アルゴリズムの主なプロセスは次のとおりです。
ディープラーニングでは、人間が自ら特徴を抽出する必要はなく、ニューラルネットワークを通じてデータに対して高次元の抽象学習を自動的に実行することで、特徴エンジニアリングの構成を減らし、この点で多くの時間を節約します。 しかし同時に、より深く複雑なネットワークモデル構造が導入されたため、パラメータ調整作業はより困難になりました。たとえば、ニューラル ネットワーク モデル構造の定義、損失関数の確認、オプティマイザーの決定、そして最後にモデル パラメータを繰り返し調整するプロセスなどです。 |
<<: マルチモダリティの最新の動向をご存知ですか?中国科学院自動化研究所は、視覚言語事前訓練に関する最初のレビューを発表した。
>>: Kaggle マスターはどのような言語、フレームワーク、モデルを使用していますか?詳細な統計はこちら
ハイパーオートメーション、ブロックチェーン、AI セキュリティ、分散クラウド、自律デバイスは、今年の...
著者 | 魏耀成魏ナレッジ グラフの視覚化により、ナレッジ グラフ データをより直感的に表示および分...
人工知能 (AI) に関する議論のほとんどは、自動運転車、チャットボット、デジタルツイン、ロボット工...
視覚、聴覚、嗅覚、味覚、触覚は、人間の最も基本的な五感です。その中でも、視覚は極めて重要です。結局の...
常温・常圧超伝導が再び突破された?今回は韓国の科学者たちです。彼らは、世界初の常温常圧超伝導体、すな...
近年、さまざまなゲームで高性能なAIが人間に勝利するというニュースが頻繁に登場しています。初期のチェ...
インターネット上に何気なく投稿された写真から、どれほどの情報が漏れてしまうのでしょうか?外国人ブロガ...
昨年、微博で話題になった動画を覚えている人はどれくらいいるだろうか。『射雁英雄伝』で朱茵娜が演じ...
世界的なテクノロジー大手がトップクラスの人工知能の人材と技術をめぐる競争に参入し、市場は活況を呈して...
[[431792]]自己教師学習はコンピューター ビジョンで広く使用されており、手動で注釈を付ける...