データサイエンスの面接で知っておくべき 10 の機械学習の概念

データサイエンスの面接で知っておくべき 10 の機械学習の概念

この記事は公式アカウント「Reading the Core」(ID: AI_Discovery)から転載されているので、興味のある方はどうぞ。

ご存知のように、データ サイエンスと機械学習では、無限の量の情報と知識を提供する必要があります。 そうは言っても、ほとんどの企業はいくつかの中核となるアイデアだけをテストしています。 これは、これら 10 個の概念がより複雑なアイデアや概念の基礎となるためです。

[[350910]]

それでは、始めましょう!

1. 教師あり学習と教師なし学習

非常に基本的なことなので、なぜわざわざこれを入れたのかと不思議に思うかもしれません。 しかし、この 2 つの違いを本当に理解し、その違いを伝えることができることが重要だと思います。

教師あり学習では、ターゲット変数が既知であるラベル付きデータセットで学習します。

教師なし学習は、ラベル付けされた結果を参照せずに入力データから推論を導き、パターンを見つけるために使用されます。つまり、ターゲット変数はありません。

これで、2 つの違いがわかったので、機械学習モデルが教師あり学習か教師なし学習かがわかるようになり、また、特定のシナリオで教師あり学習アルゴリズムと教師なし学習アルゴリズムのどちらが必要かもわかるようになりました。

たとえば、顧客がシリアルを購入したかどうか、次に牛乳を購入する必要があるかどうかを予測したい場合、教師あり学習アルゴリズムと教師なし学習アルゴリズムのどちらが必要ですか?

2. バイアスとバイアスのトレードオフ

バイアスと分散のトレードオフを理解するには、バイアスと分散が何であるかを知る必要があります。

バイアスは、モデルの仮定を単純化することによって生じる誤差です。 たとえば、単純な線形回帰を使用してウイルスの指数関数的増加をモデル化すると、バイアスが高くなります。

分散とは、異なるトレーニング データを使用した場合に予測値が変化する量を指します。 言い換えれば、トレーニング データに重点​​を置くモデルでは、分散が大きくなります。

さて、バイアスと分散のトレードオフは、本質的に、特定の機械学習モデルにおけるバイアスの量と分散の間に逆の関係があることを示しています。 つまり、モデルのバイアスを減らすと分散が増加し、逆もまた同様です。 ただし、特定の量のバイアスと分散によって合計エラーが最小になる最適ポイントが存在します (以下を参照)。

> バイアス分散トレードオフの図(著者作成)

3. 正規化

最も一般的なタイプの正規化方法は、L1 と L2 と呼ばれます。 L1 正則化と L2 正則化はどちらも、トレーニング データの過剰適合を減らすために使用される方法です。

L2 正則化 (リッジ回帰とも呼ばれます) は、残差の二乗とラムダの二乗の傾きの合計を最小化します。 この追加の項は「リッジ回帰ペナルティ」と呼ばれます。 これにより、モデルのバイアスが増加し、トレーニング データへの適合性が低下しますが、分散も減少します。

リッジ回帰ペナルティを傾きの絶対値に置き換えると、Lasso 回帰、つまり L1 正則化が得られます。

L2 は堅牢性は劣りますが、安定したソリューションを持ち、常にソリューションとなります。 L1 はより堅牢ですが、ソリューションは不安定であり、複数のソリューションが存在する可能性があります。

4. クロスバリデーション

クロス検証は、本質的には、新しい独立したデータセット上でモデルのパフォーマンスを評価するために使用される手法です。

クロス検証の最も単純な例は、データをトレーニング データ、検証データ、テスト データの 3 つのカテゴリに分割することです。トレーニング データを使用してモデルを構築し、検証データを使用してハイパーパラメータを調整し、テスト データを使用して最終モデルを評価します。

これが次のポイント、つまり機械学習モデルの評価指標につながります。

5. 評価指標

機械学習モデルを評価するために選択できるメトリックは多数あり、選択するメトリックは最終的に問題の種類とモデルの目標によって異なります。

回帰モデルを評価する場合、重要な指標には次のものが含まれます。

  • R 二乗: 従属変数の分散の割合が独立変数の分散によってどの程度説明されるかを示す尺度。 簡単に言えば、係数は傾向を推定しますが、R 二乗は最もよく適合する線の周りの分散を表します。
  • 調整済み R 平方: モデルに追加された独立変数ごとに、R 平方値は常に増加します。そのため、独立変数が多いモデルは、実際にはそうでなくても、より適合しているように見える場合があります。 したがって、調整済み R2 は各追加独立変数を補正し、各指定変数が偶然を超えてモデルを改善する範囲でのみ増加します。
  • 平均絶対誤差 (MAE): 絶対誤差は予測値と実際の値の差です。 したがって、平均絶対誤差は絶対誤差の平均です。
  • 平均二乗誤差 (MSE): 平均二乗誤差 (MSE) は MAE に似ていますが、予測値と実際の値の差の二乗を平均する点が異なります。

分類モデルのメトリックには次のものが含まれます。

  • 真陰性: モデルが陰性クラスを正しく予測した結果。
  • 偽陽性 (タイプ 1 エラー): モデルが陽性クラスを誤って予測します。
  • 偽陰性 (タイプ 2 エラー): モデルが陰性クラスの結果を誤って予測します。
  • 精度: モデルが正しい予測の割合に相当します。
  • 思い出してください: 「実際の陽性のうち、正しく識別された割合はどれくらいですか?」という質問に答えてみてください。
  • 精度: 「正しい識別率は何ですか?」という質問に答えようとします。
  • F1 スコア: テスト精度の尺度であり、精度と再現率の調和平均です。 最高スコアは 1 (完全な精度と再現率)、最低スコアは 0 です。全体として、これはモデルの精度と堅牢性を測る指標となります。
  • AUC-ROC 曲線は、モデルが複数のクラスをどれだけうまく区別できるかを示す分類問題のパフォーマンス指標です。 AUC が高いほど、モデルの精度が高いことを示します。

6. 次元削減

次元削減は、データセット内の特徴の数を削減するプロセスです。 これは主に、モデルの分散 (オーバーフィッティング) を減らしたい場合に重要です。

最も一般的な次元削減手法の 1 つは、主成分分析 (PCA) です。 最も単純な意味では、PCA は高次元データ (例: 3 次元) をより小さな空間 (例: 2 次元) に投影することを意味します。 これにより、モデル内の元の変数はすべて保持されながら、次元の低いデータ(3 次元ではなく 2 次元)が生成されます。

PCA は、必要なメモリを削減し、アルゴリズムを高速化するための圧縮目的や、データの要約を容易にするための視覚化目的で使用されることがよくあります。

7. データの準備

データ準備とは、生データをクリーンアップし、より使いやすい状態に変換するプロセスです。 面接では、データ セットを整理するために実行した手順のいくつかを列挙するよう求められる場合があります。

データ準備における最も一般的な手順は次のとおりです。

  • 外れ値をチェックし、必要に応じて削除する
  • 欠損データの補完
  • カテゴリデータのエンコード
  • データを正規化または標準化する
  • 機能エンジニアリング
  • データのアンダーサンプリングまたはオーバーサンプリングによるデータの不均衡に対処する

8. ブートストラップサンプリング

ブートストラップ サンプリング法は非常にシンプルな概念であり、AdaBoost や XGBoost などのより高度な機械学習アルゴリズムの構成要素となります。

技術的には、ブートストラップ サンプリング法は、復元抽出法によるランダム サンプリングを使用する再サンプリング法です。

わかりにくいように思えても心配しないでください。図を使って説明しましょう。


初期サンプルとして 3 つの観測値があるとします。 ブートストラップ サンプリング法を使用して、3 つの観測値からなる新しいサンプルも作成します。 各観測値が選択される可能性は等しく (1/3) です。 この場合、2 番目の観測値はランダムに選択され、新しいサンプルの最初の観測値になります。


別の観測をランダムに選択した後、緑の観測を選択しました。


最後に、黄色の観測値が再度ランダムに選択されます。 ブートストラップ サンプリングでは、復元抽出によるランダム サンプリングが使用されることに注意してください。 これは、すでに選択された観測が再度選択される可能性が高いことを意味します。

これがブートストラップサンプリングの真髄です。

9. ニューラルネットワーク

すべてのデータサイエンスの仕事にディープラーニングが必要なわけではありませんが、需要は間違いなく高まっています。 したがって、ニューラル ネットワークとは何か、どのように機能するかについて基本的な理解を深めておくとよいでしょう。

最も基本的なレベルでは、ニューラル ネットワークは本質的に数式のネットワークです。 1 つ以上の入力変数を受け取り、方程式のネットワークを通じて 1 つ以上の出力変数を導出します。


ニューラル ネットワークには、入力層、1 つ以上の隠し層、および出力層があります。 入力層は、x1、x2、…、xn として示される 1 つ以上の特徴変数 (または入力変数または独立変数) で構成されます。 隠し層は、1 つ以上の隠しノードまたは隠しユニットで構成されます。 ノードは、上の画像にある円の 1 つにすぎません。 同様に、出力変数は 1 つ以上の出力単位で構成されます。


冒頭で述べたように、ニューラル ネットワークは方程式のネットワークに過ぎません。 ニューラル ネットワークの各ノードは、線形関数と活性化関数の 2 つの関数で構成されます。 ここで少し混乱するかもしれませんが、今のところは線形関数を最もよく適合する直線として考えてください。 また、活性化関数は、数字を 1 または 0 にする電灯のスイッチのようなものだと考えてください。

10. アンサンブル学習、バギング、ブースティング

最も優れた機械学習アルゴリズムの中にはこれらの用語を組み合わせたものもあるため、アンサンブル学習、バギング、ブースティングが何であるかを理解することが重要です。

アンサンブル学習は、複数の学習アルゴリズムを組み合わせた手法です。 単一のアルゴリズムのみを使用する場合よりも高い予測性能を実現することが目的です。

バギングは、ブートストラップ集約とも呼ばれ、元のデータセットのブートストラップされたサンプルを使用して、同じ学習アルゴリズムの複数のモデルをトレーニングするプロセスです。 次に、上記のランダム フォレストの例と同様に、すべてのモデルの出力に対して投票が行われます。

> 袋詰めプロセス(著者作成)

ブースティングはバギングのバリエーションであり、個々のモデルが順番に構築され、前のモデルが反復されます。 具体的には、前のモデルで誤分類されたデータ ポイントが、次のモデルで強調されます。 これは、モデルの全体的な精度を向上させるために行われます。 このプロセスをよりわかりやすく示す図を以下に示します。

> ブースティングプロセス(著者作成)

最初のモデルが構築されたら、2 番目のブートストラップ サンプルに加えて、誤分類/予測されたポイントを取得して、2 番目のモデルをトレーニングします。 次に、テスト データセットにアンサンブル モデル (モデル 1 と 2) を使用してプロセスを続行します。

<<:  顔認識:攻撃の種類となりすまし防止技術

>>:  セキュリティ | 機械学習の「データ汚染」を 1 つの記事で理解する

ブログ    

推薦する

マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの研究者7人が5つの主要トピックについて協力し、119ページの文書を公開した。

マルチモーダル大規模モデルの最も包括的なレビューはここにあります!マイクロソフトの中国人研究者7名に...

...

次世代スマートビルディング:データ駆動型施設はより安価で環境に優しいものになる

今日のスマート ビルは、各部屋や各階で何が起こっているかを把握し、エネルギー使用を最適化して持続可能...

北京大学の具現化知能チームは、人間のニーズに合わせてロボットをより効率的にするための需要主導型ナビゲーションを提案した。

ロボットに手伝ってもらいたい場合は、通常、より正確な指示を与える必要がありますが、指示の実際の実装は...

...

オープンソースツール | データサイエンスのための Python 入門

[[248716]]データ サイエンスの力を活用するために高価なツールは必要ありません。これらのオー...

「CNNの父」ヤン・ルカン氏:人工知能には脳がなく、そのIQは犬ほど高くない

ビッグデータダイジェスト制作ディープラーニングの三大巨頭の一人として知られるヤン・ルカン氏は、常に楽...

百度の于有平氏:すべての開発者が平等かつ便利にAI機能にアクセスできるようにする

「すべての開発者が平等かつ便利にAI機能にアクセスできるようにするのが、私たちのビジョンであり、コミ...

映画に騙されないでください。人工知能はどうやって人間を殺すのでしょうか?

どの国が終末的な災害映画を撮影したとしても、人工知能はさまざまな大量破壊兵器を操作して人類と戦い、最...

女性の死因第1位である乳がんをディープラーニングで検出するにはどうすればいいのでしょうか?

[51CTO.com からのオリジナル記事] 乳がんは女性に最も多く見られる浸潤がんであり、女性の...

デジタルマーケティングにおけるAI革命

ほんの数年前までは、マーケティングに特化した AI エンジンがマーケティングの未来につながると信じて...

機械学習を使うべきタイミング

著者 | 杜家平なぜこのトピックを議論するのですか?このトピックを議論する本質的な理由は、顧客にデー...

避けるべきビジネス インテリジェンス実装の悪い例トップ 10

ビジネス インテリジェンスは、あらゆる業界のグローバル企業の従来のワークロードを変革しています。ビジ...

最新の機械学習ツールにより、データサイエンティストはより多くのエンジニアリング機能やビジネス機能を実行できる

データ サイエンスは急速に進化しており、機械学習の役割はデータ サイエンスのハイブリッドな役割から、...