データサイエンスの面接で必ず知っておくべき 5 つの質問

同じ場所で二度失敗することがないように、そして他の人の役に立つために、私は自分の情熱に従ってデータサイエンティストになりたい人たちにこの記事を捧げます。たとえ転職を希望していなくても、面接では多くのことを学べるので、面接は続けるべきだと私は強く信じています。より速く学ぶ方法はありません。データサイエンスは、機械学習アルゴリズムの基本概念を日々開発しながら、継続的にスキルを向上させることが求められる分野です。では、これ以上前置きせずに、次回の面接で役立つかもしれない質問と回答を早速見ていきましょう。

[[285853]]

質問 1: 決定木の損失関数について説明できますか?

回答: この質問に答える前に、決定木は分類タスクと回帰タスクの両方を実行できる一般的な機械学習アルゴリズムであることに注意することが重要です。したがって、それらの損失関数も異なります。

分類問題の損失関数:

損失関数を理解する前に、ジニ不純度は重要な概念なので、まずそれを説明しましょう。

式1: ジニ不純度

ここで、「p」は、i 番目のノードにおけるクラス k のインスタンスとトレーニングインスタンスの合計の比率です。これはどういう意味でしょうか？次の例を通して理解してみましょう。図 1 は、深さ 2 の Iris 決定木の簡単な視覚化を示しています。最上位レベルはルートノードです。トレーニングセットを決定セットに分割するという概念は、アルゴリズムでは非常に単純です。たとえば、ここでは、アイリスデータセットが、ルートノードの「花びらの幅」という単一の特徴に基づいて 2 つのサブセットに分割されています。花びらの幅が 0.8 以下の場合、アルゴリズムは深さ 1 (左) に進みます。そうでない場合は、深さ 1 で右に進みます。さらに、「花びらの幅」という追加の特徴に基づいてインスタンスを分割します。深さ 1 では、右のノードに 100 個のインスタンスのサンプルがあり、0 個のインスタンスが Iris-Setosa に、50 個のインスタンスが Iris-Versicolor に、残りの 50 個が Iris-Virginica に適用されます。

図1: アイリス決定木

したがって、このノードのジニ係数は 0.5 です。

式2: ジニ不純度の計算

同様に、深さ 1 (左のノード) では、すべてのトレーニングインスタンスが同じクラスに属しているため、ジニ不純度は 0 になります。ノードは本質的に「純粋」です。

ジニ不純度が何であるかがわかったので、本題に入りましょう。決定木は、分類および回帰木 (CART) アルゴリズムを使用してトレーニングされ、単一の特徴 (k) としきい値 (t) を使用してデータセットを 2 つのサブセットに分割するという単純な概念に基づいています。アイリスデータセットの特徴は「花びらの幅」であり、しきい値は 0.8 です。 k と t はどのように選択されるのでしょうか? 最も純粋なサブセットを生成するペア (k, t) を検索します。したがって、アルゴリズムが最小化しようとするコスト関数は次のようになります。

ここで、G はサブセットのジニ不純度を表し、m はサブセットのインスタンスを表します。

回帰問題の損失関数:

回帰ツリーの場合、損失関数はかなり直感的です。残差二乗和（RSS）を使用し、式（3）は回帰木の損失関数であり、yは真実値、yハットは予測値です。

式3: 残差の二乗和

質問 2: 共線性はモデルに影響しますか?

回答: 共線性は、2 つ以上の予測変数が互いに密接な関係にある場合に発生します。下の図 2 は共線変数の例を示しています。変数 2 は変数 1 に厳密に従い、ピアソン相関係数は 1 です。したがって、これらの変数を機械学習モデルに入力すると、そのうちの 1 つがノイズのように動作することは明らかです。

図2: 共線変数の例

共線性が存在すると、共線変数の応答に対する個々の影響を分離することが困難になるため、回帰型の問題では問題になる可能性があります。言い換えれば、共線性により回帰係数の推定値の精度が低下し、誤差が増加します。これにより、最終的には t 統計量が減少するため、共線性がある場合には帰無仮説を棄却できない可能性があります。

共線性を検出する簡単な方法は、予測変数の相関行列を調べることです。この行列の 1 つの要素の絶対値は非常に大きく、相関性の高い変数のペアとデータの共線性の問題があることを示しています。残念ながら、相関行列を調べることですべての共線性の問題を発見できるわけではありません。特に高い相関関係を持つ変数のペアがない場合でも、3 つ以上の変数の間に共線性が存在する可能性があります。この状況は多重共線性と呼ばれます。このような状況では、多重共線性を評価するより良い方法は、相関行列を調べるのではなく、分散拡大係数 (VIF) を計算することです。各変数の VIF は次の式を使用して計算できます。

式4: 分散膨張係数

ここで、r 二乗項は変数 X の他のすべての予測変数に対する回帰です。 VIF が 1 に近いか 1 より大きい場合、共線性が存在します。共線性の問題が発生した場合、2 つの解決策が考えられます。 1 つは冗長な変数を削除することです。これは回帰適合に影響を与えずに実行できます。 2 番目のアプローチは、共線変数を 1 つの予測子に結合することです。

質問3: ディープニューラルネットワークを一般の人に説明してください

回答: ニューラルネットワーク (NN) の概念はもともと人間の脳から生まれたもので、その目的はパターンを認識することです。ニューラルネットワークは、機械による認識、ラベル付け、および生の入力データのクラスタリングを通じて感覚データを解釈する一連のアルゴリズムです。画像、テキスト、音声、さらには時系列データなど、あらゆる種類の現実世界のデータは、数値を含むベクトル空間に変換する必要があります。

ディープニューラルネットワークの深さとは、ニューラルネットワークが複数の層で構成されていることを意味します。これらのレイヤーは計算が実行されるノードで構成されています。人間の脳内のノードのような構造であるニューロンは、十分な刺激を受けると活性化されます。ノードは生の入力データをその係数または重みと結合し、重みに応じて入力を減衰または増幅します。入力と重みの積は、図 3 に示す合計ノードで合計され、その後、活性化関数に渡されます。活性化関数は、信号をネットワーク内でさらに拡張して最終結果に影響を与えるかどうかを決定します。ノードレイヤーは、入力がネットワークに送られるとオンまたはオフになるニューロンのようなスイッチの列です。

図3: ニューラルネットワークのノードの視覚化

ディープニューラルネットワークは、入力層と出力層、および 1 つの隠し層のみで構成される浅いネットワークであるという点で、パーセプトロンなどの以前のニューラルネットワークとは異なります。

図 4: ディープニューラルネットワークは複数の隠し層で構成されています。

質問4: 3分で解決できるデータサイエンスプロジェクトについて簡単に説明してください。

回答: 典型的なデータサイエンスの面接プロセスは、特定のデータ分析プロジェクトから始まります。プロジェクトの複雑さに応じて、これを 2 回実行しました。初めて、機械学習を使って問題を解決するために 2 日間を費やしました。 2 回目は、問題を解決するために 2 週間かかりました。言うまでもなく、クラス不均衡データセットに 2 回目に取り組んだとき、それははるかに難しい問題でした。したがって、3 分間の営業面接の質問により、目の前の問題に対する理解を示すことができます。問題の説明、問題を解決するためのシンプルなアプローチ、そのアプローチで使用した機械学習モデルの種類とその理由から始めるようにしてください。モデルの精度についてあまり自慢しないでください。

これは、あなたがデータサイエンスの分野のリーダーであり、複雑な問題を解決するために新しくて優れたツールを使用できることを示すことができるため、面接で尋ねる非常に重要な質問であると私は考えています。

質問 5: モデルの正則化とはどういう意味ですか? 線形モデルでは正則化はどのように実装されますか?

回答: 正則化は、機械学習モデルを制約するために使用される用語です。機械学習モデルにおける過剰適合を制限または削減する良い方法は、自由度を減らすことです。自由度が低いほど、モデルがデータに過剰適合することが難しくなります。たとえば、多項式モデルを正規化する簡単な方法は、多項式の自由度を減らすことです。ただし、線形モデルの場合、正規化は通常、モデルの重みを制限することによって実現されます。したがって、線形回帰とは異なり、リッジ回帰、Lasso 回帰、および弾性ネットモデルには、重みを制限する 3 つの異なる方法があります。完全を期すために、まずは線形回帰の定義から始めましょう。

式5: 線形回帰とモデル予測

線形回帰モデルの損失関数は、平均二乗誤差として定義されます。

リッジ回帰: 線形回帰の正規化バージョンです。つまり、コスト関数に追加の正規化項が追加されます。これにより、学習アルゴリズムはデータに適応するだけでなく、モデルの重みを可能な限り小さくするように強制されます。正規化項はトレーニング中にのみ損失関数に追加する必要があることに注意してください。モデルをトレーニングしたら、正規化されていないパフォーマンスメトリックを使用してモデルのパフォーマンスを評価する必要があります。

ハイパーパラメータ alpha は、モデルの正規化の度合いを制御します。ゼロの場合、リッジ回帰は単なる線形回帰になります。

Lasso 回帰: Lasso 回帰は、リッジ回帰と同様に、損失関数に正規化項を追加する別の正規化線形回帰ですが、重みベクトルの L2 ノルムの 2 乗ではなく、L1 ノルムを使用します。

Lasso 回帰の重要な特徴は、最も重要でない特徴 (つまり、最も有意でない特徴) の重みをゼロに設定することで完全に排除する傾向があることです。言い換えると、Lasso 回帰は自動的に特徴選択を実行し、スパースモデル (つまり、ゼロ以外の特徴重みが少数のみのモデル) を出力します。

Elastic Net 回帰: これは、Ridge 回帰と Lasso 回帰の中間です。正規化項は、リッジ正規化項とラッソ正規化項の単純な組み合わせであり、「r」で制御できます。 r=0 の場合、弾性ネットはリッジ回帰と同等であり、r=1 の場合、弾性ネットはラッソ回帰と同等です。

少なくとも少しの正規化が常に望ましく、一般的に線形回帰は常に避けるべきです。 Ridge は適切なデフォルトですが、特定のデータセット内に役立つ特徴が少数しかない場合は、Lasso を使用する必要があります。一般に、Lasso は、特徴の数がインスタンスの数より多い場合や、複数の特徴が強く相関している場合に不規則に動作する可能性があるため、Lasso よりも Elastic Net が好まれます。

<<: 初心者の機械学習エンジニアが犯しがちな6つの間違い

>>: 機械学習と感度分析を組み合わせてビジネス戦略を策定するにはどうすればよいでしょうか?