27回の機械学習インタビューの後、重要な概念を強調しましょう

機械学習面接のためのハンドブック。これだけあれば十分です。

[[348502]]

機械学習やデータサイエンスの職種の面接では、機械学習の分野の概念がテストされることが多いです。最近 27 件の AI 面接 (Google などの大企業やいくつかのスタートアップ企業を含む) を経験した開発者が、実際の面接経験に基づいて機械学習のドキュメントを作成しました。

この教材は機械学習の初心者に適しており、機械学習における古典的でよく使われる基本概念が含まれています。各章の最後にはチュートリアルと演習が用意されており、読者が本書で説明されている概念的知識をさらに習得するのに役立つことは特筆に値します。

ダウンロードアドレス: https://www.confetti.ai/assets/ml-primer/ml_primer.pdf

この本には、教師あり学習、機械学習の実践、教師なし学習、ディープラーニングの 4 つの章が含まれています。

第1章: 教師あり学習

この章では、線形回帰、ロジスティック回帰、ナイーブベイズ、サポートベクターマシン、決定木、K 近傍法について紹介します。

線形回帰

線形回帰は最も一般的で広く使用されている機械学習手法です。これは非常に直感的な教師あり学習アルゴリズムです。名前が示すように、線形回帰は回帰法であり、ラベルが室温などの連続値である状況に適しています。さらに、線形回帰は線形であるデータへの適合を見つけようとします。

ロジスティック回帰

現実世界の問題の大部分は、画像の注釈付け、スパムの検出、明日晴れるかどうかの予測など、分類に関係しています。ここで紹介する最初の分類アルゴリズムはロジスティック回帰です。

ナイーブベイズ

ナイーブベイズは優れた機械学習モデルです。中核となる前提が 1 文で説明できるにもかかわらず、多くの問題にうまく対応できる点が優れています。ナイーブベイズについて詳しく説明する前に、まず判別モデルと生成モデルという 2 つの機械学習モデルの違いについて説明しましょう。

サポートベクターマシン

このセクションでは、サポートベクターマシンと呼ばれる分類アルゴリズムについて説明します。 21 世紀初頭にディープラーニングが登場する前は、サポートベクターマシンが人工知能分野の主流の技術でした。今日でも、サポートベクターマシンは新しい分類タスクに最適なアルゴリズムの 1 つです。これは、データ内のさまざまな種類の統計的関係を表現でき、トレーニングが容易なためです。

決定木

決定木は、強力で解釈しやすい優れたモデルです。実際、このモデルの基礎となる構造は、人間が意思決定を行う方法と非常によく似ています。一部の機械学習開発者は、決定木が新しい問題領域ですぐに使用できる最高のパフォーマンスを提供すると考えています。

K近傍法アルゴリズム

K 最近傍アルゴリズムは教師あり学習モデルです。正式なトレーニング手順がないため、モデル内では外れ値のようなものと思われます。このため、K 最近傍アルゴリズムは説明と実装が比較的簡単なモデルです。

第2章: 機械学習の実践

モデルのバイアス制御

教師あり学習モデルの構築の背後にある理論的根拠は何ですか?ここでは、機械学習における最も重要な原則の 1 つであるバイアスと分散のトレードオフについて説明します。

モデルの選び方

モデル選択プロセスにはどのような詳細が含まれますか?これには通常、複数のモデルの一般化誤差を評価することが必要になります。ここでの主な焦点は、モデルの具体的な詳細に関係なく、既存のデータと確立されたモデルを使用して最適なモデルを選択する方法です。

どのような機能が必要ですか

特徴選択はモデル選択と密接に関連しています。

モデルの正規化

モデルの正規化は機械学習において非常に重要であり、AI 実践者にとって最も強力なツールの 1 つです。

モデルアンサンブル

名前が示すように、アンサンブルの中心的なアイデアは、オーケストラで楽器を組み合わせるのと同じように、モデルのグループを組み合わせて、より高性能なモデルを取得することです。このセクションでは、機械学習で調和のとれた「音」を取得する方法について説明します。

モデル評価

モデル評価は、トレーニングと相互検証にとって特に重要です。

教師なし学習

ショッピングカート分析

マーケットバスケット分析は、さまざまなアイテムの組み合わせ間の関係と、特定のバスケットにアイテムが出現する頻度を分析する問題を解決する教師なし学習アルゴリズムの例です。

K平均法クラスタリングアルゴリズム

このセクションでは、データクラスタリングの観点から教師なし学習についてさらに詳しく説明します。ここでは、AI 実践者が最もよく使用するクラスタリングアルゴリズムの 1 つである K 平均法クラスタリングアルゴリズムを紹介します。

主成分分析

主成分分析は、このリソースで紹介される最初のデータ次元削減手法です。少し複雑に聞こえますが、中核となる次元削減手法は非常に直感的なアイデアです。

ディープラーニング

フィードフォワードニューラルネットワーク

著者は、フィードフォワードニューラルネットワークから始めて、ディープラーニングを詳細に探求し始めます。ディープラーニングは主にニューラルネットワークの研究であるため、著者は資料の中で、フィードフォワードニューラルネットワークから始めて、ニューラルネットワークモデルについても詳しく紹介しています。

ニューラルネットワークの実践

前のセクションでは、フィードフォワードニューラルネットワークの例を紹介しましたが、活性化関数、重み設定、ニューラルネットワーク理論のその他の側面など、いくつかの詳細は省略しました。このセクションではこれらの問題をまとめます。

畳み込みニューラルネットワーク

2012年、トロント大学の研究チームは、ニューラルネットワークのみを使用して構築された世界初の画像認識システムであるAlexNetを提案し、ImageNetコンペティションで目立った成果を上げました。このマイルストーンは、畳み込みニューラルネットワークアーキテクチャがこの転換点の中心にある今日の人工知能の波を加速させるのに役立ちました。

リカレントニューラルネットワーク

畳み込みニューラルネットワークは視覚タスクに関連付けられており、再帰型ニューラルネットワークは言語関連の問題の標準モデルとして使用されてきました。実際、自然言語の研究者は長い間、リカレントネットワークがあらゆる自然言語の問題に対して SOTA 結果を達成できると信じていました。これは単一のモデルにとっては難しい注文です。しかし、今日に至るまで、リカレントニューラルネットワークは自然言語タスクにおいて依然として優れたパフォーマンスを発揮しています。

著者について

このドキュメントの著者は、Amazon Alexa AI の機械学習科学者であり、会話型人工知能を主な研究分野とする Mihail Eric です。 Mihail Eric は以前、スタンフォード大学でコンピュータサイエンスの修士号を取得しました。 Mihail Eric は、目標指向の会話型ボットの構築と、計算意味論およびテキスト推論の研究に長年取り組んできました。

<<: YOLOv5の魔法：手話を学び、聴覚障害者を支援する

>>: Python での遺伝的アルゴリズムによるガベージコレクション戦略の最適化