機械学習ツールボックスには6つの重要なアルゴリズムが隠されています

1. 線形回帰

フランスの数学者アドリアン・マリー・ルジャンドルは、彗星の将来の位置を予測することに常に夢中になっていて、彗星の過去の位置からその軌道を計算する方法の開発に着手した。

いくつかのアプローチを試した後、ようやく進歩が見られました。

ルジャンドルは、彗星の将来の位置を推測することから始め、データを記録し、それを分析し、最後にデータを通じて推測を検証して二乗誤差の合計を減らしました。

これが線形回帰の種でした。

普遍性に向けた 2 つのステップ:このアルゴリズムは、すぐに航海士が星を追跡するのに役立ち、その後、生物学者 (特にチャールズダーウィンのいとこであるフランシスゴルトン) が植物や動物の遺伝形質を特定するのに役立ちました。これら 2 つのさらなる開発により、線形回帰の幅広い可能性が解き放たれました。 1922 年、イギリスの統計学者ロナルド・フィッシャーとカール・ピアソンは、線形回帰が相関と分布の一般的な統計的枠組みにどのように適合し、あらゆる科学に役立つかを示しました。そして、ほぼ 1 世紀後、コンピューターの出現により、それをはるかに広範囲に活用するためのデータと処理能力が提供されました。

曖昧さへの対処:もちろん、データが完全に測定されることはなく、一部の変数は他の変数よりも重要です。こうした人生の事実が、より複雑なバリエーションを生み出します。たとえば、正規化を伴う線形回帰 (リッジ回帰とも呼ばれる) では、線形回帰モデルが 1 つの変数に過度に依存しないように、より正確には、最も重要な変数に均等に依存するように促します。簡単にするために、別の形式の正規化（L2 ではなく L1）を使用すると、できるだけ多くの係数がゼロになるようにする Lasso（圧縮された推定値）が生成されます。つまり、予測力の高い変数を選択し、残りを無視することを学習します。弾性ネットは、これら 2 種類の正規化を組み合わせます。データがまばらな場合や、特徴が相関しているように見える場合に役立ちます。

各ニューロン内:現在、シンプルなバージョンでも非常に便利です。ニューラルネットワークで最も一般的なニューロンの種類は、非線形活性化関数が続く線形回帰モデルであり、線形回帰はディープラーニングの基本的な構成要素となります。

2. ロジスティック回帰

ロジスティック回帰がただ 1 つの事柄を分類するために使用されていた時代がありました。つまり、毒の入った瓶を飲んだ場合、その人が「生きている」と分類される可能性が高いのか、「死んでいる」と分類される可能性が高いのか、ということです。

現在、救急科に電話するとこの質問に対するより良い答えが得られるだけでなく、ロジスティック回帰はディープラーニングの中心でもあります。

この関数は 1830 年代にベルギーの統計学者 PF Verhulst が人口動態を説明するために考案したものです。時間の経過とともに、初期の指数関数的増加は利用可能なリソースを消費するにつれて平坦化し、特徴的なロジスティック曲線を生み出します。

それから1世紀以上経って、アメリカの統計学者EBウィルソンと彼の学生ジェーン・ウースターは、特定の有害物質が致死的になる可能性を計算するためにロジスティック回帰を設計しました。

3. 勾配降下法

夕暮れ後に山をハイキングしていて、自分の足元以外は何も見えないことに気づくことを想像してみてください。

携帯電話のバッテリーが切れているため、GPS を使って家に帰る道を見つけることができません。

おそらく、勾配降下法で最速の経路が見つかるでしょうが、崖から落ちないように注意してください。

1847 年、フランスの数学者オーギュスタン＝ルイ・コーシーは、星の軌道を近似するアルゴリズムを発明しました。

60年後、同胞のジャック・アダマールが独自にこの法則を開発し、カーペットなどの薄くて柔軟な物体の変形を記述して、膝をついてのハイキングを容易にすることができた。

ただし、機械学習では、学習アルゴリズムの損失関数の最小点を見つけるのが最も一般的な用途です。

残念ながらあなたの携帯電話は壊れてしまいました。アルゴリズムがあなたを凸状の丘の底まで押し下げなかった可能性が高いからです。

最終的には、複数の谷 (局所的最小値)、山 (局所的最大値)、鞍点 (鞍点)、および高原で構成される非凸の地形になる場合があります。

実際、画像認識、テキスト生成、音声認識などのタスクはすべて非凸であり、この状況に対処するために勾配降下法のさまざまなバリエーションが開発されてきました。

たとえば、アルゴリズムには、小さな上昇と下降を増幅して底値に到達する可能性を高める勢いがある可能性があります。

研究者たちは非常に多くのバリエーションを考案したため、局所最小値の数と同じ数の最適化装置があるかのように思われた。

幸いなことに、局所最小値と全体最小値はほぼ等しくなる傾向があります。

勾配降下法は、あらゆる関数の最小値を見つけるための明確な選択肢です。多数の変数を持つ線形回帰タスクなど、正確な解を直接計算できる場合は、値を近似することができ、多くの場合、より高速かつ安価になります。

しかし、複雑な非線形タスクでは真価を発揮します。

急勾配の下り坂と冒険心があれば、夕食に間に合うように山を抜けられるかもしれません。

4. ニューラルネットワーク

はっきりさせておきたいのは、脳はグラフィック処理装置の集合体ではないということです。もしそうだとしたら、脳が実行するソフトウェアは、典型的な人工ニューラルネットワークよりもはるかに複雑なものになるでしょう。

しかし、ニューラルネットワークは脳の構造にヒントを得たものです。つまり、相互接続されたニューロンの層で、各ニューロンは隣接するニューロンの状態に基づいて独自の出力を計算します。結果として生じる一連の活動によって思考が形成され、あるいは猫の写真が認識されます。

生物学的から人工的へ:脳がニューロン間の相互作用を通じて学習するという考えは 1873 年に遡りますが、アメリカの神経科学者ウォーレン・マカロックとウォルター・ピッツが単純な数学的ルールを使用して生物学的ニューラルネットワークモデルを構築したのは 1943 年になってからでした。

1958年、アメリカの心理学者フランク・ローゼンブラットは、アメリカ海軍向けのハードウェア版を構築することを目的として、パンチカードマシン上に実装された単層視覚ネットワークであるセンサーを開発しました。

ローゼンブラットの発明では、単一行の分類しか認識できませんでした。

その後、ウクライナの数学者アレクセイ・イヴァクネンコとヴァレンティン・ラパは、ニューロンのネットワークを任意の数の層に積み重ねることでこの制限を克服しました。

1985 年、フランスのコンピューター科学者ヤン・ルカンとデビッド・パーカーは独立して研究し、アメリカの心理学者デビッド・ルメルハートとその同僚は、バックプロパゲーションを使用してそのようなネットワークを効率的にトレーニングする方法を説明しました。

新世紀の最初の 10 年間で、Kumar Chellapilla、Dave Steinkraus、Rajat Raina (Andrew Ng と共同) などの研究者は、グラフィックスプロセッシングユニットを使用してニューラルネットワークをさらに進化させ、インターネットによって生成される膨大な量のデータから学習できるニューラルネットワークの規模を拡大しました。

1958年にローゼンブラットがセンサーを発明したことを報じたニューヨークタイムズ紙は、「アメリカ海軍は、歩く、話す、見る、書く、自己複製する、そして自身の存在を認識することができるプロトタイプの電子コンピューターを所有することを期待している」と記し、AIをめぐる誇大宣伝の先駆けとなった。

当時のセンサーは期待に応えられませんでしたが、画像用の畳み込みニューラルネットワーク、テキスト用の再帰型ニューラルネットワーク、画像、テキスト、音声、ビデオ、タンパク質構造などのトランスフォーマーなど、多くの優れたモデルが生まれました。

彼らはすでに、囲碁で人間のパフォーマンスを上回り、X線画像の診断などの実用的なタスクで人間のパフォーマンスに近づくなど、驚くべき成果を上げています。

しかし、常識や論理的推論に関する問題は、依然として対処が難しい。

5. 決定木

アリストテレスはどんな「獣」なのでしょうか？ 3 世紀にシリアに住んでいた哲学者の信奉者ポルピュリオスは、この質問に論理的に答える方法を考案しました。

彼は、アリストテレスの「存在のカテゴリー」を一般的なものから特定のものへと分類し、アリストテレスを各カテゴリーに順番に配置しています。

アリストテレスの存在は概念的または精神的というよりは物質的であり、彼の肉体は無生物というよりは生物的であり、彼の心は非合理的というよりは合理的である。

したがって、彼の分類は人間です。

中世の論理学の教師は、この順序を垂直のフローチャート、つまり初期の意思決定ツリーとして描きました。

時は進み、1963年、ミシガン大学の社会学者ジョン・ソンキストと経済学者ジェームズ・モーガンが、調査回答者をグループ化する際に、初めてコンピューターに決定木を実装しました。

アルゴリズムを自動的にトレーニングするソフトウェアの登場により、このような作業は一般的になり、scikit-learn を含むさまざまな機械学習ライブラリで決定木が使用されるようになりました。

このコードは、スタンフォード大学とカリフォルニア大学バークレー校の 4 人の統計学者によって 10 年かけて開発されました。現在、決定木をゼロから書くことは機械学習 101 の宿題です。

決定木は分類または回帰を実行できます。これはルートからクラウンまで下方向に成長し、入力例を 2 つ (またはそれ以上) の決定階層に分類します。

ドイツの医師で人類学者のヨハン・ブルーメンバッハの研究を考えてみましょう。1776年頃、彼はサルと類人猿（人間を除く）を初めて区別しました。それまで、類人猿とサルはひとまとめにされていました。

この分類は、犬に尻尾があるかどうか、胸が狭いか広いか、直立しているかしゃがんでいるか、知能のレベルなど、さまざまな基準に基づいています。訓練された決定木を使用して動物にラベルを付け、各基準を 1 つずつ考慮し、最終的に 2 つの動物グループを分離しました。

人間は広い骨盤、手、接近した歯によって類人猿と区別されるというブルーメンバッハの結論（後にチャールズ・ダーウィンによって覆された）を考えると、類人猿やサルだけでなく人間も分類できるように決定木を拡張したいとしたらどうなるでしょうか。

オーストラリアのコンピューター科学者ジョン・ロス・クインランは、1986 年に ID3 でこれを可能にし、決定木を拡張して非バイナリ結果をサポートしました。

2008 年、C4.5 という拡張改良アルゴリズムが、IEEE 国際データマイニング会議が計画したリストでデータマイニングアルゴリズムのトップ 10 にランクされました。

アメリカの統計学者レオ・ブレイマンとニュージーランドの統計学者アデル・カトラーは、この特徴をうまく利用し、2001 年にランダムフォレストを開発しました。ランダムフォレストは、それぞれ異なる重複する例の選択を処理し、最終結果に投票する決定木の集合です。

Random Forest とその類似の XGBoost は過剰適合が発生しにくいため、最も人気のある機械学習アルゴリズムの 1 つとなっています。

それは、アリストテレス、ポルフィリウス、ブルーメンバッハ、ダーウィン、ジェーン・グドール、ダイアン・フォッシー、その他何千人もの動物学者を部屋に集めて、自分の分類が最善のものになるように確認するようなものです。

6. K平均法アルゴリズム

パーティーで他の人の近くに立っている場合、何か共通点がある可能性が高くなります。これが、k-means クラスタリングを使用してデータポイントをグループ化する考え方です。

グループが人間の組織によって形成されたか、他の力によって形成されたかに関係なく、アルゴリズムはそれを見つけます。

爆発からダイヤルトーンまで:ベル研究所の象徴的なイノベーション工場と原子爆弾を発明したマンハッタン計画の卒業生であるアメリカの物理学者スチュアート・ロイドは、1957 年にデジタル信号で情報を分散する k 平均法クラスタリングを初めて提案しましたが、その研究を発表したのは 1982 年になってからでした。

同時に、アメリカの統計学者エドワード・フォーギーが 1965 年に同様の手法を解説し、「ロイド・フォーギーアルゴリズム」という別名が生まれました。

センターを見つける:クラスターを同じ考えを持つワーキンググループに分割することを検討します。部屋内の参加者の位置と形成されるグループの数を指定すると、k-means クラスタリングは参加者をほぼ等しいサイズのグループに分け、各グループを中心点または重心の周囲に集めることができます。

トレーニング中、アルゴリズムは最初に k 人の人々をランダムに選択して k 個の重心を割り当てます。 (K は手動で選択する必要があり、最適な値を見つけることは簡単ではない場合があります。) 次に、各人物を最も近い重心に関連付けることで、k 個のクラスターを成長させます。

各クラスターについて、そのグループに割り当てられたすべての人の平均位置を計算し、その平均位置を新しい重心として指定します。それぞれの新しい重心は 1 人の人間によって占有されないかもしれませんが、それが何なのでしょうか?人々はチョコレートとフォンデュの周りに集まる傾向があります。

新しい重心を計算した後、アルゴリズムは個体を最も近い重心に再割り当てします。次に、新しい重心を計算し、クラスターを調整するなどして、重心 (およびその周囲のグループ) が動かなくなるまで繰り返します。その後は、新しいメンバーを適切なクラスターに割り当てるのは簡単です。生徒に部屋の中で自分の位置に立ってもらい、最も近い重心を探してもらいます。

注意してください。最初のランダムな重心の割り当てにより、一緒に過ごしたいと思っていた愛すべきデータ中心の AI エキスパートと同じグループに入れない可能性があります。このアルゴリズムはうまく機能しますが、最適な解決策が見つかる保証はありません。

異なる距離:もちろん、クラスター化されたオブジェクト間の距離は大きくする必要はありません。 2 つのベクトル間の任意のメトリックが使用できます。たとえば、パーティ参加者を物理的な距離に基づいてグループ化する代わりに、K 平均法クラスタリングでは、服装、職業、その他の属性に基づいてセグメント化できます。オンラインストアはこれを活用して顧客の好みや行動に基づいて顧客を分類し、天文学者は同じ種類の星をグループ化することができます。

データポイントの力:このアイデアにより、いくつかの注目すべき変化が生まれました。

K-medoids は、特定のクラスター内の平均位置ではなく、実際のデータポイントを重心として使用します。中心点とは、クラスター内のすべての点までの距離を最小化する点です。重心は常にデータポイントであるため、この変化は解釈が容易になります。

ファジー C 平均法クラスタリングでは、データポイントをさまざまな程度で複数のクラスターに参加させることができます。ハードクラスター割り当てを、重心からの距離に基づくクラスターの次数に置き換えます。

n 次元カーニバル:それにもかかわらず、元の形式のアルゴリズムは、特に教師なしアルゴリズムとして高価なラベル付きデータの収集を必要としないため、広く有用であり続けます。利用頻度も増加傾向にあります。たとえば、scikit-learn を含む機械学習ライブラリは、高次元データを非常に高速に分割できる kd-tree が 2002 年に追加されたことによる恩恵を受けました。

<<: ビジネス AI とデータの課題に対処する垂直インテリジェンス

>>: コンピュータビジョンがビジネス課題の解決に役立つ 5 つの方法