アンドリュー・ン:機械学習の6つのコアアルゴリズム

アンドリュー・ン:機械学習の6つのコアアルゴリズム

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

最近、Andrew Ng 氏は自身が創設した週刊人工知能ニュースレター「The Batch」のブログ記事を更新し、機械学習分野におけるいくつかの基本的なアルゴリズムの歴史的起源をまとめました。記事の冒頭で、Andrew Ng 氏は研究者としてのキャリアの中で下した決断を思い出しました。何年も前、あるプロジェクトでアルゴリズムを選択する際に、ニューラル ネットワークと決定木学習アルゴリズムのどちらかを選択する必要がありました。コンピューティング予算を考慮して、彼は最終的にニューラル ネットワークを選択し、強化された決定木を長い間放棄しました。これは間違った決断だった。「幸運にも私のチームはすぐに選択を変え、プロジェクトは成功しました」とアンドリュー・ン氏は語った。そのため、基本的な知識を常に学び、更新することが非常に重要であると彼は嘆いた。他の技術分野と同様に、機械学習の分野も研究者の数が増え、研究成果が増えるにつれて常に進化しています。しかし、いくつかの基本的なアルゴリズムと中核となるアイデアは、時の試練に耐えてきました。

  • アルゴリズム: 線形回帰、ロジスティック回帰、決定木など。
  • 概念: 正則化、最適化損失関数、バイアス/分散など。

Andrew Ng 氏の見解では、これらのアルゴリズムと概念は、住宅価格予測器、テキスト画像ジェネレーター (DALL E など) など、多くの機械学習モデルの中核となるアイデアです。この最新の記事では、Andrew Ng 氏と彼のチームが 6 つの基本的なアルゴリズムの起源、用途、進化を調査し、比較的詳細な説明を提供しました。 6 つのアルゴリズムは、線形回帰、ロジスティック回帰、勾配降下法、ニューラル ネットワーク、決定木、および k 平均法クラスタリング アルゴリズムです。

1 線形回帰:直線的かつ狭い

線形回帰は機械学習における重要な統計手法ですが、苦労せずに実現できるわけではありません。これは二人の優れた数学者によって提唱されましたが、200年経った今でもその問題は未解決のままです。長年にわたる論争は、このアルゴリズムの驚くべき有用性を証明するだけでなく、その本質的な単純さも証明している。

では、線形回帰は誰のアルゴリズムなのでしょうか? 1805 年、フランスの数学者アドリアン・マリー・ルジャンドルは、彗星の位置を予測しようとする際に、一連の点に直線を当てはめる方法を発表しました (天体航法は、今日の人工知能と同様に、当時の世界商業において最も価値のある科学的方向性でした)。

キャプション:アドリアン・マリー・ルジャンドルによるスケッチ4年後、24歳のドイツの天才カール・フリードリヒ・ガウスは、1795年からこれを使っていたと主張したが、書くには些細すぎると考えていた。ガウスの主張を受けて、ルジャンドルは「非常に有名な幾何学者がためらうことなくこの方法を採用した」と記した匿名の記事を発表した。

カール・フリードリヒ・ガウスの傾きとバイアス: 線形回帰は、結果とそれに影響を与える変数の関係が直線に従う場合に役立ちます。たとえば、車の燃料消費量は車の重量と比例関係にあります。

  • 車の燃料消費量 y と重量 x の関係は、直線の傾き w (重量に応じて燃料消費量がどれだけ増加するか) とバイアス項 b (重量がゼロのときの燃料消費量) によって決まります: y=w*x+b。
  • トレーニング中、車の重量が与えられると、アルゴリズムは予想される燃料消費量を予測します。予想燃料消費量と実際の燃料消費量を比較します。次に、通常は通常の最小二乗法を使用して二乗差を最小化し、w と b の値を最適化します。
  • 車の抗力を考慮すると、より正確な予測が可能になります。追加の変数により、線が平面に延長されます。このように、線形回帰は任意の数の変数/次元に対応できます。

普遍性に向けた 2 つのステップ: このアルゴリズムは、すぐに航海士が星を追跡するのに役立ち、その後は生物学者 (特にチャールズ ダーウィンのいとこであるフランシス ゴルトン) が植物や動物の遺伝形質を特定するのに役立ちました。これら 2 つのさらなる開発により、線形回帰の幅広い可能性が解き放たれました。 1922 年、イギリスの統計学者ロナルド・フィッシャーとカール・ピアソンは、線形回帰が相関と分布の一般的な統計的枠組みにどのように適合し、あらゆる科学に役立つかを示しました。そして、ほぼ 1 世紀後、コンピューターの出現により、それをはるかに広範囲に活用するためのデータと処理能力が提供されました。

曖昧さへの対処: もちろん、データが完全に測定されることはなく、一部の変数は他の変数よりも重要です。こうした人生の事実が、より複雑なバリエーションを生み出します。たとえば、正規化を伴う線形回帰 (リッジ回帰とも呼ばれる) では、線形回帰モデルが 1 つの変数に過度に依存しないように、より正確には、最も重要な変数に均等に依存するように促します。簡単にするために、別の形式の正規化(L2 ではなく L1)を使用すると、できるだけ多くの係数がゼロになるようにする Lasso(圧縮された推定値)が生成されます。つまり、予測力の高い変数を選択し、残りを無視することを学習します。弾性ネットは、これら 2 種類の正規化を組み合わせます。データがまばらな場合や、特徴が相関しているように見える場合に役立ちます。

各ニューロン内: 現在、シンプルなバージョンでも非常に便利です。ニューラル ネットワークで最も一般的なニューロンの種類は、非線形活性化関数が続く線形回帰モデルであり、線形回帰はディープラーニングの基本的な構成要素となります。

2 ロジスティック回帰:曲線に従う

ロジスティック回帰がただ 1 つの事柄を分類するために使用されていた時代がありました。つまり、毒の入った瓶を飲んだ場合、その人が「生きている」と分類される可能性が高いのか、「死んでいる」と分類される可能性が高いのか、ということです。時代は変わり、今日では、緊急サービスに電話することでこの質問に対するより良い答えが得られるだけでなく、ロジスティック回帰はディープラーニングの中心でもあります。

毒物管理: ロジスティック関数は、1830 年代にベルギーの統計学者 PF Verhulst が人口動態を説明するために考案したものです。時間の経過とともに、指数関数的な成長の初期爆発は利用可能なリソースを消費するにつれて平坦化し、特徴的なロジスティック曲線を生み出します。それから1世紀以上経って、アメリカの統計学者EBウィルソンと彼の学生ジェーン・ウースターは、特定の有害物質が致死的になる可能性を計算するためにロジスティック回帰を設計しました。

図 1: PF Verhulst適合関数: ロジスティック回帰は、特定のイベント (例: ストリキニーネの摂取) が発生した場合に特定の結果 (例: 早期死亡) が発生する確率を予測するために、データ セットにロジスティック関数を適合させます。

  • トレーニングでは、曲線の中心位置を水平方向に調整し、曲線の中央位置を垂直方向に調整して、関数の出力とデータ間の誤差を最小限に抑えます。
  • 中心を右または左に調整すると、平均的な人を殺すために必要な毒の量が増減することを意味します。坂の急峻さは確実性を意味し、中間点まではほとんどの人が生き残り、中間点を超えると「さよなら」(死を意味する)となる。緩やかな傾斜のほうが寛容です。曲線の真ん中より下では、半分以上が生き残りますが、それより上では半分以下しか生き残りません。
  • ある結果と別の結果の間にしきい値(たとえば 0.5)を設定すると、曲線は分類子になります。モデルに投与量を入力するだけで、パーティーを計画すべきか、葬式を計画すべきかがわかります。

さらなる結果: ヴェルフルスト氏の研究は、中毒被害者が死後の世界のどちら側に入るかといったさらなる可能性を無視して、二者択一の結果の確率を発見した。彼の後継者たちはアルゴリズムを拡張しました。

  • 1960 年代後半、イギリスの統計学者デイビッド・コックスとオランダの統計学者アンリ・テイルは、それぞれ独立して、2 つ以上の結果が考えられる状況にロジスティック回帰を適用しました。
  • さらなる研究の結果、順序付けられた値が得られる順序ロジスティック回帰が生まれました。
  • ロジスティック回帰では、スパースなデータや高次元データを処理するために、線形回帰と同じ正規化手法を利用できます。

図のキャプション: David Cox多機能曲線: ロジスティック関数は広範囲の現象をかなり正確に記述するため、ロジスティック回帰は多くの場合、有用なベースライン予測を提供します。医学では、死亡率や病気のリスクを推定することができます。政治学では、選挙の勝者と敗者を予測します。経済学では、ビジネスの見通しを予測します。さらに重要なのは、さまざまなニューラル ネットワーク (非線形性はシグモイド関数) 内のニューロンのサブセットを駆動することです。

3 勾配降下法:すべては下り坂

夕暮れ後に山をハイキングしていて、下には何も見えないことに気づいたと想像してみてください。携帯電話のバッテリーが切れているので、GPS アプリを使って家に帰る道を見つけることができません。おそらく、勾配降下法で最速の経路が見つかるでしょう。崖から落ちないように注意してください。太陽とカーペット:急な地形を下るよりも、勾配降下の方が有利です。 1847 年、フランスの数学者オーギュスタン=ルイ・コーシーは、星の軌道を近似するアルゴリズムを発明しました。 60年後、同胞のジャック・アダマールが独自にこの法則を開発し、カーペットなどの薄くて柔軟な物体の変形を記述して、膝をついてのハイキングを容易にすることができた。ただし、機械学習では、学習アルゴリズムの損失関数の最小点を見つけるのが最も一般的な用途です。

図 1: オーギュスタン=ルイ・コーシーの下降: トレーニングされたニューラル ネットワークは、与えられた入力に対して目的の出力を計算する関数を提供します。ネットワークをトレーニングする方法の 1 つは、実際の出力と目的の出力の差を繰り返し計算し、その差が小さくなるようにネットワークのパラメータ値を変更することで、出力の損失、つまりエラーを最小限に抑えることです。

勾配降下法は差異を減らし、損失を計算する関数を最小化します。ネットワークのパラメータ値は地形上の位置に相当し、失われるのは現在の高さです。下に行くほど、目的の出力に近いものを計算するネットワークの能力が向上します。典型的な教師あり学習の場合、アルゴリズムはネットワークのパラメータ値と損失関数の勾配または傾き、つまり、丘の上のどこにいるのか、そしてその下の傾斜のみに依存するため、可視性は制限されます。

  • 基本的なアプローチは、地形の最も急な下り坂の方向に移動することです。コツは歩幅を調整することです。あまりに小さな一歩を踏み出すと、進歩するのに長い時間がかかります。あまりに大きな一歩を踏み出すと、未知の領域に飛び込むことになり、下り坂ではなく上り坂になるでしょう。
  • 現在の位置が与えられると、アルゴリズムは損失関数の勾配を計算して、最速降下の方向を推定します。勾配は上り坂を指しているため、アルゴリズムは勾配の小さな部分を減算して反対方向に進みます。学習率と呼ばれる分数 α は、勾配を再度測定するまでにかかる時間を決定します。
  • これらの手順を何度も繰り返して実行すれば、谷に到達できるはずです。おめでとう!

谷間に閉じ込められた: アルゴリズムがおそらくあなたを凸状の丘の底まで押し上げなかったため、携帯電話が故障したのは残念です。最終的には、複数の谷 (局所的最小値)、山 (局所的最大値)、鞍点 (鞍点)、および高原で構成される非凸の地形になる場合があります。実際、画像認識、テキスト生成、音声認識などのタスクはすべて非凸であり、この状況に対処するために勾配降下法のさまざまなバリエーションが開発されてきました。

たとえば、アルゴリズムには、小さな上昇と下降を増幅して底値に到達する可能性を高める勢いがある可能性があります。研究者たちは非常に多くのバリエーションを考案したため、局所最小値の数と同じ数の最適化装置があるかのように思われた。幸いなことに、局所最小値と全体最小値はほぼ等しくなる傾向があります。

最適オプティマイザー: 勾配降下法は、あらゆる関数の最小値を見つけるための明確な選択肢です。正確な解を直接計算できる場合(たとえば、多数の変数を持つ線形回帰タスク)は、値を近似することができ、多くの場合、より高速かつ安価になります。しかし、複雑な非線形タスクでは真価を発揮します。急勾配の下り坂と冒険心があれば、夕食に間に合うように山を抜けられるかもしれません。

4 ニューラルネットワーク:関数の発見

最初に言っておきますが、脳はグラフィック処理装置の集合体ではありません。もしそうだとしたら、脳が実行するソフトウェアは、典型的な人工ニューラル ネットワークよりもはるかに複雑になるでしょう。ニューラル ネットワークは、脳の構造にヒントを得たものです。相互接続されたニューロンの層で、各ニューロンは隣接するニューロンの状態に基づいて独自の出力を計算し、その結果生じる一連の活動によって思考が形成されます (または、猫の写真を認識します)。

生物学的から人工的へ: 脳がニューロン間の相互作用を通じて学習するという考えは 1873 年に遡りますが、アメリカの神経科学者ウォーレン・マカロックとウォルター・ピッツが単純な数学的ルールを使用して生物学的ニューラル ネットワーク モデルを構築したのは 1943 年になってからでした。 1958年、アメリカの心理学者フランク・ローゼンブラットは、アメリカ海軍向けのハードウェア版を構築することを目的として、パンチカードマシン上に実装された単層視覚ネットワークであるセンサーを開発しました。

キャプション: フランク・ローゼンブラット大きいほど良い: ローゼンブラットの発明は、単一行の分類しか認識できません。その後、ウクライナの数学者アレクセイ・イヴァクネンコとヴァレンティン・ラパは、ニューロンのネットワークを任意の数の層に積み重ねることでこの制限を克服しました。

1985 年、フランスのコンピューター科学者ヤン・ルカンとデビッド・パーカーは独立して研究し、アメリカの心理学者デビッド・ルメルハートとその同僚は、バックプロパゲーションを使用してそのようなネットワークを効率的にトレーニングする方法を説明しました。

新世紀の最初の 10 年間で、Kumar Chellapilla、Dave Steinkraus、Rajat Raina (Andrew Ng と共同) などの研究者は、グラフィックス プロセッシング ユニットを使用してニューラル ネットワークをさらに進化させ、インターネットによって生成される膨大な量のデータから学習できるニューラル ネットワークの規模を拡大しました。

あらゆるタスクに適しています: ニューラル ネットワークの原理は単純です。あらゆるタスクに対して、それを実行できる関数が存在します。ニューラル ネットワークは、単純な関数をトレーニング可能な関数に組み合わせたもので、各関数は単一のニューロンによって実行されます。ニューロンの機能は、「重み」と呼ばれる調整可能なパラメータによって決まります。

入力例とその望ましい出力に対するこれらの重みとランダムな値が与えられると、トレーニング可能な関数が手元のタスクを達成するまで、重みを繰り返し変更できます。

  • ニューロンはさまざまな入力(ピクセルや単語を表す数値、または前の層の出力など)を受け取り、それらを重みで乗算し、積を加算して、開発者が選択した非線形関数または活性化関数の合計を生成します。この期間中、活性化関数を使用した線形回帰であることを考慮する必要があります。
  • トレーニングによって重量が変わります。各サンプル入力に対して、ネットワークは出力を計算し、それを予想される出力と比較します。バックプロパゲーションは、勾配降下法によって重みを変更し、実際の出力と予想される出力の差を減らします。このプロセスが十分な数の(良い)例で十分な回数繰り返されると、ネットワークはタスクを実行することを学習します。

ブラック ボックス: 運が良ければ、十分にトレーニングされたネットワークはタスクを達成できますが、多くの場合、数千の変数とネストされた活性化関数を含む非常に複雑な関数を読み取ることになり、ネットワークがどのようにタスクを正常に達成したかを解釈するのは困難です。さらに、十分にトレーニングされたネットワークの良し悪しは、学習元のデータの品質によって決まります。

たとえば、データセットに偏りがある場合、ネットワークの出力にも偏りが生じます。高解像度の猫の写真だけが含まれている場合、低解像度の写真に対してどのように反応するかは不明です。常識: 1958 年にローゼンブラットがセンサーを発明したことを報じたニューヨーク タイムズ紙は、「米国海軍は、歩く、話す、見る、書く、自己複製する、そして自身の存在を認識することができるプロトタイプの電子コンピューターを所有することを期待している」と記し、AI の誇大宣伝の先駆けとなった。

当時のセンサーは期待に応えられませんでしたが、画像用の畳み込みニューラル ネットワーク、テキスト用の再帰型ニューラル ネットワーク、画像、テキスト、音声、ビデオ、タンパク質構造などのトランスフォーマーなど、多くの優れたモデルが生まれました。

彼らはすでに、囲碁で人間のパフォーマンスを上回り、X線画像の診断などの実用的なタスクで人間のパフォーマンスに近づくなど、驚くべき成果を上げています。しかし、常識や論理的推論に関する問題は、依然として対処が難しい。

5 決定木: ルートからリーフまで

アリストテレスはどんな「獣」なのでしょうか? 3 世紀にシリアに住んでいた哲学者の信奉者ポルピュリオスは、この質問に論理的に答える方法を考案しました。

彼は、アリストテレスが提唱した「存在のカテゴリー」を一般的なものから具体的なものまで組み合わせ、アリストテレスを各カテゴリーに順番に分類しました。アリストテレスの存在は概念的または精神的なものではなく物質的なものであり、彼の身体は無生物ではなく生物的なものであり、彼の思考は非合理的なものではなく理性的なものである。

したがって、彼の分類は人間です。中世の論理学の教師は、この順序を垂直のフローチャート、つまり初期の意思決定ツリーとして描きました。

デジタルの違い: 1963 年に話は進み、ミシガン大学の社会学者ジョン・ソンキストと経済学者ジェームズ・モーガンが、調査回答者をグループ化する際にコンピューター上で初めて決定木を実装しました。アルゴリズムを自動的にトレーニングするソフトウェアの登場により、このような作業は一般的になり、scikit-learn を含むさまざまな機械学習ライブラリで決定木が使用されるようになりました。このコードは、スタンフォード大学とカリフォルニア大学バークレー校の 4 人の統計学者によって 10 年かけて開発されました。現在、決定木をゼロから書くことは機械学習 101 の宿題です。

空中のルート: 決定木は分類または回帰のいずれかを実行できます。これはルートからクラウンまで下方向に成長し、入力例を 2 つ (またはそれ以上) の決定階層に分類します。ドイツの医師で人類学者のヨハン・ブルーメンバッハの研究を考えてみましょう。1776年頃、彼はサルと類人猿(人間を除く)を初めて区別しました。それまで、類人猿とサルはひとまとめにされていました。

この分類は、犬に尻尾があるかどうか、胸が狭いか広いか、直立しているかしゃがんでいるか、知能のレベルなど、さまざまな基準に基づいています。訓練された決定木を使用して動物にラベルを付け、各基準を 1 つずつ考慮し、最終的に 2 つの動物グループを分離しました。

  • ツリーはルート ノードから始まります。ルート ノードは、チンパンジー、ゴリラ、オランウータン、オマキザル、ヒヒ、マーモセットなど、ケースを含むすべての生物のデータベースと考えることができます。ルートは、特定の機能を表示するかどうかについて 2 つの子ノードの間で選択肢を提供し、その結果、その機能を含む例と含まない例を含む 2 つの子ノードが生成されます。このように、プロセスは任意の数のリーフ ノードで終了し、各リーフ ノードには 1 つのカテゴリに属する​​項目のほとんどまたはすべてが含まれます。
  • 木が成長するには、根の決定をしなければなりません。選択を行うには、すべての特徴とその値(後肢、樽状の胸部など)を考慮し、セグメンテーションの純度を最大化するものを 1 つ選択する必要があります。 「最適な純度」とは、特定の子ノードに入るクラスの例が 100% あり、別のノードに入るクラスがまったくない状態として定義されます。たった 1 回の決定でフォークが 100% 純粋になることはめったになく、おそらく今後もないでしょう。このプロセスが続くと、より多くの機能を考慮しても純度があまり上がらなくなるまで、子ノードのレベルが次々と作成されます。この時点で、木は完全に訓練されています。
  • 推論時に、新しい例が決定ツリーを上から下まで通過し、各レベルでさまざまな決定の評価を完了します。含まれるリーフ ノードに含まれるデータ ラベルを取得します。

トップ 10 入り: 人間は広い骨盤、手、接近した歯によって類人猿と区別されるというブルーメンバッハの結論 (後にチャールズ ダーウィンによって覆された) を踏まえると、類人猿やサルだけでなく人間も分類できるように決定木を拡張するとしたらどうなるでしょうか。オーストラリアのコンピューター科学者ジョン・ロス・クインランは、1986 年に ID3 でこれを可能にし、決定木を拡張して非バイナリ結果をサポートしました。 2008 年、C4.5 という拡張改良アルゴリズムが、IEEE 国際データマイニング会議が計画したリストでデータマイニングアルゴリズムのトップ 10 にランクされました。

イノベーションが蔓延する世界では、それが持続力です。葉を戻す: 決定木にはいくつかの欠点があります。多くの階層レベルを追加して、リーフ ノードに 1 つの例のみが含まれるようにすると、データを簡単に過剰適合させることができます。さらに悪いことに、バタフライ効果が発生しやすく、1 つの例を置き換えると、結果のツリーが大きく異なります。

フォレストへ: アメリカの統計学者レオ・ブレイマンとニュージーランドの統計学者アデル・カトラーは、この特徴を有利に利用し、2001 年にランダム フォレストを開発しました。ランダム フォレストは、それぞれが異なる重複する例の選択を処理し、最終結果に投票する決定木のコレクションです。 Random Forest とその類似の XGBoost は過剰適合が発生しにくいため、最も人気のある機械学習アルゴリズムの 1 つとなっています。それは、アリストテレス、ポルフィリウス、ブルーメンバッハ、ダーウィン、ジェーン・グドール、ダイアン・フォッシー、その他何千人もの動物学者を部屋に集めて、自分の分類が最善のものになるように確認するようなものです。

6 K平均法クラスタリング:集団思考

パーティーで他の人の近くに立っている場合、何か共通点がある可能性があります。これが、k-means クラスタリングを使用してデータ ポイントをグループ化する考え方です。グループが人間の組織によって形成されたか、他の力によって形成されたかに関係なく、アルゴリズムはそれを見つけます。爆発からダイヤルトーンまで: ベル研究所の象徴的なイノベーション工場と原子爆弾を発明したマンハッタン計画の卒業生であるアメリカの物理学者スチュアート・ロイドは、1957 年にデジタル信号で情報を分散するための k 平均法クラスタリングを初めて提案しましたが、その研究を公表したのは 1982 年になってからでした。

論文アドレス: https://cs.nyu.edu/~roweis/csc2515-2006/readings/lloyd57.pdf同時に、アメリカの統計学者エドワード・フォーギーが 1965 年に同様の方法を説明し、「ロイド・フォーギー アルゴリズム」という別名が付けられました。センターを見つける: クラスターを同じ考えを持つワーキング グループに分割することを検討します。部屋内の参加者の位置と形成されるグループの数を指定すると、k-means クラスタリングは参加者をほぼ等しいサイズのグループに分け、各グループを中心点または重心の周囲に集めることができます。

  • トレーニング中、アルゴリズムは最初に k 人の人々をランダムに選択して k 個の重心を割り当てます。 (K は手動で選択する必要があり、最適な値を見つけることは簡単ではない場合があります。) 次に、各人物を最も近い重心に関連付けることで、k 個のクラスターを成長させます。
  • 各クラスターについて、そのグループに割り当てられたすべての人の平均位置を計算し、その平均位置を新しい重心として指定します。それぞれの新しい重心は 1 人の人間によって占有されないかもしれませんが、それが何なのでしょうか?人々はチョコレートとフォンデュの周りに集まる傾向があります。
  • 新しい重心を計算した後、アルゴリズムは個体を最も近い重心に再割り当てします。次に、新しい重心を計算し、クラスターを調整するなどして、重心 (およびその周囲のグループ) が動かなくなるまで繰り返します。その後は、新しいメンバーを適切なクラスターに割り当てるのは簡単です。生徒に部屋の中で自分の位置に立ってもらい、最も近い重心を探してもらいます。
  • 注意してください。最初のランダムな重心の割り当てにより、一緒に過ごしたいと思っていた愛すべきデータ中心の AI エキスパートと同じグループに入れない可能性があります。このアルゴリズムはうまく機能しますが、最適な解決策が見つかる保証はありません。

異なる距離: もちろん、クラスター化されたオブジェクト間の距離は大きくする必要はありません。 2 つのベクトル間の任意のメトリックが使用できます。たとえば、パーティ参加者を物理的な距離に基づいてグループ化する代わりに、K 平均法クラスタリングでは、服装、職業、その他の属性に基づいてセグメント化できます。オンラインストアはこれを活用して顧客の好みや行動に基づいて顧客を分類し、天文学者は同じ種類の星をグループ化することができます。データ ポイントの力: このアイデアにより、いくつかの注目すべき変化が生まれました。

  • K-medoids は、特定のクラスター内の平均位置ではなく、実際のデータ ポイントを重心として使用します。中心点とは、クラスター内のすべての点までの距離を最小化する点です。重心は常にデータ ポイントであるため、この変化は解釈が容易になります。
  • ファジー C 平均法クラスタリングでは、データ ポイントをさまざまな程度で複数のクラスターに参加させることができます。ハード クラスター割り当てを、重心からの距離に基づくクラスターの次数に置き換えます。

n 次元カーニバル: それにもかかわらず、元の形式のアルゴリズムは、特に教師なしアルゴリズムとして高価なラベル付きデータの収集を必要としないため、広く有用であり続けています。利用頻度も増加傾向にあります。たとえば、scikit-learn を含む機械学習ライブラリは、高次元データを非常に高速に分割できる kd-tree が 2002 年に追加されたことによる恩恵を受けました。

<<:  宇宙の力を活用してデータを処理しましょう! 「物理ネットワーク」はディープニューラルネットワークよりもはるかに優れている

>>:  米商務省の新規制:承認なしに中国とセキュリティの脆弱性を共有することを禁止、マイクロソフトの異議は無効

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

AIがデータセンターを管理するのに時間がかかる理由

ハイパースケーラーはすでに業務改善のために AI を活用していますが、他のほとんどのデータセンターで...

1時間から3.5分まで、Metaの新しいアルゴリズムは携帯電話で3D顔データを収集できる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Nokelockの「1+2」戦略は、スマートロックを商業利用の新時代へと導きます

5月15日、世界有数のIoTロック企業であるnokelockの製品発表会が北京金宇シェラトンホテルで...

AWS クラウド機械学習を使用したサーバーレスニュースデータパイプラインの構築

[[436699]] [51CTO.com クイック翻訳]アナリストとして、私はニュースや業界の最新...

2021年の中国AI音声認識産業の市場現状と発展見通しの分析

2020年、中国のスマート音声市場規模は113.96億元に達し、前年比19.2%増加した。中国のスマ...

...

世界的なAI人材不足により、各国間の協力とトレーニングが増加

文/張燕現在、世界で人工知能教育が発達している国や地域では、人工知能人材の育成を徐々に国のトップレベ...

2021年チューリング賞発表:高性能コンピューティングの先駆者であり、TOP500スーパーコンピューティングリストの共同創設者であるジャック・ドンガラが受賞

丸一日待った後、ついに答えが明らかになりました!先ほど、2021年のチューリング賞が発表されました。...

...

ChatGPTがまた進化しました!オールインワンツール、ネットユーザー:今日、起業プロジェクトがいくつ消滅したか

ChatGPT は一晩で静かにアップデートされ、数多くの起業家プロジェクトが始動しようとしています。...

リソースインベントリ: 便利な自動データサイエンスおよび機械学習ソフトウェア

[[208290]]概要: この記事では、海外の便利な自動データ サイエンスおよび機械学習ソフトウェ...

...