Scikit-Learn を使用して、MNIST データセットを分類するための K 近傍法アルゴリズムを構築する

K 最近傍アルゴリズム、K-NN とも呼ばれます。今日のディープラーニングの時代では、この古典的な機械学習アルゴリズムは過小評価されることがよくあります。このチュートリアルでは、Scikit-Learn を使用して K 最近傍アルゴリズムを構築し、それを MNIST データセットに適用する方法を説明します。次に、著者は、独自の K-NN アルゴリズムを構築し、Scikit-Learn K-NN よりも正確で高速なアルゴリズムを開発する方法を説明します。

1. K近傍分類モデル

K 最近傍アルゴリズムは実装が簡単な教師あり機械学習アルゴリズムであり、その分類パフォーマンスは非常に堅牢です。 K-NN の利点の 1 つは、SVM、回帰、多層パーセプトロンなどのトレーニングを必要とする他の ML アルゴリズムとは異なり、トレーニングなしでモデルがデータを分類できる、つまり遅延アルゴリズムであることです。

K-NNの仕組み

特定のデータポイント p を分類するために、K-NN モデルはまず、何らかの距離メトリックを使用して p をデータベース内の他のポイントと比較します。

距離メトリックは、ユークリッド距離のように、2 つのポイントを入力として受け取り、それらの間の距離を返す単純な関数です。

したがって、2 つのポイント間の距離が短い方が、2 つのポイント間の距離が長い場合よりも類似していると考えられます。これがK-NNの核となる考え方です。

この手順では、各エントリがモデルデータベース内の p と n のデータポイント間の距離を表す順序付けられていない配列を返します。したがって、返される配列のサイズは n です。

K 最近傍の K の意味は次のとおりです。k は、p を分類するときにモデルが考慮する最も類似したポイントの数を示す任意の値 (通常は 3 ～ 11) です。次に、モデルは最も類似した k 個の値を記録し、投票アルゴリズムを使用して、下の図に示すように、p がどのクラスに属するかを決定します。

上図の K-NN モデルの k 値は 3 で、矢印が指している中心点は p であり、これがアルゴリズムが分類するポイントです。

ご覧のとおり、円内の 3 つの点は p に最も近い、または最も類似した 3 つの点です。したがって、単純な投票アルゴリズムを使用すると、最も類似した k 個の値の中で白が多数派であるため、p は「白」に分類されます。

すごいですね！しかし驚くべきことに、この単純なアルゴリズムは、特定の状況では素晴らしい結果を達成でき、さまざまな問題に適用できます。これについては以下で説明します。

2. Scikit-LearnでK-NNアルゴリズムを実装してMNIST画像を分類する

1. データ

この例では、一般的な MNIST データセットを使用します。 MNIST データセットは、実装が簡単で、モデルを検証するための信頼性の高い方法であるため、機械学習で最もよく使用されるデータセットの 1 つです。

MNIST は、0 ～ 9 の手書き数字 70,000 個のデータセットです。手書きの数字はどれも同じではなく、正しく分類するのが難しい数字もあります。

2. アルゴリズム

まず、Scikit-Learn Python ライブラリの KNeighborsClassifier() 関数から始めます。この関数には多くのパラメータがありますが、この例ではいくつかのパラメータのみを使用します。具体的には、n_neighbors パラメータの値 (つまり、k 値) のみを渡します。

weights パラメータは、モデルで使用される投票アルゴリズムのタイプを指定します。デフォルト値は、uniform です。これは、p を分類するときに、k 個の各ポイントが同じ重みを持つことを意味します。また、Scikit-Learn で MNIST データを分類するための最適なアルゴリズムを自動的に見つけられるようにしたいので、アルゴリズムパラメータにはデフォルト値の auto を使用します。

Scikit-Learn を使用して K-NN 分類器を構築するための Jupyter Notebook は次のとおりです: Scikit-Learn を使用した MNIST の K 近傍法アルゴリズム

ノートブックのアドレス: https://gist.github.com/samgrassi01/82d0e5f89daac3e65531a6ef497cc129#file-skl-knn-ipynb

必要なライブラリを直接インポートすることから始めます。

 [1]では:
 numpyをnpとしてインポートする
 
 sklearn からデータセットをインポートし、model_selection を実行します。
 sklearn.neighbors から KNeighborsClassifier をインポートします
sklearn.metricsからclassification_reportをインポート
 
 mnist = datasets.fetch_mldata ('MNIST オリジナル')
データ、ターゲット= mnist.data 、mnist.target 
 
 # すべてが正しくインポートされたことを確認する
データ.shape、ターゲット.shape
アウト[1]:
 ((70000, 784), (70000,))

（１）データセットの構築

さまざまなデータセットを作成して K-NN モデルを構築します。特定のサイズのデータセットを受け取り、そのデータセットのサイズを返す関数を作成します。

 [2]では:
 # データ セットの作成に使用する MNIST のサイズのインデックス配列を作成します。
 # この配列はランダムな順序になっているので、MNISTデータを混ぜ合わせるために使うことができます
indx = np .random.choice(len(target), 70000, replace = False ) 
 
 # テスト用のデータセットを構築する方法
mk_dataset(サイズ)を定義します:
    「サイズ」のデータセットを作成し、そのデータセットの画像とターゲットを返します。
    これは、モデルによって保存され、
    保存されたデータセットのサイズを変えて実験する
    「」
 train_img = [データ[i]、iはindx[:size]]
 train_img = np.array (train_img)
 train_target = [target[i] for i in indx[:size]]
トレーニングターゲット= np .array(トレーニングターゲット)

良い。ここで、この関数を使用して、異なるサイズの 2 つのデータセットを構築し、異なるデータ量でのモデルの分類パフォーマンスがどのようになるかを確認します。

ヒント: データセットを小さくしても分類は実行できますが、モデルのデータが少なくなり、分類エラーが発生する可能性があります。

 [3]では：
 # データセットのサイズを50,000にします。つまり、モデルには50,000個のデータポイントがあり、それぞれを比較することになります。
 # 新しいポイントは分類することです
50_x、 50_y = mk_dataset (50000)
 50_x.形状、50_y.形状
アウト[3]:
 ((50000, 784), (50000,))
 [4]では：
 # サイズ 20,000 のものをもう 1 つ作成し、それを使用したときに分類精度がどのように低下するかを確認します。
 20_x、 20_y = mk_dataset (20000)
 20_x の形状、20_y の形状
アウト[4]:
 ((20000, 784), (20000,))

モデルのデータがどのようにラベル付けされているかに注目してください。モデルは、各ポイントが何を表しているかを理解するためにこれらのラベルを必要とするため、「これは分類したいポイントに最も類似するクラスです」と言うのではなく、分類したいポイントを特定のクラスに分類することができます。

ここで、サイズ 10000 のテストセットを構築します。

 [5]では：
 # モデルテストデータセットを構築する
test_img = [データ[i]、iはindx[60000:70000]]
 test_img1 = np.array (テスト_img)
 test_target = [target[i] 、i が indx[60000:70000] の場合]
 test_target1 = np .array(test_target)
 test_img1.shape、test_target1.shape
アウト[5]:
 ((10000, 784), (10000,))

素晴らしい！これですべてのデータ処理が完了したので、K-NN モデルの構築を開始できます。

（２）モデル構築

まず、Scikit-Learn K-NN モデルを関数に配置して、簡単に呼び出して調整できるようにします。

 [6]では：
 def skl_knn(k, テストデータ, テストターゲット, 保存データ, 保存ターゲット):
    """k: 分類に使用する近傍の数
    test_data: 分類器をテストするために使用されるデータ/ターゲット
    保存データ: テストデータを分類するために使用されるデータ/ターゲット
    「」 
 
分類子= K近隣分類子( n_近隣= k )
    分類器.fit(保存されたデータ、保存されたターゲット) 
 
 y_pred =分類器.予測(テストデータ) 
 
    印刷(分類レポート(テストターゲット、y_pred))

（３）テスト

ここで、このモデルが 2 つの異なるテストセットでどのように機能するかを見てみましょう。

 [7]では：
 ％％時間
# 保存データセットのサイズは 50,000
 skl_knn(5、テスト画像1、テストターゲット1、50_x、50_y)

 [8]では：
 ％％時間
# 保存データセットのサイズは 20,000
 skl_knn(5、テスト画像1、テストターゲット1、20_x、20_y)

はい！私たちのモデルは人間の目とほぼ同じくらい優れています！ご覧のとおり、モデルが処理するデータが多いほど（20,000 ポイントではなく 50,000 ポイント）、パフォーマンスが大幅に向上します。さらに印象的なのは、そのシンプルさと、さまざまな画像間の複雑な関係を人間レベルで捉える能力です。より詳細な分析については、この GitHub リポジトリをご覧ください。

https://github.com/samgrassi01/Cosine-Similarity-Classifier をご覧ください。

素晴らしい! Scikit-Learn を使用して、MNIST データセットで驚くほど優れたパフォーマンスを発揮する非常にシンプルな K 近傍法モデルを構築しました。

欠点は、これらのポイントを分類するのに長い時間がかかることです (2 つのデータセットでそれぞれ 8 分と 4 分)。皮肉なことに、K-NN は依然として最も高速な分類方法の 1 つです。もっと速い方法が必要です。

3. より高速なモデルを構築する

ほとんどの K-NN モデルでは、距離メトリックとしてユークリッド距離またはマンハッタン距離が使用されます。これらのインジケーターは非常にシンプルで、さまざまな状況でうまく機能します。

あまり一般的ではない別の距離メトリックは、コサイン類似度です。コサイン類似度は、三角不等式に違反し、負の数に対しては無効であるため、通常は距離測定基準として適していません。しかし、コサイン類似度は MNIST に非常に適しています。これは高速で、アルゴリズムが単純であり、MNIST に適用される他の距離メトリックよりもわずかに正確です。

ただし、最高のパフォーマンスを得るには、K-NN モデルを自分で記述する必要があります。そうすれば、Scikit-Learn モデルよりも高いパフォーマンスとさらに高い精度を実現できるはずです。確立された K-NN モデルの次のノートブックを見てみましょう。

より高速な KNN 分類器の構築

ノートブックアドレス:

https://gist.github.com/samgrassi01/15a1fe53dcde8813eed9367b103676b2#file-cos-knn-ipynb

このノートブックでは、より高速でより正確なモデルを見つけるために、距離メトリックとしてコサイン類似度を使用して MNIST 画像を分類する単純な K-NN モデルを構築します。

まず、必要なライブラリをインポートし、Scikit-Learn K-NN ノートブックと同じデータセットを構築する必要があります。

 [1]では:
 numpyをnpとしてインポートする
heapq をインポートする
コレクションからカウンターをインポート
sklearn.metrics.pairwise から cosine_similarity をインポートします
sklearn からデータセットをインポートし、model_selection を実行します。
 sklearn.metricsからclassification_reportをインポート
 
 mnist = datasets.fetch_mldata ('MNIST オリジナル')
データ、ターゲット= mnist.data 、mnist.target 
 
 # すべてが正しくインポートされたことを確認する
データ.shape、ターゲット.shape
アウト[1]:
 ((70000, 784), (70000,))

Scikit-Learn K-NN ノートブックと同じ方法を使用して、まったく同じデータセットを設定します。

 [2]では:
 # データ セットの作成に使用する MNIST のサイズのインデックス配列を作成します。
 # この配列はランダムな順序になっているので、MNISTデータを混ぜ合わせるために使うことができます
indx = np .random.choice(len(target), 70000, replace = False ) 
 
 # テスト用のデータセットを構築する方法
mk_dataset(サイズ)を定義します:
    「サイズ」のデータセットを作成し、そのデータセットの画像とターゲットを返します。
    これは、モデルによって保存され、
    保存されたデータセットのサイズを変えて実験する
    「」
 train_img = [データ[i]、iはindx[:size]]
 train_img = np.array (train_img)
 train_target = [target[i] for i in indx[:size]]
トレーニングターゲット= np .array(トレーニングターゲット) 
 
    train_img、train_targetを返す
[3]では：
 # データセットのサイズを50,000にします。つまり、モデルには50,000個のデータポイントがあり、それぞれを比較することになります。
 # 新しいポイントは分類することです
50_x、 50_y = mk_dataset (50000)
 50_x.形状、50_y.形状
アウト[3]:
 ((50000, 784), (50000,))
 [4]では：
 # サイズ 20,000 のものをもう 1 つ作成し、それを使用したときに分類精度がどのように低下するかを確認します。
 20_x、 20_y = mk_dataset (20000)
 20_x の形状、20_y の形状
アウト[4]:
 ((20000, 784), (20000,))
 [5]では：
 # モデルテストデータセットを構築する
test_img = [データ[i]、iはindx[60000:70000]]
 test_img1 = np.array (テスト_img)
 test_target = [target[i] の i が indx[60000:70000] の場合]
 test_target1 = np .array(test_target)
 test_img1.shape、test_target1.shape
アウト[5]:
 ((10000, 784), (10000,))

1. モデルを構築する

次に、MNIST データセットの分類子として関数 cos_knn() を作成します。関数のコメントを使用すると、関数がどのように動作するかを理解できます。

 [6]では：
 cos_knn(k, テストデータ, テストターゲット, 保存データ, 保存ターゲット):
    """k: 投票に使用する近隣の数
    test_data: 分類する未観測画像のセット
    test_target: test_data のラベル (精度を計算するため)
    saved_data: すでに観測され、モデルで利用可能な画像
    storage_target: 保存データのラベル
    「」 
 
    # test_data のすべてのポイントと、stored_data の他のすべてのポイント間のコサイン類似度を求める
cosim =コサイン類似度(テストデータ、保存データ) 
 
    # 任意の test_data ポイントに最も類似する、stored_data 内の画像の上位 k 個のインデックスを取得します。
 top = [(heapq.nlargest((k), range(len(i)), i.take)) i が cosim 内にある場合]
    # 保存されたターゲット値を使用してインデックスを数値に変換します
top = [[stored_target[j]、j は i[:k]]、i は top] 
 
    # 投票し、test_data 内のすべての画像の予測を返します
pred = [max(set(i), key = i .count) for i in top]
 pred = np .array(pred) 
 
    # test_target を使用して分類器の精度を示す表を印刷する
    印刷(分類レポート(テストターゲット、予測))

2. モデルをテストする

ここで、Scikit-Learn K-NN モデルと同様に、2 つのデータセットで cos_knn() モデルをテストし、パフォーマンスを確認してみましょう。

 [7]では：
 ％％時間
# 保存データセットのサイズは 50,000
 cos_knn(5, テスト画像1, テストターゲット1, 50_x, 50_y)

 [8]では：
 ％％時間
# 保存データセットのサイズは 20,000
 cos_knn(5, テスト画像1, テストターゲット1, 20_x, 20_y)

素晴らしい! コサイン類似度モデルは Scikit-Learn K-NN よりも優れています! また、このモデルは Scikit-Learn K-NN よりも高速かつ正確であり (速度が大幅に向上)、モデルがはるかにシンプルであることも注目に値します。

モデルがどのように機能するか、またさまざまな状況で Scikit-Learn K-NN モデルよりも優れている理由をさらに分析するには、次の GitHub リポジトリを参照してください。

https://github.com/samgrassi01/Cosine-Similarity-Classifier をご覧ください。

ノートブックに示されているように、この K-NN モデルは分類速度と精度の両方で Scikit-Learn K-NN を上回っており、1 つのデータセットで速度が大幅に向上し、精度が 1% 向上しています。そうなると、このモデルを実際に使い続けることができます。

IV. 結論

まず、K-NN がどのように機能し、どのように簡単に実装するかがわかります。しかし、最も重要なことは、解決すべき問題とそれを解決するためのツールについて常に考えることが重要だということが分かりました。場合によっては、問題解決の過程では、時間をかけて練習し、もちろん独自のモデルを構築するのが最善です。ノートブックで実証されているように、これには劇的な利点があります。2 番目の独自モデルでは 1.5 ～ 2 倍の高速化が達成され、多くの時間を節約できました。

オリジナルリンク:

https://towardsdatascience.com/building-improving-ak-nearest-neighbors-algorithm-in-python-3b6b5320d2f8

[この記事は51CTOコラム「Machine Heart」、WeChatパブリックアカウント「Machine Heart（id:almosthuman2014）」によるオリジナル翻訳です]

この著者の他の記事を読むにはここをクリックしてください

<<: 人工知能が教育改革にどのように貢献しているかをご覧ください

>>: 多くの人がまだブロックチェーンについて漠然とした理解しか持っていない中、これらのブロックチェーンの応用シナリオはすでに実装されている。

Scikit-Learn を使用して、MNIST データセットを分類するための K 近傍法アルゴリズムを構築する

AIoT: IoTと人工知能の完璧な組み合わせ

LeCun 氏と xAI 共同創設者の衝突: GPT-4 の主要な推論欠陥に対する解決策はないのか?ネットユーザー：人間も「ランダムなオウム」

マーク・アンドリーセン氏、AIが世界を救うと語る

EU AI法が規則を承認

AIエンジニアの成長ストーリー～働き方編～

AIが物流業界に革命を起こす5つの方法

マトリックスシミュレーション！ Transformer の大型モデルの 3D 視覚化。GPT-3 と Nano-GPT の各層がはっきりと見える

2024年以降に注目すべき10のジェネレーティブAIトレンド

人工知能シンギュラリティと人類の未来

推薦する

今年上半期の世界的なベンチャーキャピタル投資はほぼ半減し、AIスタートアップには400億ドル以上が流入した。

Databricks、ビッグデータ分析プラットフォームSpark向けAIモデルSDKをリリース：ワンクリックでSQLとFySpark言語チャートコードを生成

機械学習は数字を数え、マウスをクリックしてモデルをトレーニングし、残りはコンピューターに任せます

アルトマンがOpenAIに復帰、イリヤはどこへ行くのか、内部抗争の理由は信じられない

自動化された運用とメンテナンスが新たな標準になる。IDCが2021年の中国の人工知能市場に関する10の予測を発表

Meituanグラフニューラルネットワークトレーニングフレームワークの実践と探索

李開復、胡宇、張亜琴の GMIC 2018 対談: AI 戦略と AI 人材育成における中国と米国の違いは何ですか?

プリンストン DeepMind は数学を使用して、LLM はランダムなオウムではないことを証明します。「規模が大きいほど能力が強くなる」には理論的根拠がある

人工知能アルゴリズムが構造生物学の難問を解決

確かな情報です!機械学習で知っておくべき 5 つの回帰アルゴリズム!

Pika 1.0 が最初のテストで Gen-2 に勝利しました!ネットユーザーが初めて映画レベルの爆発効果を体験し、その背後にある技術的な詳細が初めて明らかにされた。

ディープラーニングの面接で知っておくべきこと