サポートベクターマシンを使用して非線形データセットを学習する方法

サポートベクターマシン (SVM)

[[326874]]

サポートベクターマシンとは何ですか? サポートベクターマシンは、データの分類分析を実行できる教師あり機械学習モデルです。実際、サポートベクターマシンアルゴリズムは、インスタンスを分離できる優れた超平面を見つけるプロセスです。

上記のようにデータが線形に分離可能な場合は、線形分類器を使用して 2 つのクラスを分離できます。データが非線形に分離可能な場合はどうすればよいでしょうか? 次のようになります:

ご覧のとおり、異なるクラスのデータポイントは分離可能ですが、単純に直線を描いて分類することはできません。

では、サポートベクターマシンを使用して非線形機械学習データセットを適合させるにはどうすればよいでしょうか?

SVMの実験

機械学習データセットの作成

まず、非線形機械学習データセットを作成します。 Python コードは次のとおりです。

 #分類器を視覚化するためのパッケージをインポートする
matplotlib.colorsからListedColormap をインポートします
matplotlib.pyplot をpltとしてインポートします。
輸入警告
 
 #分類を行うためのパッケージをインポートする
numpyをnpとしてインポートする
sklearn.svmからSVC をインポートします
 
 #データセットの作成
np.ランダムシード(0)
 X_xor = np.random.randn(200, 2)
 y_xor = np.logical_xor(X_xor[:, 0] > 0,
                       X_xor[:, 1] > 0)
 y_xor = np.where (y_xor, 1, -1) 
 
図 = plt.figure(図サイズ=(10,10))
 plt.scatter(X_xor[y_xor == 1, 0],
            X_xor[y_xor == 1, 1]、
            c= 'b' 、マーカー= 'x' 、
            ラベル = '1' )
 plt.scatter(X_xor[y_xor == -1, 0],
            X_xor[y_xor == -1, 1]、
            c = 'r' 、
            マーカー= 's' 、
            ラベル = '-1' ) 
 
 plt.xlim([-3, 3])
 plt.ylim([-3, 3])
 plt.legend(loc= 'ベスト' )
 plt.tight_layout()
 plt.show()

線形サポートベクターマシンを使ってみる

まず、次のように Python で実装できる線形サポートベクターマシンの使用を試みます。

 #分類を行うためのパッケージをインポートする
mlxtend.plottingからplot_decision_regions をインポートします
numpyをnpとしてインポートする
sklearn.svmからSVC をインポートします
 
 #線形カーネルを使用してSVC分類器を作成する
svm = SVC(カーネル= 'linear' 、C=1000、random_state=0)
 # 分類器をトレーニングする
svm.fit(X_xor, y_xor) 
 
 # 意思決定の境界を視覚化する
図 = plt.figure(図サイズ=(10,10))
 plot_decision_regions(X_xor、y_xor、clf=svm) のプロット
plt.legend(loc= '左上' )
 plt.tight_layout()
 plt.show()

C は誤分類に関連するコストです。 C 値が高いほど、データセットを正しく分離するアルゴリズムが厳格になります。線形分類器の場合は、kernel='linear' を使用します。

ご覧のとおり、コストを高く設定したにもかかわらず、線は赤い点と青い点をうまく分離していません。

ラジアル基底関数カーネル

これまで使用した線形分類器は次のとおりです。

ご覧のとおり、g(x) は線形関数です。 g(x) > 0 の場合、予測値は 1 になります。 g(x) <0の場合、予測値は-1になります。しかし、上記のような非線形データを処理するために線形関数を使用することはできないため、線形関数を別の関数に変換する必要があります。

この分類器は、非線形データに最適であると思われます。 Python コードを見てみましょう:

 # RBFカーネルを使用してSVC分類器を作成する
svm = SVC(カーネル= 'rbf' 、ランダム状態=0、ガンマ=1/100、C=1)
 # 分類器をトレーニングする
svm.fit(X_xor, y_xor) 
 
 # 意思決定の境界を視覚化する
図 = plt.figure(図サイズ=(10,10))
 plot_decision_regions(X_xor、y_xor、clf=svm) のプロット
plt.legend(loc= '左上' )
 plt.tight_layout()
 plt.show()

ガンマは1/シグマです。覚えておいてください、シグマは調整機能です。したがって、ガンマ値が小さいほど、シグマ値が大きく、分類器はポイント間の距離に対して敏感ではなくなります。

ガンマを上げて何が起こるか見てみましょう。

 # RBFカーネルを使用してSVC分類器を作成する
svm = SVC(カーネル= 'rbf' 、ランダム状態=0、ガンマ=1、C=1)
 # 分類器をトレーニングする
svm.fit(X_xor, y_xor) 
 
 # 意思決定の境界を視覚化する
図 = plt.figure(図サイズ=(10,10))
 plot_decision_regions(X_xor、y_xor、clf=svm) のプロット
plt.legend(loc= '左上' )
 plt.tight_layout()
 plt.show()

ガンマを 100 倍に増やすと、トレーニングセットの分類子の精度が向上するようです。ガンマ値を 10 倍するとどうなるでしょうか?

 # RBFカーネルを使用してSVC分類器を作成する
svm = SVC(カーネル= 'rbf' 、ランダム状態=0、ガンマ=10、C=1)
 # 分類器をトレーニングする
svm.fit(X_xor, y_xor) 
 
 # 意思決定の境界を視覚化する
図 = plt.figure(図サイズ=(10,10))
 plot_decision_regions(X_xor、y_xor、clf=svm) のプロット
plt.legend(loc= '左上' )
 plt.tight_layout()
 plt.show()

これは、ガンマを 10000 に増やすと、より正確になるという意味ですか? 実際、ガンマ値が大きすぎると、分類器は最終的に違いを認識できなくなります。

Cを増やしましょう。 C は、機械学習データセット全体の誤分類に関連するコストです。つまり、C を増やすと、単一のデータポイントだけでなく、データセット全体の感度が高まります。

 ipywidgetsから、interact、interactive、fixed、interact_manual をインポートします
ipywidgetsをウィジェットとしてインポートする
 
警告をフィルターする( "無視する" ) 
 
 @interact(x=[1, 10, 1000, 10000, 100000])
 svc(x=1)を定義します。
  # RBFカーネルを使用してSVC分類器を作成する
  svm = SVC(カーネル= 'rbf' 、ランダム状態=0、ガンマ=.01、C=x)
  # 分類器をトレーニングする
  svm.fit(X_xor, y_xor) 
 
  # 意思決定の境界を視覚化する
  図 = plt.figure(図サイズ=(10,10))
  plot_decision_regions(X_xor、y_xor、clf=svm) のプロット
  plt.legend(loc= '左上' )
  plt.tight_layout()
  plt.show()

SVM 分類器が 2 つのポイントグループを正常に分離できるようにするためのパラメータを見つけました。

やっと

この記事を読んで、SVM 分類器とは何か、そしてそれを非線形機械学習データセットの学習にどのように使用するかについて直感的に理解していただけたと思います。データが高次元の場合、視覚化を通じて分類器のパフォーマンスを判断することはできません。良い方法は、トレーニングセットでトレーニングし、テストセットで混同行列や f1 スコアなどのメトリックを使用することです。

<<: 新型コロナウイルス感染症の流行中に音声テクノロジーが再び注目を集めているのはなぜでしょうか?

>>: 私の国は、5G、人工知能、自動運転で目覚ましい成果を上げ、革新的な国の仲間入りを果たしました。