機械学習について学びたい方はこちらをご覧ください。1ステップで専門家になる方法をお教えします!

機械学習について学びたい方はこちらをご覧ください。1ステップで専門家になる方法をお教えします!

パターン認識や機械学習のファンであれば、機械学習では避けられない重要な問題であるサポートベクターマシンの概念について聞いたことがあるはずです。

実際、この知識ポイントについては、非常に有名で興味深い伝説があります。

昔々、ある村に引退した英雄が住んでいました。その英雄は剣の腕が優れていたと言われていました。

暗く風の強い夜、悪魔が主人公の妻を誘拐しました。勇者は長年封印されていた剣を取り出し、妻を救うために魔王の城へと向かいました。しかし、悪魔は彼とゲームをしようと言いました。

悪魔はテーブルの上に2つの色のボールを置き、「手に持った剣を使ってボールを分けてください。ボールをさらに置いた後も同じルールを守らなければなりません」と言いました。

勇者は剣を抜いて振り回し、テーブルに亀裂を生じさせ、2つのボールを正確に分離しました。

それから悪魔はテーブルの上にさらにボールを置き、勇者は同じようにボールを素早く切りました。ボールが 1 つだけ正確に分割されなかったにもかかわらず、それでも素晴らしい仕事をしました。

主人公は、剣のマークの最適な位置は、剣のマークと両側のボールの間にできるだけ多くの隙間を残すことだということを発見しました。

この考えを念頭に置いておくと、悪魔がさらに多くのボールを放ったとしても、境界線をうまく引くことができるでしょう。

もちろん、悪魔は諦めないので、ボールを投げ捨てて、分離させます。

主人公も、このようにボールが並んでいるのを見て、少し戸惑いました。悪魔が挑発モードに入った瞬間、勇者は新たな方法を思いついた。

彼は左手でテーブルを叩くと、ボールは空中に飛んだ。それから、彼は空中に舞い上がり、手にした剣で光の波を描き、ちょうど二つの球の真ん中を通過しました。

悪魔の視点からボールを​​見ると、曲線で分割されているように見えます。

主人公は妻を救い出し、その話は村中に広まり美しい物語となりました。これが現在のサポートベクターマシンの伝説となっています。

この話を聞いて、サポートベクターマシンについてより直感的に理解できるようになりましたか?

今日は、校長先生が線形サポートベクターマシン問題について詳しく説明します。

サポートベクターマシン (SVM)

サポート ベクター マシン (SVM) は、主にパターン認識の分野でデータ分類問題を解決するために使用されます。これは、教師あり学習アルゴリズムの一種です。

SVM が解決する必要がある問題は、冒頭で説明した典型的な 2 分類問題で説明できます。図aに示すように、2次元座標に赤いボールと青いボールがたくさんあります。それらを直線で分離できますか?明らかにそれは可能であり、この条件を満たす直線は複数存在することが明らかです。

この種の問題は、パターン認識の分野では線形分離可能問題と呼ばれます。

サポートベクター

図 b と c はそれぞれ 2 つの異なる分類方式を示しており、黒の実線は「決定面」と呼ばれる境界線です。

さまざまな分類器 (決定木、ニューラル ネットワーク、ロジスティック回帰など) はさまざまな分類境界を提供し、それらはすべて「最適な」決定境界を探しています SVM についても同様です。

図(b)を例にとると、点線の位置は決定面の方向決定面に最も近いサンプルの位置によって決まります。 2 本の点線間の垂直距離は、この決定面に対応する分類間隔です。

明らかに、データセットを正しく分離できる各方向の最適な決定面が存在します。異なる方向の決定面の分類間隔は通常異なります。 「最適な間隔」を持つ決定面は、SVM が求める最適なソリューションです。最良の解に対応する両側の点線で示されるサンプル ポイントは、SVM のサポート サンプル ポイントであり、サポート ベクターと呼ばれます。

図(b)のデータに戻ると、決定面AはSVMが求める最適解であり、座標系の点線上の3つのサンプル点の対応するベクトルはサポートベクターと呼ばれます。

[[256284]]

***決定境界

では、適切な意思決定の境界をどのように決定すればよいのでしょうか? SVM の重要な仮定を見てみましょう。決定境界と決定境界の両側にある最も近いサンプル間の間隔は *** であり、この時点での決定境界は *** 決定境界です。

間隔

上記の例は2次元平面での例です。標本空間では、分割超平面は次の線形方程式で記述できます。

ここで、w は法線ベクトルであり、超平面の方向を決定します。b は変位であり、超平面と原点の間の距離を決定します。トレーニングサンプル(xi,yi)については、次の式が満たされます。

式(2)は絶対区間仮説と呼ばれ、yi=+1はサンプルが陽性サンプルであることを示し、yi=−1はサンプルが陰性サンプルであることを示します。

一連の変換の後、区間の最終的な表現は次のようになる。

間隔最適化

SVMの考え方は、区間を最大化することです。

明らかに、2||w||を最大化することは||w||を最小化することと同等であり、式(6)は次のように変形できる。

式(7)はサポートベクターマシンの基本形である。

双対問題の解 - ラグランジュ乗数公式

このような制約付き最小値問題を見ると、ラグランジュ乗数法を考えるのが自然です。

最終的なソリューションは、次のモデルから得られます。

この結論から、サポート ベクター マシンの重要な特性がわかります。トレーニングが完了した後、ほとんどのサンプルを保持する必要がなく、最終モデルはサポート ベクターにのみ関連します。

アプリケーションシナリオ

近年、SVMは画像認識、信号処理、遺伝子マップ認識などに広く利用されています。例えば、無人運転技術では、道路上の矢印標識を識別する必要があり、ここでSVMが使われています。

[[256291]]

たとえば、HOG (方向勾配ヒストグラム) 機能は、コンピューター ビジョンや画像処理におけるオブジェクト検出に使用される機能記述子です。現在、HOG 特徴と SVM 分類器を組み合わせたものが画像認識、特に歩行者検出に広く使用されており、大きな成功を収めています。

サポートベクターマシンとディープラーニング

ディープラーニング (DL) と比較して、SVM の特徴と適用可能なシナリオは何ですか?

一般的に、SVM は小規模および中規模のデータ スケール(比較的小規模)、非線形(ペナルティ変数)、および高次元(カーネル関数) のパターン認識を解決する上で大きな利点があります。 DL で処理される対象は主に画像と音声であり、その利点はオリジナルの特徴を表現できることにあります。

ただし、ニューラル ネットワークはブラック ボックス モデルと同等であるため、一部の重要なアプリケーションではリスクが大きくなる可能性があります。

[[256292]]

たとえば、スマートヘルスケアの分野では、医師がディープラーニングベースのシステムを使用していますが、ニューラルネットワークの「ブラックボックス」の性質により、診断原理を患者に説明できません。リスクが高いため、ユーザーは拒否する可能性が非常に高くなります。

ただし、信頼性の高い数学理論から純粋に導き出され、解釈可能性が優れている SVM を選択した場合、ユーザーはこのタイプの製品を選択する割合が高くなります。

<<:  機械学習アルゴリズムの長所と短所の比較と選択(要約)

>>:  PythonでAutoMLを実装する方法を教えます

ブログ    
ブログ    

推薦する

GPT-4は人間が92点取れる質問に対して15点しか取れない。テストがアップグレードされると、すべての大きなモデルが露呈する。

GPT-4は誕生以来、さまざまな試験(ベンチマーク)で高得点を獲得する「優秀な生徒」でした。しかし...

機械学習における正則化とは何ですか?

1. はじめに機械学習の分野では、トレーニング プロセス中にモデルが過剰適合したり、不足適合になっ...

...

人工知能バブルの次のラウンドは、消費者向けロボットによって引き起こされるかもしれません。

ロボット業界ではここ1か月間、大きなニュースが数多くあり、大きな注目を集めています。テンセントが率い...

顔認識技術は議論を呼んでいる。人工知能はどのように制御されるべきか?

[[264511]]最近、米国の18歳の大学生が、アップルが顔認識ソフトウェアを使用して彼を強盗と...

人工知能が旅行業界にもたらす変化

観光業界では徐々に人工知能を導入し、観光客にパーソナライズされた体験を提供しています。人工知能の助け...

AIを使って株取引で不正行為をしよう!この世代のプログラマーは本当に楽しみ方を知っている

ディープラーニングを使用して株価を予測することは、以前は少し神秘的に思えたかもしれませんが、新しいこ...

戦争の太鼓はすでに鳴り響いています。人工知能に関して、あなたはどちらの陣営に属しますか?

[[240281]]人工知能が将来の技術の方向性であることは誰もが知っていますが、AIの学習に対す...

AIの安全性問題への対応: NIST人工知能リスク管理フレームワーク

他の情報技術と同様に、人工知能もさまざまなセキュリティ問題や、プライバシー、差別、不公平などの新たな...

データマイニングの10の主要なアルゴリズムを、初心者でも一目で理解できるように平易な言葉で説明しました。

優秀なデータ アナリストは、基本的な統計、データベース、データ分析方法、考え方、データ分析ツールのス...

人工知能業界マップと主要なブレークスルー

Sage の予測によると、人工知能の出現により、2030 年までに世界の GDP がさらに 14% ...

...

顔認識アルゴリズムは人間の認識能力を超えている

コンピューター科学者たちは、人間自身よりも顔を識別できる新しい顔認識アルゴリズムを開発した。誰もが、...

この本は人気があり、この本を学んだ男性は給料が30万以上上がった

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

自動運転によりシェアリングエコノミーは再び普及するでしょうか?

自動運転技術の開発は常に議論の的となっています。自動運転の将来に関して、避けて通れない話題が1つあり...