機械学習アルゴリズムの基礎知識

機械学習アルゴリズムの基礎知識

利用できるアルゴリズムは多数あります。難しいのは、さまざまな種類の方法があり、それらの方法に拡張もあるという事実です。これにより、何が正統なアルゴリズムであるかを区別することがすぐに難しくなります。この記事では、この分野で遭遇するアルゴリズムについて考え、区別するための 2 つの方法を紹介したいと思います。

[[114409]]

アルゴリズムを分類する最初の方法は、学習方法に基づいており、2 番目の方法は、形式と機能の類似性に基づいています(類似した動物をグループ化するのと同じように) 。どちらのアプローチも有用です。

学習方法

アルゴリズムは、経験、環境、または入力データと呼ばれるものとの相互作用に基づいて、さまざまな方法で問題をモデル化できます。機械学習や人工知能の教科書では、まずアルゴリズムがどのように学習するかを考えるのが一般的です。

アルゴリズムの主な学習方法と学習モデルはわずかしかありません。それらを 1 つずつ紹介し、いくつかのアルゴリズムと、それらが解決するのに適した問題の種類を例として示します。

  • 教師あり学習:入力データはトレーニング データと呼ばれ、スパム/非スパムや一定期間の株価などの既知のラベルまたは結果を持ちます。モデルのパラメータはトレーニング プロセスを経る必要があり、その過程でモデルは予測を行う必要があります。予測が一致しない場合は、修正が必要になります。

  • 教師なし学習: 入力データにはラベルや既知の結果がありません。モデルは、入力データに存在する構造を推測することによって構築されます。このような問題の例としては、関連ルールの学習やクラスタリングが挙げられます。アルゴリズムの例としては、 AprioriアルゴリズムやK-meansアルゴリズムなどがあります。

  • 半教師あり学習:入力データは、ラベル付きデータとラベルなしデータの両方で構成されます。適切な予測モデルは存在しますが、予測を行う際に基礎となる構造を発見してデータを整理できる必要があります。このような問題には分類や回帰が含まれます。一般的なアルゴリズムには、ラベルのないデータをどのようにモデル化するかについていくつかの仮定を行う他の柔軟なモデルの一般化が含まれます。

  • 強化学習:入力データは環境からのインセンティブとしてモデルに提供され、モデルはそれに応答する必要があります。フィードバックは、教師あり学習のようにトレーニング プロセスから得られるのではなく、環境からの罰または報酬として得られます。典型的な問題はシステムとロボットの制御です。アルゴリズムの例としては、 Q学習や時間差分学習などがあります

大量のデータを処理し、ビジネス上の意思決定をモデル化する場合、教師あり学習と教師なし学習が一般的に使用されます。現在、注目されている話題は半教師あり学習です。これは、たとえば、データセットは大きいがラベル付けされたデータはほとんど含まれていない画像分類に使用されます。

アルゴリズムの類似性

通常、アルゴリズムは機能と形式の類似性に基づいて区別されます。たとえば、ツリー構造やニューラル ネットワーク メソッドなどです。これは物事を分類するのに便利な方法ですが、完璧ではありません。それでも、ニューラル ネットワークにヒントを得た方法とインスタンス ベースの方法の両方である学習ベクトル量子化など、いくつかのアルゴリズムは、いくつかのカテゴリに簡単に分類できます。アルゴリズム名の中には、解決する問題を説明するものや、回帰やクラスタリングなどの特定のアルゴリズムのクラスの名前であるものもあります。このため、さまざまなソースからさまざまなカテゴリに分類されたアルゴリズムが表示されます。機械学習アルゴリズム自体と同様に、完璧なモデルは存在せず、十分なモデルのみが存在します。

このセクションでは、最も直感的にわかる方法で、多くの一般的な機械学習アルゴリズムをリストします。カテゴリもアルゴリズムも包括的ではありませんが、代表的なものであり、分野全体の一般的な理解に役立つと思います。ここに記載されていないアルゴリズムまたはアルゴリズムのクラスを見つけた場合は、コメントで共有してください。始めましょう。

回帰分析

回帰は、まずモデルの予測誤差の尺度を決定し、次にこの尺度を使用して変数間の関係を繰り返し最適化するモデリング手法です。回帰法は統計学の主要な応用であり、統計的機械学習に分類されます。これは少し混乱を招きます。なぜなら、回帰は問題のクラスとアルゴリズムのクラスを指すために使用できるからです。実際には、回帰はプロセスです。以下にいくつか例を挙げます。

  • 通常の最小二乗法

  • ロジスティック回帰

  • ステップワイズ回帰

  • 多変量適応回帰スプライン(MARS)

  • 局所多項式回帰フィット(LOESS)

例に基づく方法

インスタンスベースの学習モデルは、モデルにとって重要または必要であると見なされるトレーニング データ内のインスタンスに基づいて意思決定の問題をモデル化します。このような方法では通常、例のデータベースを構築し、何らかの類似性基準に基づいて新しいデータをデータベースと比較して、最適な一致を見つけて予測を行います。そのため、インスタンスベースの方法は、「勝者総取り」方式やメモリベースの学習とも呼ばれます。このアプローチは、既存のインスタンスの表現とインスタンス間の類似性の測定に重点を置いています。

  • K近傍法(kNN)

  • ベクトル量子化の学習(LVQ)

  • 自己組織化マップ(SOM)

正規化手法

これは、複雑度の高いモデルにペナルティを課し、一般化に適したより単純なモデルを優先する別のアプローチ (通常は回帰分析) の拡張です。ここでいくつかの正規化方法を挙げるのは、これらの方法が人気があり、強力で、他の方法に比べて簡単に改善できることが多いためです。

  • リッジ回帰

  • ラッソアルゴリズム(LASSO)

  • 弾性ネットワーク

決定木学習

決定木アプローチは、データ内の属性の実際の値に基づいて決定を下す意思決定プロセスをモデル化します。特定のレコードに対する予測が可能になるまで、決定はツリーを分岐します。分類や回帰の問題では、データを使用して決定木をトレーニングします。

  • 分類と回帰ツリー(CART)

  • 反復二分木生成3 (ID3)

  • C4.5アルゴリズム

  • カイ二乗自動インタラクティブビュー(CHAID)

  • 単層決定木

  • ランダムフォレスト

  • 多変量適応回帰スプライン(MARS)

  • 勾配ブースティングマシン(GBM)

ベイジアンアルゴリズム

ベイズ法は、ベイズの定理を分類および回帰問題に明示的に適用するアルゴリズムです。

  • ナイーブベイズアルゴリズム

  • AODEアルゴリズム

  • ベイジアン信念ネットワーク(BBN)

カーネル法

最も有名なカーネル関数法は、人気のあるサポート ベクター マシン アルゴリズムであり、これは実際には一連の方法です。カーネル関数法は、入力データを高次元ベクトル空間にマッピングする方法に関係しており、特定の分類問題や回帰問題をより簡単に解決できます。

  • サポートベクターマシン(SVM)

  • ラジアル基底関数(RBF)

  • 線形判別分析(LDA)

クラスタリング手法

回帰と同様に、クラスタリングは問題のクラスと方法のクラスの両方を表します。クラスタリング手法は、一般的に、モデリング手法(重心ベースまたは階層型)に応じて分類されます。すべての方法は、データの固有の構造を使用して、データを最も共通性の高いカテゴリに分類しようとします。

  • K平均法

  • 期待最大化(EM)

相関ルール学習

相関ルール学習は、観測データ内の変数間の関係を最もよく説明するルールを抽出するアルゴリズムのクラスです。これらのルールにより、大規模な多次元データ セット内の重要かつ商業的に有用な関連性を発見することができ、それをさらに活用することができます。

  • アプリオリアルゴリズム

  • エクラアルゴリズム

人工ニューラルネットワーク

人工ニューラル ネットワークは、その構造機能が生物学的ニューラル ネットワークにヒントを得たアルゴリズムです。これらは、回帰問題や分類問題で一般的に使用されるパターン マッチング方法のクラスですが、実際には、この大規模なサブクラスには、さまざまな種類の問題を解決できる数百のアルゴリズムとそのバリエーションが含まれています。古典的で人気のある方法には以下のものがあります (私はディープラーニングをこのカテゴリから分離しました)。

  • パーセプトロン

  • バックプロパゲーションアルゴリズム

  • ホップフィールドニューラルネットワーク

  • 適応マッピング(SOM)

  • ベクトル量子化の学習(LVQ)

ディープラーニング

ディープラーニング手法は、安価で冗長なコンピューティング リソースを活用する人工ニューラル ネットワークの最新の改良です。このタイプの方法は、はるかに大規模で複雑なニューラル ネットワークを構築しようとします。前述のように、多くの方法は、大規模なデータ セット内の非常に限られたラベル付きデータに基づいて、半教師あり学習の問題を解決します。

  • 制限付きボルツマンマシン(RBM)

  • ディープビリーフネットワーク(DBN)

  • 畳み込みニューラルネットワーク

  • カスケードオートエンコーダ(SAE)

次元削減法

クラスタリング手法と同様に、次元削減手法は、データに固有の構造を利用してデータを要約または説明しようとしますが、より少ない情報を使用して教師なしの方法で行われます。これは、高次元データを視覚化したり、後続の教師あり学習のためにデータを簡素化したりするのに役立ちます。

  • 主成分分析(PCA)

  • 部分最小二乗回帰(PLS)

  • サーモンマップ

  • 多次元尺度法(MDS)

  • 投影の追求

アンサンブル法

アンサンブル法は、独立してトレーニングされた複数の弱いモデルを組み合わせ、その予測を何らかの方法で組み合わせて全体的な予測を生成するものです。サブモデルとして使用する学習モデルの種類を選択し、その結果をどのように統合するかに多くの努力が注がれてきました。これは非常に強力なため、人気のある技術クラスです。

  • ブースティング

  • 袋詰め

  • アダプティブブースティング(AdaBoost)

  • ブレンディング

  • 勾配ブースティングマシン(GBM)

  • ランダムフォレスト

これは、最適曲線積分の例です。弱いメンバーは灰色の線で表示され、アンサンブル予測は赤で表示されます。この図は、温度/オゾンデータと、局所多項式説明回帰適合(LOESS)を使用したモデルから導出された曲線を示しています

画像はパブリックドメインでライセンスされており Wikipedia より提供されています。

この機械学習アルゴリズムの概要の目的は、現在存在するアルゴリズムの概要を説明し、今後遭遇する可能性のあるアルゴリズムに関連するツールを提供することです。

この投稿に添付されているリソースは、ご想像のとおり、機械学習アルゴリズムに関するその他の優れたリストです。あまり圧倒される必要はありません。多くのアルゴリズムを知ることは有用ですが、いくつかの重要なアルゴリズムを深く理解し、効果的に実行することも非常に有用です。

この記事は、36 Big Data Translation Team の darker005 が翻訳し、36 Big Data が編集しました。この記事を転載する場合は当サイトの許可が必要であり、翻訳者、出典(36ビッグデータ)、このページへのリンクを記載してください。オリジナルリンク: http://www.36dsj.com/?p=8911

<<:  プログラマーが知っておくべき10の基本的な実用的なアルゴリズムとその説明

>>:  世界を支配するトップ 10 のアルゴリズムをご存知ですか?

ブログ    
ブログ    
ブログ    

推薦する

企業がビジネスでAIOpsをどのように活用しているか

AIOps が今日最も人気のある用語の 1 つになったことは間違いありません。厳密に言えば、IT 運...

機械学習の時代に神経科学者はいかにして人間の思考を読み取り解読できるか

[[408373]]この記事では主に機械学習 (ML) と機能的磁気共鳴画像法 (fMRI) の応用...

オッペンハイマーの「彼女は消えた」!物理学界のファーストレディ、呉健雄はマンハッタン計画の重要な問題を解決した

長い待ち時間を経て、ついに『オッペンハイマー』が国内で公開される。ノーラン監督は映画の細部と品質に細...

アップルはiOS 18でクラウドやデバイスを含む生成AI機能を導入したと言われている。

海通国際証券のアナリスト、ジェフ・プー氏は本日、 Appleが早ければ2024年末にもiPhoneと...

AIが仕事や生活を奪ったら、人類の未来はどうなるのでしょうか?

AIの発展は、人間の仕事の効率を向上させ、人間の働き方を変え、さらには人類の発展の方向を導く上で大...

2018年のAI革命で何が起こったか、何が起こらなかったか

[[253051]] 2018 年を振り返ると、人工知能はデジタル分野で急速な成長を続け、あらゆる業...

GPT-4 MATHの精度は84.3%まで上昇しました!香港中文大学や清華大学を含むトップ7大学が新たなCSV方式を提案

大規模言語モデル (LLM) は常識理解やコード生成などのタスクでは大きな進歩を遂げていますが、数学...

AI が企業のランサムウェア対策やクラウド セキュリティ侵害防止にどのように役立つか

サイバーセキュリティの状況は毎年、組織が対処する必要のある新たな課題や障害をもたらしており、たとえば...

自動運転ソリューションプロバイダーは高精度マップをどのように活用するのでしょうか?

テクノロジー大手のBATから市場に参入する多数の新興企業まで、業界には10社を超える高精度地図サプラ...

顔認識は優れているが、業界の自制心と法的監督が依然として必要である。

近年、顔認識をめぐる論争が絶えません。少し前に、「初の顔認識事件」の第一審判決が発表され、杭州野生動...

JD.comのインテリジェント顧客サービスブランドがリニューアル:「Yanxi」が2020 JDDカンファレンスでデビュー

「言葉の含意は心が繋がっている」という意味で、言葉がテレパシーのような共鳴を呼び起こし、人と人の間の...

Facebook の科学者: アルゴリズム モデルにジャンク データを入力するのはやめてください...

「人は食べたものでできている。私たちはモデルにジャンクフードを与えている」とフェイスブックのAI研...

5Gの導入により、インテリジェント交通は4つの大きな質的変化をもたらします。

現在、あらゆるToB市場において、5G+AIが並行して未来を創造しています。 [[331677]] ...

病院が救急科で人工知能を使用する場合、何を考慮すべきでしょうか?

RapidAI の Mary Hardcastle がヘルスケア技術の進歩を検討し、病院が救急治療...

上位985大学の「人工知能」関連学部・専攻一覧!ぜひ集めてみてください!

今最もホットな分野といえば、間違いなく「人工知能」でしょう。給与面でも人材ギャップの面でも、この分野...