01 機械学習アルゴリズム1. 分類アルゴリズム これは教師あり学習法です。 K 最近傍法、決定木、単純ベイズ、ベイジアンネットワーク、ロジスティック回帰、SVM などのアルゴリズムなど、分類問題を解決するのに役立つアルゴリズムは数多くあります。分類問題を解決するために、人工ニューラル ネットワークやディープラーニングもよく使用されます。これらはすべて一般的でよく使用される分類アルゴリズムですが、アルゴリズムごとに長所と短所があり、さまざまなシナリオで使用されます。 例を見てみましょう。ある鳥のさまざまな特徴を知っていて、それらの特徴に基づいてこの鳥がどの種に属するかを判断したいとします。これは分類問題と呼ばれます。 まず、鳥のさまざまな特徴や種類など、できる限りすべての鳥の情報を収集する必要があります。色、重さ、羽などの属性はすべて特徴であり、種類は鳥のラベルです。 第二に、私たちが確立した機械学習の目的は、ユーザーが鳥の特徴を入力し、鳥の種、つまり対応するラベルを出力できるようにすることです。この作業は鳥の属性に基づいて分類する作業ですが、コンピューターによって自動的に行われます。 2. 回帰アルゴリズム 回帰アルゴリズムも教師あり学習法です。回帰アルゴリズムは、独立変数と従属変数の関係を研究する予測モデリング手法である回帰分析に由来します。これらの技術は、予測、時系列モデル、変数間の関係性の発見に適用されます。 簡単な例を挙げると、サーバーが受信したリクエストの数とサーバーの CPU およびメモリの使用圧力との関係を計算できる場合があります。 最も単純な回帰アルゴリズムは線形回帰であり、線形回帰は誰もがよく知っていると思います。線形回帰は比較的単純ですが、アルゴリズムが単純で粗いほど、実際の問題に直面したときに実用的になります。ディープラーニングは回帰問題の解決にも使用できます。 3. クラスタリングアルゴリズム クラスタリング アルゴリズムは、教師なし学習アルゴリズムの一種です。クラスタリングは、(サンプルまたは指標)分類問題を研究するための統計分析方法であり、データマイニングの重要なアルゴリズムでもあります。 クラスター分析は類似性に基づいています。1 つのクラスター内のパターンは、異なるクラスター内のパターンよりも類似性が高くなっています。これがクラスター分析の最も基本的な原則です。クラスター分析アルゴリズムは、パーティション法、階層法、密度ベース法、ネットワークベース法、モデルベース法など、多くのカテゴリに分類できます。 最も有名なクラスタリング アルゴリズムは K-Means アルゴリズムで、これは最も古典的なパーティション ベースのクラスタリング方法です。アルゴリズムの主なアイデアは、空間内の k 点を重心としてクラスタ化し、それらに最も近いオブジェクトを分類することです。反復的な方法により、より良いクラスタリング結果が得られるまで、各クラスタの重心値が連続的に更新されます。 (重心は実際の点でも仮想点でもかまいません)。 このアルゴリズムにより、類似した特徴を持つデータを 1 つのデータ グループに集約し、大きく異なる特徴を持つデータを分離することができます。 4. 関連性分析アルゴリズム 相関分析は、クラスタリングの他によく使用される教師なし学習方法です。大規模なデータ セット内の関連性や相関関係を発見するために使用され、それによって、あるものの特定の属性が同時に発生する規則性とパターンを説明します。 関連性分析の最も典型的な応用はショッピングカート分析です。ユーザーの注文から一緒に購入されることが多いアイテムを見つけ、これらのアイテム間の潜在的な関係を調査することができます。これにより、オンラインおよびオフラインの販売業者が購入および販売戦略を策定するのに役立ちます。 非常に有名な関連分析アルゴリズムとしては、Apriori アルゴリズムと FP-growth アルゴリズムがあります。 Apriori アルゴリズムは、頻繁なアイテムセットの特性に関する事前知識にちなんで名付けられました。レベルごとの検索と呼ばれる反復的な方法を使用します。 FP-growth は、Apriori アルゴリズムを改良したアルゴリズムです。トランザクション データベースを 2 回スキャンし、各トランザクションに含まれる頻出項目をサポートの降順で FP-tree に圧縮して保存します。 今後頻出パターンを発見するプロセスでは、トランザクション データベースを再度スキャンする必要はなく、FP ツリー内を検索し、FP 成長法を再帰的に呼び出して頻出パターンを直接生成するだけでよいため、発見プロセス全体で候補パターンを生成する必要はありません。このアルゴリズムは、Apriori アルゴリズムに存在する問題を克服し、実行効率の点で Apriori アルゴリズムよりも大幅に優れています。また、有向関係を生成することができ、Apriori よりも汎用性があります。 5. アンサンブルアルゴリズム 前のセクションでは、一般的な機械学習アルゴリズムを紹介しましたが、個々の機械学習アルゴリズムは、特定のシナリオで特定の問題しか解決できないことがわかります。問題が複雑になると、単一の学習器を使用して目標を達成することは困難になります。現時点では、機械学習タスクを共同で完了するために、複数の学習者を統合する必要があります。 いわゆる統合学習とは、一連の学習器を使用して学習し、一定のルールを使用して学習結果を統合することで、単一の学習器を使用する場合よりも優れた学習効果を得る機械学習の手法です。一般的に言えば、アンサンブル学習における複数の学習者は均質な「弱い学習者」です。 アンサンブル学習の主な考え方は、まず特定のルールを通じて複数の学習者を生成し、次にそれらを特定のアンサンブル戦略を使用して組み合わせ、総合的な判断を行って最終結果を出力するというものです。 一般的に言えば、アンサンブル学習と呼ばれる複数の学習者は、均質な「弱い学習者」です。この「弱い学習器」をベースに、サンプルセットの摂動、入力特徴の摂動、出力表現の摂動、アルゴリズムパラメータの摂動などにより複数の学習器を生成し、統合することで、より精度の高い「強い学習器」が得られます。 最も有名な統合アルゴリズムは、AdaBoosting などの一般的なアルゴリズムを含む Boosting アルゴリズムです。このタイプのアルゴリズムでは、複数のモデルを同時にトレーニングする必要があります。基本的な考え方は、トレーニング中に精度とエラー率に応じてさまざまな学習者の重みを調整し、最終予測中に加重投票を使用して最終結果を生成することです。 統合アルゴリズムのもう 1 つのタイプは、バギング アルゴリズムです。主な考え方は、複数の異なるモデルを個別にトレーニングし、モデルの平均化方法を使用して最終決定を下すことです。 最も有名なバギングアルゴリズムはランダムフォレストで、ランダムサブスペース法も取り入れています。これは決定木に基づくアンサンブル学習モデルです。バギングアンサンブル学習技術によってトレーニングされた複数の決定木が含まれています。分類するサンプルが入力されると、単一の決定木の出力結果に投票することで最終的な分類結果が決定されます。 6. アルゴリズムの強化 強化学習は、上で説明したアルゴリズムとは異なります。主に、環境を認識し、目標を達成するために最適なアクションを選択することを学習できる自作のパーセプトロンをトレーニングするために使用されます。この非常に一般的な問題は、移動ロボットの制御の学習、工場での最適な操作手順の学習、チェスの遊び方の学習などに応用できます。 エージェントが環境内で各アクションを実行すると、教師は結果の状態が正しいかどうかを示す報酬またはペナルティ情報を提供します。エージェントのタスクは、この間接的で遅延された報酬から学習し、その後のアクションの累積効果を高めることです。 ——Mitchell TM『機械学習』より引用 最も有名な強化学習アルゴリズムは Q 学習アルゴリズムです。強化学習アルゴリズムはこの記事の範囲を超えており、その本質的な複雑さのため、ここでは詳細な説明はせずに簡単に紹介するだけにします。 02 機械学習をマスターする方法1. 学習曲線 まず、機械学習はコンピュータサイエンスの分野であることを明確にする必要があります。したがって、機械学習を習得し、コンピューターを通じて機械学習を実際に適用するには、コンピューターサイエンスの基礎が必要です。たとえば、基本的なプログラミング言語(少なくとも Python または MATLAB)を理解し、基本的なデータ構造、基本的なデータ処理手法、基本的なデータ保存およびクエリ手法などを知っている必要があります。 第二に、機械学習アルゴリズムは一般的に比較的厳密で完全な数学的原理を持っています。機械学習を数学的観点から理解できなければ、機械学習の本質的な核心のいくつかを理解することはできず、モデルを使用するという観点からしかこの分野に手を出せません。 また、機械学習は経験に依存する分野でもあります。日々の経験を通じて多くのパラメータと方法を蓄積し、問題を解決するための考え方や感覚を形成する必要があります。これにより、機械学習技術を使用して既存の問題を解決することがより迅速かつ効果的になり、適切な解決策が見つかることがよくあります。 機械学習には学習曲線があり、無限にループする S 字型の学習曲線に近いかもしれません。基本的な機械学習アルゴリズムを学習し、簡単な実験を行うことから始めるのは非常に簡単です。経験上、機械学習アルゴリズムをさらに学習していくと、さまざまな機械学習モデルに徐々に迷い、学習の難易度が急激に上昇する可能性があります。 古典的なモデルのほとんどを習得すると、さまざまな種類の機械学習アルゴリズムがほんの数種類のカテゴリに過ぎないことがわかり、学習の難易度曲線は再び滑らかになります。しかし、実用的な問題を解決し始めると、急な学習曲線に陥り、登り続ける学習プロセスで経験を積み重ね続けることになります。 つまり、機械学習は理論と経験の継続的な蓄積を必要とする技術であり、各段階で対応するボトルネックが発生します。これは静的なものではなく、継続的な学習と練習を必要とするスキルです。常に問題に直面し、それを解決することによってのみ、私たちは前進することができます。 2. テクノロジースタック ディープラーニング技術スタックは 3 つのカテゴリに分類されます。最初のカテゴリは基本的な数学ツール、2 番目のカテゴリは機械学習の基本的な理論的手法、3 番目のカテゴリは機械学習の実用的なツールとフレームワークです。ここでは、これらのコンテンツ カテゴリの概要を説明します。学習プロセス中に、読者が基本的な概念や知識を十分に理解していないことに気付いた場合は、この記事に目を通し、必要なツールやテクニックを見つけて学習することができます。このサイクルを繰り返し、古いものを復習して新しいものを学ぶことができます。 基本的な数学ツールには、高度な数学、線形代数、確率論と数理統計、離散数学、行列理論、確率過程、最適化手法、複雑な関数が含まれます。そうです、機械学習の分野、さらにはそのエンジニアリングの分野では、基本的な数学的ツールは不可欠です。読者の皆さんがこの知識をより包括的に理解できるようになることを願っています。 機械学習の基本的な理論的手法には、決定木、サポートベクターマシン、ベイズ、人工ニューラルネットワーク、遺伝的アルゴリズム、確率的グラフィカルモデル、ルール学習、分析学習、強化学習などがあります。 機械学習の実用的なツールとフレームワークのカテゴリは、基本的な言語とツール、エンジニアリングフレームワーク、データストレージツール、データ処理ツールなど、より複雑です。 基本的な言語とツールには、MATLAB とそのツールキット、Python と対応するライブラリ (NumPy、SciPy、Matplotlib、Scikit-learn など) が含まれます。 エンジニアリング フレームワークには、TensorFlow、MXNet、Torch、PyTorch、Keras などがあります。 データ ストレージには、Oracle、SQL Server、MySQL、PostgreSQL などの従来のリレーショナル データベース、LevelDB、LMDB、Redis などの K/V データベース、MongoDB などのドキュメント データベース、Neo4j などのグラフ データベース、HBase、Cassandra などの列データベースなどがあります。 データ処理ツールには、バッチ処理とリアルタイム処理が含まれます。バッチ処理ツールには、Hadoop のほか、Hadoop をベースにした Hive や Pig などがあります。 リアルタイム処理ツールには、Storm および Hurricane リアルタイム処理システムが含まれます。非常に有名な Spark は、改良されたバッチ処理ツールとみなされ、リアルタイム処理のシナリオでも使用できます。 |
<<: スーパーライティングAIがチェスと作曲を学習。言語モデルの国境を越えた運用が白熱した議論を引き起こし、人々はオンラインでマッチングを求めている
>>: シングルを保存: このオブジェクトジェネレーターは、将来のオブジェクトがどのように見えるかを確認するのに役立ちます
金融業界は国民経済の生命線です。モバイルインターネットやオンライン決済の普及により、データは企業にと...
専門家は、人工知能も気候変動への取り組みにおいて重要な役割を果たすことができると考えている。しかし一...
12月2日、マイクロソフトと周迅のAI音声紅丹丹慈善プロジェクトの発起人である魯音源文化伝承社は、...
デジタル化と AI の導入が加速する中、企業では人工知能 (AI) と機械学習 (ML) の開発者が...
ロイター通信は12月21日、現地時間20日に発表された英国最高裁判所の判決で、米国のコンピューター科...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
近年、幼児教育のスマート化を導き、子どもたちの学習と成長をサポートするスマート幼稚園環境を総合的に構...
人工知能は世界のほぼすべての分野に変革をもたらしたようです。ヘルスケア業界は長年にわたって大きく変化...
[[237644]] 人工知能(AI)は、国家や企業が支配権を争う新たな技術の最前線です。マッキン...
フロスト・アンド・サリバンの新しい遠隔医療市場予測によると、COVID-19パンデミックの影響で、遠...