機械学習の応用は急速に成長しており、医療、電子商取引、銀行業務などのさまざまな分野で不可欠な要素となっています。今日は、機械学習をプロセスに分解し、開始から実装までのすべての手順を説明します。その実用的な応用。
機械学習のプロセスは、以下に示す 7 つのステップに分けられます。各ステップの重要性と機能を説明するために、簡単なモデルの例を使用します。モデルはリンゴとオレンジを区別する役割を担います。機械学習は複雑なタスクを処理できます。ただし、プロセスを簡単に説明するために、基本的な例を使用して関連する概念を説明します。 ステップ1: データを収集する機械学習モデルを開発するための最初のステップは、これら 2 つの結果を区別するために使用できる関連データを収集することです。果物は、さまざまなパラメータを使用してオレンジまたはリンゴに分類できます。簡単にするために、モデルが操作を実行するために使用する 2 つの機能のみを取り上げます。第一の特徴は果実自体の色であり、第二の特徴は果実の形状です。これらの特徴を利用することで、私たちのモデルが 2 つの果物を正確に区別できるようになることを期待しています。 選択した 2 つの機能に関するデータを収集するためのメカニズムが必要です。たとえば、色に関するデータを収集するには分光計を使用し、形状データについては果物の写真を使用して 2D グラフィックとして表示することができます。データを収集するために、私たちは機能のための多様なデータセットを作成するために、できるだけ多くの異なる種類のリンゴとオレンジを入手しようとします。これを実行するには、市場で世界のさまざまな地域から来た可能性のあるオレンジやリンゴを探してみるとよいでしょう。 データを収集するステップは、機械学習プロセスの基本です。間違った特徴を選択したり、データセット内の限られた種類のエントリに焦点を当てたりするなどの間違いにより、モデルが完全に無効になる可能性があります。このため、データ収集時には必要な理由を考慮することが不可欠です。この段階で間違いが発生すると、次の段階に進むにつれて間違いが拡大するだけだからです。 ステップ2: データを準備する両方の機能のデータを収集したら、次のステップは、さらに使用するためにデータを準備することです。このフェーズの焦点は、両方の機能についてデータセット内の潜在的なバイアスを特定し、最小限に抑えることです。まず、2 つの果物のデータの順序をランダム化します。これは、順序がモデルの選択と関係しないようにするためです。さらに、データセットが特定の果物に偏っているかどうかを確認します。これにより、モデルが 1 つの果物を正しく識別できても、別の果物では識別に苦労する可能性があるため、潜在的なバイアスを特定して修正するのに役立ちます。 データ準備のもう一つの主要な要素は、データセットを 2 つの部分に分割することです。大きな部分 (約 80%) はモデルのトレーニングに使用され、小さな部分 (約 20%) は評価に使用されます。これは、トレーニングと評価で同じデータセットを使用すると、実際のシナリオでのモデルのパフォーマンスを公平に評価できないため重要です。データを分割することに加えて、データセットを改良するために他の手順を実行する必要があります。これには、重複したエントリの削除、誤った読み取りの破棄などが含まれる場合があります。 モデルに適切なデータを準備すると、モデルの効率が向上します。モデルの盲点を減らすのに役立ち、予測の精度が向上します。したがって、データセットを確認して調査し、微調整して、より良い有意義な結果を生み出すことが理にかなっています。 ステップ3: モデルの選択データ中心のステップが完了したら、次はモデル タイプを選択します。データ サイエンティストによって開発されたさまざまな既存モデルがあり、さまざまな目的に使用できます。これらのモデルは、さまざまな目的を念頭に置いて設計されています。たとえば、あるモデルはテキストの処理に適しており、別のモデルは画像の処理に適している場合があります。私たちのモデルに関しては、単純な線形回帰モデルが果物を区別するのに適していました。この場合、果物の種類が従属変数となり、果物の色と形が 2 つの予測変数または独立変数となります。 この例では、モデルの選択は非常に簡単です。より複雑な状況では、予想される結果に一致する選択を行う必要があります。機械学習モデルのオプションは、3 つの大まかなカテゴリに分類できます。最初のカテゴリは教師あり学習モデルです。このようなモデルでは結果がわかっているので、出力が望ましい精度レベルに達するまでモデル自体を改良し続けます。私たちの果物モデルに選択された線形回帰モデルは、教師あり学習の例です。結果が不明で分類が必要な場合は、2 番目のカテゴリである教師なし学習が使用されます。教師なし学習の例としては、K-means や Apriori アルゴリズムなどがあります。 3番目のカテゴリは強化学習です。試行錯誤に基づいてより良い意思決定を行うことを学ぶことに重点を置いています。ビジネスの場面でよく使われます。マルコフの意思決定プロセスがその一例です。 ステップ4: トレーニング機械学習プロセスの中核はモデルのトレーニングです。このフェーズでは多くの「学習」が行われます。ここでは、トレーニング用に割り当てられたデータセットの一部を使用して、モデルに 2 つの結果を区別する方法を教えます。モデルを数学的に見ると、入力(つまり、2 つの機能)には係数があります。これらの係数は特徴重みと呼ばれます。定数または y 切片も関係します。これをモデルのバイアスと呼びます。その価値を決定するプロセスは試行錯誤です。最初に、ランダムな値を選択して入力を提供します。得られた出力は実際の出力と比較され、重みとバイアスの異なる値を試すことで差が最小限に抑えられます。 トレーニングには忍耐と実験が必要です。モデルが実装されるドメインに関する知識も役立ちます。たとえば、保険会社がリスクの高い顧客を特定するために機械学習モデルを使用している場合、保険業界の仕組みに関する知識があれば、反復プロセス中にさらに根拠のある推測を行うことができるため、トレーニング プロセスが高速化されます。モデルが正常に動作し始めると、トレーニングは非常に有益であることが証明されます。これは子供が自転車の乗り方を学ぶのにかかる時間に相当します。最初は何度も転倒するかもしれませんが、しばらくするとプロセスをよりよく理解できるようになり、自転車に乗っているときにさまざまな状況にうまく対応できるようになります。 ステップ5: 評価モデルをトレーニングした後は、実際の設定で適切に機能するかどうかをテストする必要があります。そのため、評価用に作成されたデータセットの一部は、モデルの熟練度を確認するために使用されます。これにより、モデルはトレーニングに含まれていなかった状況に遭遇するシナリオに置かれます。私たちの場合、これはモデルにとってまったく新しい種類のリンゴやオレンジを識別しようとすることを意味するかもしれません。ただし、トレーニングを通じて、モデルは情報を推測し、果物がリンゴなのかオレンジなのかを判断できる能力を十分に備えている必要があります。 ビジネスアプリケーションでは、評価が非常に重要になります。評価により、データ サイエンティストは、設定した目標を達成できたかどうかを確認できます。結果が満足のいくものでない場合は、モデルのパフォーマンスが低い根本原因を特定して見つけ出すために、前の手順を再検討する必要があります。評価が正しく行われないと、モデルは望ましいビジネス目的に対して適切に機能しない可能性があります。これは、そのモデルを設計・販売する会社が顧客からの信頼を失う可能性があることを意味する可能性があります。また、将来の顧客が同社の機械学習モデルに関する洞察力を信頼することをためらう可能性があるため、同社の評判が損なわれる可能性もあります。したがって、上記の望ましくない影響を回避するには、評価モデルが重要です。 ステップ6: ハイパーパラメータの調整評価が成功した場合は、ハイパーパラメータの調整ステップに進みます。このステップでは、評価ステップで得られた肯定的な結果を改善しようとします。この例では、モデルがリンゴとオレンジをより正確に識別できるかどうかを確認します。モデルを改善するにはさまざまなアプローチがあります。その 1 つは再トレーニング ステップであり、トレーニング データセットの複数のスキャンを使用してモデルをトレーニングします。トレーニング期間が長くなると露出が増え、モデルの品質が向上するため、精度が向上する可能性があります。この問題を解決する別の方法は、モデルに提供される初期値を最適化することです。ランダムな初期値を使用すると、試行錯誤によって悪い結果が生じることがよくあります。ただし、より良い初期値を考え出したり、値ではなく分布を使用してモデルを開始したりできれば、結果はより良くなる可能性があります。他のパラメータを調整してモデルを改良することもできますが、そのプロセスは論理的というよりは直感的なものなので、決定的な方法はありません。 当然、モデルが目標を達成したときに、そもそもなぜハイパーパラメータの調整を行う必要があるのかという疑問が生じます。これは、機械学習ベースのサービスプロバイダーの競争の性質を見ることで答えることができます。問題を解決するための機械学習モデルを求める顧客は、いくつかのオプションから選択できます。しかし、最も正確な結果を生み出す方法に惹かれる可能性が高くなります。そのため、ハイパーパラメータの調整は、機械学習モデルの商業的成功を確実にするための重要なステップです。 ステップ7: 予測機械学習プロセスの最終ステップは予測です。この段階では、モデルは実際のアプリケーションに使用できる状態にあると考えられます。これで、私たちの果物モデルは、与えられた果物がリンゴなのかオレンジなのかという質問に答えられるようになるはずです。このモデルは人間の介入がなく、データセットとトレーニングに基づいて独自の結論を導き出します。このモデルの課題は、さまざまな関連シナリオにおいて、そのパフォーマンスが人間の判断を上回るか、少なくともそれに匹敵するかどうかが依然として残っていることです。 予測ステップは、エンドユーザーがそれぞれの業界で機械学習モデルを使用するときに目にするものです。このステップは、機械学習がさまざまな業界の未来であると多くの人が信じている理由を浮き彫りにします。複雑だが適切に実行された機械学習モデルは、それぞれの所有者の意思決定プロセスを改善することができます。人間は意思決定を行う際に、一定量のデータと関連要素しか処理できません。一方、機械学習モデルは大量のデータを処理してリンクすることができます。これらのリンクにより、モデルは通常の手動の方法では発見できない独自の洞察を得ることができます。その結果、貴重な人材は情報処理と意思決定の負担から解放されます。 結論は機械学習を使用すると、リンゴとオレンジを区別する方法を決定できます。これは大したことではないように思えるかもしれませんが、ほとんどの機械学習モデルでは実行する手順は同じです。この標準は、機械学習が進歩し、AI 全体が成長するにつれて将来変更される可能性がありますが、次に ML プロジェクトに取り組む必要があるときは、次の基準を念頭に置いてください。
|
道路交通は常に人々の関心事であり、テクノロジーの時代において、人々は自動運転に大きな期待を寄せていま...
[[201242]]チャットボットとは一体何でしょうか? 簡単に言えば、音声またはテキスト方式で会...
はじめに:国内の求人検索サイトのデータによると、2019年現在、上海の自然言語処理(NLP)関連職種...
[[418716]]建築の問題を研究すると、ほぼすべての「新しい」アイデアが、おそらく何十年も前に何...
[[256558]] AIが大量失業を引き起こすという懸念は根拠がない世界的な研究機関である羅漢研究...
2019年6月28日、北京で2019年北京人工知能産業サミットフォーラムが開催されました。主催は工業...
昨年、微博で話題になった動画を覚えている人はどれくらいいるだろうか。『射雁英雄伝』で朱茵娜が演じ...
人工知能(AI)は、新たな科学技術革命と産業変革の重要な原動力として、世界に大きな影響を与え、変化を...
「ロールプレイング」は、大規模言語モデルのより興味深い応用シナリオです。LLMは、指定されたロール...
[51CTO.com クイック翻訳] キーボードを握ってください! マウスや GUI がなくても、O...
動画生成AIが狂った!ランウェイとミッドジャーニーは、それぞれが究極の技を駆使して激しい戦いを繰り広...
オラクルが市場調査会社ウェイクフィールド・リサーチおよびニューヨークに拠点を置く小売コンサルティング...
[[286828]] F5、LVS、HAproxy、nginx など、私たちが普段使用している負荷...
[[327163]]海外メディアの報道によると、ポッパーという、押すと飛び上がるおもちゃで遊んだこ...