機械学習について知っておくべき6つの革命的な教訓

私たちは、ロボット工学、スマート家電、スマート小売店、自動運転車技術などによって推進される新しい時代を迎えています。機械学習は、これらすべての新時代の技術進歩の最前線にあります。近い将来、自動化された機械の開発により、機械の知能は人間と同等か、あるいはそれを超えるものになるでしょう。機械学習は間違いなく次の「大きな」ものとなるでしょう。さらに、将来の技術のほとんどはこれにリンクされると考えられています。

[[286807]]

機械学習はなぜそれほど重要なのでしょうか?

機械学習は、人間が予測できない行動やパターンを予測するのに役立つため重要です。機械学習には、実世界で非常に役立つアプリケーションが無数にあります。機械学習を通じて、以前は混乱していたシナリオを管理することが可能になります。効率的な一般化機能を備えた機械学習モデルを理解した後は、それを使用して重要な決定を適切に行うことができます。機械学習により、個人はさまざまなシナリオに基づいて意思決定を行うことができます。明らかに、すべての新しいシナリオで機能するコードをまだ作成することはできません。

人工知能は、学習と判断を必要とするさまざまな活動を実行できます。自動運転車、投資銀行業務、多くのヘルスケア関連機能から採用まで、AI はすでにさまざまな分野でさまざまなタスクを完了するために使用されています。

機械学習に関する6つの革命的な教訓

機械学習アルゴリズムは、シナリオから簡単に一般化して、必要なタスクを実行するための方法を導き出すことができます。これはより実現可能でコスト効率も優れていますが、手動プログラミングはそれほどコスト効率も実現可能でもありません。「利用可能なデータ」の量が増えると、データの取得に関連する問題が確実に増えます。したがって、機械学習はコンピューターやその他の分野で広く使用される未来です。それでも、効果的な機械学習アプリケーションを開発するには、ハンドブックでは見つけにくい多くの黒魔術が必要です。

機械学習について学んだ最も貴重な 6 つの教訓は次のとおりです。

1. 一般化が核心

機械学習の最も基本的な特徴の 1 つは、モデルが使用されるときに正しい推論を行えるように、アルゴリズムがトレーニングに使用されたデータから、そのドメイン内のすべての未知のシナリオの完全なドメインに一般化する必要があることです。この一般化のプロセスでは、モデルのトレーニングに使用するデータに、アルゴリズムに学習させたい内容が適切かつ確実にマッピングされていることが必要です。データの品質と表現力が向上するほど、モデルは入力から出力までの未知の基礎となる「真の」マッピングを理解しやすくなります。一般化とは、明確なものから広い範囲のものへと移行するプロセスです。

機械学習アルゴリズムは、過去のシナリオを自動的に単純化するテクノロジーです。より大量のデータをより高速に一般化する能力を備えています。

機械学習の初心者が犯す最も一般的な間違いは、トレーニングデータでテストして成功したように見えることです。結果として得られた分類器を新しいデータで試した場合、通常はランダムな推測よりもパフォーマンスは良くなりません。したがって、分類器を開発する場合は、テスト用にデータを残しておくようにしてください。また、テストデータで分類器をテストします。

2. 学習 = 表現 + 評価 + 最適化

機械学習アルゴリズムは、表現、評価、最適化の 3 つの部分に分かれています。

表現: データはアルゴリズムに適した形式で入力する必要があります。テキスト分類の場合、全テキスト入力から特徴を抽出し、bag-of-words 表現に変換できます。代わりに、表現を選択することは、学習する可能性のある分類子のセットを選択することと同義です。この集合は学習者の仮説空間と呼ばれます。
評価: これは、私たちの取り組み状況を把握するのに役立つ測定方法です。優れた分類器と劣った分類器を区別するには評価プロセスが必要です。テストセットの数値を予測できる場合 (たとえば、テストセットのサイズが n である場合)、ここで平均絶対誤差を計算したり、二乗平均平方根誤差を使用することも選択できます。
最適化: 最適化するためにさまざまな手法を選択する方法を見つけるプロセスを指します。たとえば、仮説空間内のすべての仮説を単純に試すこともできます。最も有利な仮説を試すために、よりスマートな手法を使用することも選択できます。また、最適化を行う際には、評価関数を使用して、この特定の仮定が成り立つかどうかを把握できます。メリット関数に最適な値が複数ある場合、最適化技術により、ユーザーは作成中の分類器についてさらに詳しく知ることができます。まず、初心者は既製のオプティマイザーから始めて、その後カスタム設計されたオプティマイザーに移行する必要があります。

3. データだけでは不十分です!

一般化が主な目標ですが、主な懸念は、データがどれだけあってもそれだけでは十分ではないということです。しかし幸いなことに、学習したい関数は、すべての計算可能な関数から均一に導出されるわけではありません。最も一般的な仮定 (滑らかさ、類似したクラスを持つ類似した例、弱い依存関係、制限された複雑さなど) でも、うまく機能するのに十分であり、これが機械学習が非常に強力である主な理由の 1 つです。基本的に、すべての初心者はビッグデータを理解し、アプリケーションを作成することに一致しています。

4. 過剰適合に注意する

分類器を完全にトレーニングするのに十分なデータがない場合、トレーニングセットでのみ役立つ分類器になってしまう可能性があります。この問題はオーバーフィッティングと呼ばれ、ML では厄介な問題と見なされます。モデルが過剰適合していることを発見することは有用ですが、問題は解決しません。それを取り除く方法を見つけなければなりません。幸いなことに、試すことのできる選択肢はたくさんあります。クロス検証は過剰適合を防ぐのに役立ちます。過剰適合を防ぐには、より多くのデータを使用したトレーニング、正則化、特徴の削除、早期停止、アンサンブルなどの方法もあります。

5. 特徴エンジニアリングが成功の鍵

特徴エンジニアリングは、データに関するコアドメイン知識を活用して、機械学習アルゴリズムをより効果的に機能させる特徴を開発する手法です。適切に実行すれば、生データから特徴を開発することでアルゴリズムの予測力を高めることができます。これらの機能により、機械学習プロセス全体が簡素化されます。クラスとよく相関するいくつかの独立した機能を利用することで、学習が容易になります。

6. 正確さとシンプルさは違う

オッカムの剃刀は、必要なものを超えてエンティティを追加すべきではないと簡潔に述べています。これは、2 つの分類器のトレーニングエラーが類似しており、2 つの分類器のうちより単純な方がテストエラーが最も低くなる可能性が高いことを意味します。すべての機械学習プロジェクトは、回答したいビジネス上の質問を中心に据える必要があります。まず、分析のための主要な成功原則を策定する必要があります。

オッカムの剃刀を適用し、解釈、説明、展開、管理が最も簡単なモデルを選択することは、強力な機械学習プログラムを構築する上で重要なステップです。十分に正確で、最も単純なモデルを選択することをお勧めしますが、実際に「十分に正確」が何を意味するのかを理解するために、問題を深く理解するようにしてください。

<<: 5 つの負荷分散アルゴリズムのうち、いくつ知っていますか?

>>: 2020年に注目すべき7つのAIトレンド