ついに誰かが教師あり学習を明確にした

01 教師あり学習とは何か

教師あり学習を行うには、コンピューターが学習できるラベルが付いたサンプルデータのセットから始める必要があります。例えば：

ご覧のとおり、サンプルにはデータ、テキスト、サウンド、ビデオなど、さまざまなものがあります。さらに、タグは数値または入力のいずれかになります。値ラベルは、温度-レモネード変換器のような単なる数字です。タイプラベルは、犬種検出器の例のように、定義済みセットのカテゴリを表します。

想像力を働かせれば、数値や型ラベルに基づいて何かを予測したり、他のものを予測したりする他の多くの例を思いつくことができます。

いくつかのラベル付きサンプルが収集されているものと想定します。ここで、教師あり学習の 2 つの段階に進むことができます。

フェーズ 1: トレーニングフェーズ

パターンを発見するように設計されたアルゴリズムに、ラベル付けされた例を入力します。たとえば、アルゴリズムは、肺炎スキャンのすべてに、肺炎以外のスキャンには存在しない特定の共通の特徴 (おそらく特定の不透明領域) があることに気付く場合があります。このフェーズは、アルゴリズムがサンプルデータを何度も参照し、これらのパターンを認識することを学習するため、トレーニングフェーズと呼ばれます。

フェーズ2: 予測フェーズ

アルゴリズムは肺炎がどのような状態であるかを把握したので、予測段階に切り替わります。この段階で私たちはトレーニングの成果を享受することができます。ラベル付けされていない X 線スキャンを訓練されたアルゴリズムに見せると、肺炎の特徴があるかどうかがわかります。

教師あり学習のもう 1 つの例として、動物の種類を識別できるシステムを紹介します。各入力データは動物の写真であり、各サンプルのラベルは写真に写っている動物の種です。トレーニング段階では、アルゴリズムにラベル付けされた画像を表示します。予測フェーズでは、ラベルのない画像をアルゴリズムに示し、画像のラベルを推測するように依頼します。

前述したように、コンピュータプログラムは機械学習の過程でデータを「理解」することができます。教師あり学習はそのようなプロセスの一例です。従来のプログラミングプロセスでは、コンピューターが入力から出力を計算できるようにプログラムを作成できます。一方、教師あり学習では、プログラムに入力と出力のサンプルデータを与えるだけで、コンピューターは入力から出力を計算する方法を自ら学習できます。

教師あり学習の概要を読んだので、おそらく最初に読んだときよりも多くの疑問が湧いてきたことでしょう。教師あり学習の手順はサンプルデータ内の「共通の特徴に気づき」、そして「パターンを発見する」と述べましたが、これはどのように行われるのでしょうか?より抽象的なレベルから始めて、この魔法がどのように行われるかを見てみましょう。

02 魔法の背後にある数学的原理

教師あり学習システムは、関数フィッティングという数学的概念を使用して、サンプルデータとそのラベルの関係を理解します。以下では、具体的な例を挙げてこの数学的概念の基本原理を紹介します。

あなたの家の屋根にソーラーパネルが設置されていると想像してみてください。あなたは、太陽光パネルがどのようにエネルギーを生成するかを学習し、将来のある時点でどれだけのエネルギーが生成されるか予測する教師あり学習システムのようなものです。

太陽光パネルのエネルギー出力を予測するには、時間や天候などの変数が必要です。時間は重要な変数であるはずなので、その変数に焦点を当てることにしました。真の教師あり学習プロセスでは、まず、一日のさまざまな時間帯にソーラーパネルによって生成されるエネルギー量に関するサンプルデータを収集することから始めます。数週間にわたるランダムサンプリングの後、次のデータが得られます。

上記の表の各行は、動物を識別するシステムと同様に、入力変数 (時間) とラベル (生成されたエネルギー値) を含むサンプルデータです。動物の写真が入力で、動物の名前がラベルです。

これらのサンプルデータをグラフにプロットすると、時間とソーラーパネルのエネルギー生産値の関係を確認できます。

太陽光パネルは夜間にはエネルギーを生成せず、エネルギーレベルは正午にピークに達することが一目でわかります。下の図に示すように、教師あり学習システムは人間の脳ほど賢くはありませんが、サンプルデータを特定の関数に近似することで、データの理解を実現できます。

サンプルデータに近いフィッティング関数を見つけるのは簡単な作業ではありません。ただし、その後の予測フェーズははるかに簡単になります。システムはすべてのサンプル情報を忘れ、見つかったフィッティング関数を使用して、将来の特定の時間にソーラーパネルによって生成されるエネルギーを予測します。たとえば、正午に生成されるエネルギーは次の図に示されています。

これは私が教師あり学習と呼んでいるもので、関数フィッティングを通じてアルゴリズム機能を実現します。教師あり学習システムが受け取る実際のサンプルデータは、通常、乱雑で不完全です。データトレーニング段階では、通常、より複雑な実際のデータに近似的に適合する比較的単純な関数を構築する必要があります。予測段階では、構築されたフィッティング関数を使用して未知のデータを予測します。

プログラマーとして、物事がうまくいかない可能性があるさまざまな方法を考慮することに慣れています。したがって、サンプルデータの処理を複雑にする方法を検討したことがあるかもしれません。たとえば、ソーラーパネルのエネルギー出力は、雲量や季節など、時間帯以外の要因によって影響を受ける可能性があります。

これらすべての変数のデータを収集すると、単純なグラフでは視覚化できない多次元のポイントクラウドが生成されます。同様に、ソーラーパネルの場合、予測する必要があるのは数値ラベルです。このような数値ラベルを非数値ラベル (動物の名前など)、つまりカテゴリラベルに変換するにはどうすればよいのか疑問に思うかもしれません。

現時点で知っておく必要があるのは、どれだけ複雑さを追加しても、教師あり学習の基本的な考え方は、先ほど説明したものと同じです。つまり、大量のサンプルデータを見つけて、そのサンプルデータにほぼ適合する関数を見つけるということです。

現代の教師あり学習システムは、この種のフィッティングに非常に優れています。実際、このフィッティング関数は、X 線スキャン画像と診断結果の関係など、非常に複雑な機能関係をフィッティングできるほど強力です。もちろん、これらの対応を合わせるために使用される関数は、私たち人間にとっては非常に複雑です。しかし、コンピュータシステムの場合、それは簡単なことです。

<<: 2022年以降の中国の自動運転産業の展望

>>: AI 請求書認識を実現する PaddleOCR ベースの Asp.net Core アプリケーション