ついに誰かが教師あり学習を明確にした

ついに誰かが教師あり学習を明確にした

01 教師あり学習とは何か

教師あり学習を行うには、コンピューターが学習できるラベルが付いたサンプル データのセットから始める必要があります。例えば:

ご覧のとおり、サンプルにはデータ、テキスト、サウンド、ビデオなど、さまざまなものがあります。さらに、タグは数値または入力のいずれかになります。値ラベルは、温度-レモネード変換器のような単なる数字です。タイプ ラベルは、犬種検出器の例のように、定義済みセットのカテゴリを表します。

想像力を働かせれば、数値や型ラベルに基づいて何かを予測したり、他のものを予測したりする他の多くの例を思いつくことができます。

いくつかのラベル付きサンプルが収集されているものと想定します。ここで、教師あり学習の 2 つの段階に進むことができます。

  • フェーズ 1: トレーニング フェーズ

パターンを発見するように設計されたアルゴリズムに、ラベル付けされた例を入力します。たとえば、アルゴリズムは、肺炎スキャンのすべてに、肺炎以外のスキャンには存在しない特定の共通の特徴 (おそらく特定の不透明領域) があることに気付く場合があります。このフェーズは、アルゴリズムがサンプル データを何度も参照し、これらのパターンを認識することを学習するため、トレーニング フェーズと呼ばれます。

  • フェーズ2: 予測フェーズ

アルゴリズムは肺炎がどのような状態であるかを把握したので、予測段階に切り替わります。この段階で私たちはトレーニングの成果を享受することができます。ラベル付けされていない X 線スキャンを訓練されたアルゴリズムに見せると、肺炎の特徴があるかどうかがわかります。

教師あり学習のもう 1 つの例として、動物の種類を識別できるシステムを紹介します。各入力データは動物の写真であり、各サンプルのラベルは写真に写っている動物の種です。トレーニング段階では、アルゴリズムにラベル付けされた画像を表示します。予測フェーズでは、ラベルのない画像をアルゴリズムに示し、画像のラベルを推測するように依頼します。

前述したように、コンピュータプログラムは機械学習の過程でデータを「理解」することができます。教師あり学習はそのようなプロセスの一例です。従来のプログラミング プロセスでは、コンピューターが入力から出力を計算できるようにプログラムを作成できます。一方、教師あり学習では、プログラムに入力と出力のサンプル データを与えるだけで、コンピューターは入力から出力を計算する方法を自ら学習できます。

教師あり学習の概要を読んだので、おそらく最初に読んだときよりも多くの疑問が湧いてきたことでしょう。教師あり学習の手順はサンプルデータ内の「共通の特徴に気づき」、そして「パターンを発見する」と述べましたが、これはどのように行われるのでしょうか?より抽象的なレベルから始めて、この魔法がどのように行われるかを見てみましょう。

02 魔法の背後にある数学的原理

教師あり学習システムは、関数フィッティングという数学的概念を使用して、サンプル データとそのラベルの関係を理解し​​ます。以下では、具体的な例を挙げてこの数学的概念の基本原理を紹介します。

あなたの家の屋根にソーラーパネルが設置されていると想像してみてください。あなたは、太陽光パネルがどのようにエネルギーを生成するかを学習し、将来のある時点でどれだけのエネルギーが生成されるか予測する教師あり学習システムのようなものです。

太陽光パネルのエネルギー出力を予測するには、時間や天候などの変数が必要です。時間は重要な変数であるはずなので、その変数に焦点を当てることにしました。真の教師あり学習プロセスでは、まず、一日のさまざまな時間帯にソーラーパネルによって生成されるエネルギー量に関するサンプル データを収集することから始めます。数週間にわたるランダムサンプリングの後、次のデータが得られます。

上記の表の各行は、動物を識別するシステムと同様に、入力変数 (時間) とラベル (生成されたエネルギー値) を含むサンプル データです。動物の写真が入力で、動物の名前がラベルです。

これらのサンプル データをグラフにプロットすると、時間とソーラー パネルのエネルギー生産値の関係を確認できます。

太陽光パネルは夜間にはエネルギーを生成せず、エネルギーレベルは正午にピークに達することが一目でわかります。下の図に示すように、教師あり学習システムは人間の脳ほど賢くはありませんが、サンプルデータを特定の関数に近似することで、データの理解を実現できます。

サンプルデータに近いフィッティング関数を見つけるのは簡単な作業ではありません。ただし、その後の予測フェーズははるかに簡単になります。システムはすべてのサンプル情報を忘れ、見つかったフィッティング関数を使用して、将来の特定の時間にソーラーパネルによって生成されるエネルギーを予測します。たとえば、正午に生成されるエネルギーは次の図に示されています。

これは私が教師あり学習と呼んでいるもので、関数フィッティングを通じてアルゴリズム機能を実現します。教師あり学習システムが受け取る実際のサンプル データは、通常、乱雑で不完全です。データトレーニング段階では、通常、より複雑な実際のデータに近似的に適合する比較的単純な関数を構築する必要があります。予測段階では、構築されたフィッティング関数を使用して未知のデータを予測します。

プログラマーとして、物事がうまくいかない可能性があるさまざまな方法を考慮することに慣れています。したがって、サンプル データの処理を複雑にする方法を検討したことがあるかもしれません。たとえば、ソーラーパネルのエネルギー出力は、雲量や季節など、時間帯以外の要因によって影響を受ける可能性があります。

これらすべての変数のデータを収集すると、単純なグラフでは視覚化できない多次元のポイント クラウドが生成されます。同様に、ソーラーパネルの場合、予測する必要があるのは数値ラベルです。このような数値ラベルを非数値ラベル (動物の名前など)、つまりカテゴリラベルに変換するにはどうすればよいのか疑問に思うかもしれません。

現時点で知っておく必要があるのは、どれだけ複雑さを追加しても、教師あり学習の基本的な考え方は、先ほど説明したものと同じです。つまり、大量のサンプル データを見つけて、そのサンプル データにほぼ適合する関数を見つけるということです。

現代の教師あり学習システムは、この種のフィッティングに非常に優れています。実際、このフィッティング関数は、X 線スキャン画像と診断結果の関係など、非常に複雑な機能関係をフィッティングできるほど強力です。もちろん、これらの対応を合わせるために使用される関数は、私たち人間にとっては非常に複雑です。しかし、コンピュータ システムの場合、それは簡単なことです。

<<:  2022年以降の中国の自動運転産業の展望

>>:  AI 請求書認識を実現する PaddleOCR ベースの Asp.net Core アプリケーション

ブログ    
ブログ    
ブログ    

推薦する

Python プログラミングにおける 3 つの一般的なデータ構造とアルゴリズム

Python には、リスト、セット、辞書など、非常に便利な組み込みデータ構造が多数あります。ほとんど...

「段階的に考える」だけでは不十分です。モデルを「より多くのステップで考える」ようにすれば、より有用になります。

今日では、大規模言語モデル (LLM) とその高度なヒント戦略の出現により、特に古典的な NLP タ...

トークン化ガイド: バイトペアエンコーディング、WordPiece およびその他の方法 Python コードの詳細な説明

2022年11月にOpenAIのChatGPTがリリースされて以来、大規模言語モデル(LLM)が非常...

星が輝くとき - WOT グローバル テクノロジー イノベーション カンファレンス 2021 が間もなく開催されます

【51CTO.comオリジナル記事】​​​ 100年前、シュテファン・ツヴァイクは彼の有名な著作「星...

ChatGPT以外の14の大規模言語モデル

翻訳者 | 李睿レビュー | Chonglou今日、多くの企業幹部は人工知能を将来の発展方向と見てお...

...

人工知能の時代において、自己成長と教育においてどのような取り組みがなされるべきでしょうか?

近年、私たちは時代の広大さと大きな変化を痛感しています。潮流の下では、個人は泥や砂のように小さく、そ...

すべてのトップオブジェクト検出アルゴリズムを統合: FAIRオープンソースDetectron

昨日、Facebook AI Research (FAIR) は、業界で最も先進的な物体検出プラット...

自動運転のフードデリバリーが利用可能に、Meituanがすぐにあらゆるものを配達

北京、首鋼冬季オリンピック公園。最近、「MAI Shop」という小売店がここにオープンし、すぐにネッ...

ChatGPTを使った学生の不正行為を防ぐため、一部の大学教授は紙ベースの試験と手書きのエッセイへの復帰を検討している。

8月14日、人工知能(AI)の発展は教育に新たな課題をもたらしました。フォーチュン誌の最近の報道に...

プログラミングと数学の基礎が乏しい場合、人工知能を始めるにはどうすればよいでしょうか?

1. AI開発の現状1.1 コンセプトWikipedia によると、人工知能とは、人間や他の動物の...

人工知能の急速な発展により、多くの人が失業し、自立できなくなるのでしょうか?

近年、人工知能が話題となっており、人工知能が人類にもたらす変化について多くの人が議論しています。多く...

...

エッジAIがスマートホームの未来である理由

今日では、エッジに接続されるデバイスがますます増えています。さらに良いことに、人工知能と機械学習のお...