教師あり学習、教師なし学習、半教師あり学習、強化学習の 4 つのディープラーニング手法を 1 つの記事で理解する

一般的に、ディープラーニングネットワークをトレーニングする方法には、教師あり学習、教師なし学習、半教師あり学習、強化学習の 4 つがあります。以下の記事では、コンピュータビジョンチームがこれらの方法の背後にある理論的知識を 1 つずつ説明します。さらに、コンピュータビジョンチームは、文献でよく見られる用語を共有し、数学に関連するリソースをさらに提供します。

教師あり学習

教師あり学習では、正解がわかっている例を使用してネットワークをトレーニングします。あなたの両親の写真が収められた写真ライブラリから、あなたの両親の写真を認識するようにネットワークをトレーニングできると想像してください。この仮想シナリオで実行する手順は次のとおりです。

ステップ1: データセットの作成と分類

私たちはあなたの写真（データセット）を調べ、あなたの両親の写真をすべて識別し、ラベルを付けることからプロセスを開始します。次に、写真の山全体を 2 つの山に分けます。最初のデータ列はネットワークのトレーニングに使用し (トレーニングデータ)、2 番目のデータ列は両親の写真に対するアクションの選択におけるモデルの精度を確認するために使用します (検証データ)。

データセットの準備ができたら、写真をモデルに入力します。数学的には、私たちの目標は、写真を入力として受け取り、両親が写真に写っていない場合は 0 を、そうでない場合は 1 を出力する関数をディープネットワーク内で見つけることです。

このステップは、多くの場合、分類タスクと呼ばれます。この場合、通常は「はい」または「いいえ」の結果でトレーニングしますが、実際には、教師あり学習を使用して、0 または 1 だけでなく、値のセットを出力することもできます。たとえば、ある人がクレジットカードローンを返済する確率を出力するようにネットワークをトレーニングすることができます。この場合、出力は 0 から 100 までの任意の値になります。これらのタスクを回帰と呼びます。

ステップ2: トレーニング

プロセスを継続するために、モデルは次のルール（活性化関数）を使用して各写真に対して予測を行い、作品内の特定のノードを点灯するかどうかを決定します。このモデルは、左から右へ、一度に 1 つのレイヤーで動作します。ここでは、より複雑なネットワークは無視します。ネットワークがネットワーク内のすべてのノードに対してこれを計算すると、点灯している（または点灯していない）一番右のノード（出力ノード）に到達します。

どの画像にあなたの両親の写真が含まれているかがわかったので、モデルの予測が正しかったか間違っていたかを伝えることができます。その後、この情報をネットワークにフィードバックします。

アルゴリズムによって使用されるこのフィードバックは、実際の答えがモデルの予測からどれだけ逸脱しているかを定量化する関数の結果です。この関数はコスト関数と呼ばれ、目的関数、効用関数、または適合関数とも呼ばれます。この関数の結果は、結果のノードから情報が「逆方向に」伝わるバックプロパゲーションと呼ばれるプロセスで、ノード間の接続の強度とバイアスを変更するために使用されます。

これを各画像に対して繰り返し、各ケースでアルゴリズムはコスト関数を最小化しようとします。

モデルが正しいか間違っているかを検証するために使用できる数学的手法は多数ありますが、勾配降下法と呼ばれる非常に一般的な方法がよく使用されます。 Algobeans には、その仕組みをわかりやすく説明した「素人向け理論」があります。マイケル・ニールセンは、微積分や線形代数などの数学の知識を活用してこのアプローチを改良しました。

翻訳: 翻訳者: 佐藤健

ステップ3: 検証

最初のスタック内のすべての写真を処理したら、モデルをテストする準備が整います。 2 番目の写真群を活用して、トレーニングされたモデルが両親が写っている写真を正確に選択できるかどうかを確認する必要があります。

通常、モデル内のノード数、レイヤー数、ノードが点灯するかどうかを決定するために使用される数学関数、バックプロパゲーションフェーズ中に重みがどれだけ積極的かつ効率的にトレーニングされるかなど、モデルに関するさまざまな要素 (ハイパーパラメータ) を微調整しながら、手順 2 と 3 を繰り返します。 Quora の関連紹介を閲覧すれば、良い説明が得られるので、これを理解できます。

ステップ4: 使用

最後に、正確なモデルができたら、そのモデルをアプリケーションにデプロイできます。 ParentsInPicture(photo) などの API 呼び出しとしてモデルを定義し、ソフトウェアからそのメソッドを呼び出して、モデルに推論を実行させ、適切な結果を返すことができます。

このプロセスについては、後ほど、名刺を認識する iPhone アプリを作成しながら詳しく説明します。

ラベル付きデータセットを取得するのは困難 (つまり高価) な場合があるため、予測の価値がラベル付きデータを取得してモデルをトレーニングするコストを正当化することを確認する必要があります。たとえば、がんの可能性がある人のラベル付き X 線写真を入手するのは非常に高価ですが、偽陽性と偽陰性がほとんど生成されない正確なモデルを入手できる可能性は明らかに非常に高くなります。

教師なし学習

教師なし学習は、データセットはあるがラベルがない場合に使用します。教師なし学習は入力セットを受け取り、データ内のパターンを見つけようとします。たとえば、グループに整理したり (クラスタリング)、外れ値を見つけたり (異常検出) します。例えば：

• あなたが T シャツ製造業者で、たくさんの人の身体測定値を持っていると想像してください。次に、これらの測定値をクラスターのセットにグループ化して、XS、S、M、L、XL のシャツのサイズを決定できるクラスタリングアルゴリズムが必要になる場合があります。

文献で紹介されている教師なし学習手法には次のようなものがあります。

• オートエンコーディング

http://ufldl.stanford.edu/tutorial/unsupervised/オートエンコーダー/

•主成分分析

https://www.quora.com/PCA の直感的な説明とは何か

• ランダムフォレスト

https://en.wikipedia.org/wiki/ランダムフォレスト

• K平均法クラスタリング

https://www.youtube.com/watch?v=RD0nNK51Fp8

教師なし学習における最近の最も有望な開発の 1 つは、イアン・グッドフェロー (ヨシュア・ベンジオの研究室で働いていたとき) の「生成的敵対的ネットワーク」と呼ばれるアイデアです。これは、2 つのニューラルネットワークを相互に接続します。ジェネレーターと呼ばれる 1 つのネットワークは、ディスクリミネーターと呼ばれるもう 1 つのネットワークを欺くように設計されたデータを生成する役割を担います。このアプローチにより、テキスト文字列や手描きのスケッチから写真のようにリアルな画像を生成できる AI テクノロジーなど、驚くべき成果が実現しました。

半教師あり学習

半教師あり学習では、トレーニング段階で大量のラベルなしデータと少量のラベル付きデータを組み合わせます。トレーニングセットを使用してトレーニングされたモデルは、ラベル付けされたデータのみを使用するモデルよりも正確で、トレーニングにかかるコストも低くなります。

ラベルなしデータを使用するとモデルの精度が向上する場合がある理由として、答えがわからなくても、考えられる値が何であるか、特定の値がどのくらいの頻度で発生するかについて何かを学ぶことができることが挙げられます。

数学愛好家にとってのメリット: 半教師あり学習に興味がある場合は、Zhu Xiaojin 教授によるこのスライドチュートリアルと 2008 年の文献レビュー記事を読むことができます。（この2つはプラットフォームの共有ファイル欄で共有します）

強化学習

強化学習は、ラベル付けされたデータセットがないものの、目標（報酬関数）に近づいているかどうかを判断する方法がある状況で使用されます。古典的な子供のゲーム - 「熱いか冷たいか」。 (ハックルバックルビーンズトークのバリエーション) は、この概念をよく表しています。あなたの仕事は、隠されたターゲットオブジェクトを見つけることです。その後、友達が、あなたがターゲットオブジェクトから熱くなっているか (近づいているか)、冷たくなっているか (遠ざかっているか) を声で知らせてくれます。「より熱い/より冷たい」が報酬関数であり、アルゴリズムの目標は報酬関数を最大化することです。報酬関数は、遅延され、まばらにラベル付けされたデータの一種と考えることができます。つまり、各データポイントで特定の「正しい/間違った」回答を得るのではなく、目標の方向に向かっているかどうかについてのヒントのみを与える遅延応答を得ます。

•DeepMind は、強化学習とディープラーニングを組み合わせて、一連の Atari ビデオゲームのプレイ方法を学習するシステムについて説明した論文を Nature に発表しました。このシステムには、Breakout など非常に成功したものもあれば、Montezuma's Revenge などそれほど成功しなかったものもあります。

•Nervana チーム (現在は Intel 所属) は、これらのテクノロジーの詳細を説明した優れたブログ記事を公開しました。興味のある方はぜひお読みください。

https://www.nervanasys.com/demystifying-deep-reinforcement-learning/

• Russell Kaplan、Christopher Sauer、Alexander Sosa による非常に創造的なスタンフォード大学の学生プロジェクトは、強化学習の課題の 1 つを示し、巧妙な解決策を提案しています。 DeepMind の論文でわかるように、アルゴリズムは Montezuma's Revenge のプレイ方法を学習できませんでした。理由は何ですか？スタンフォード大学の学生たちは、「報酬関数が乏しい環境では、強化学習エージェントは依然として学習に苦労している」と説明しています。「もっと熱い」または「もっと冷たい」ヒントが十分に得られない場合、隠された「鍵」を見つけるのは難しくなります。スタンフォード大学の学生たちは、このシステムに「はしごを降りる」や「鍵を手に入れる」といった自然言語の指示を理解して応答することを基礎的に教え、OpenAI gymで最高得点を獲得したアルゴリズムを作った。アルゴリズムのビデオをクリックすると、アルゴリズムのデモンストレーションを視聴できます。