教師あり学習、教師なし学習、半教師あり学習、強化学習の 4 つのディープラーニング手法を 1 つの記事で理解する

教師あり学習、教師なし学習、半教師あり学習、強化学習の 4 つのディープラーニング手法を 1 つの記事で理解する

一般的に、ディープラーニング ネットワークをトレーニングする方法には、教師あり学習、教師なし学習、半教師あり学習、強化学習の 4 つがあります。以下の記事では、コンピュータ ビジョン チームがこれらの方法の背後にある理論的知識を 1 つずつ説明します。さらに、コンピュータ ビジョン チームは、文献でよく見られる用語を共有し、数学に関連するリソースをさらに提供します。

教師あり学習

教師あり学習では、正解がわかっている例を使用してネットワークをトレーニングします。あなたの両親の写真が収められた写真ライブラリから、あなたの両親の写真を認識するようにネットワークをトレーニングできると想像してください。この仮想シナリオで実行する手順は次のとおりです。

ステップ1: データセットの作成と分類

私たちはあなたの写真(データセット)を調べ、あなたの両親の写真をすべて識別し、ラベルを付けることからプロセスを開始します。次に、写真の山全体を 2 つの山に分けます。最初のデータ列はネットワークのトレーニングに使用し (トレーニング データ)、2 番目のデータ列は両親の写真に対するアクションの選択におけるモデルの精度を確認するために使用します (検証データ)。

データセットの準備ができたら、写真をモデルに入力します。数学的には、私たちの目標は、写真を入力として受け取り、両親が写真に写っていない場合は 0 を、そうでない場合は 1 を出力する関数をディープ ネットワーク内で見つけることです。

このステップは、多くの場合、分類タスクと呼ばれます。この場合、通常は「はい」または「いいえ」の結果でトレーニングしますが、実際には、教師あり学習を使用して、0 または 1 だけでなく、値のセットを出力することもできます。たとえば、ある人がクレジットカードローンを返済する確率を出力するようにネットワークをトレーニングすることができます。この場合、出力は 0 から 100 までの任意の値になります。これらのタスクを回帰と呼びます。

ステップ2: トレーニング

プロセスを継続するために、モデルは次のルール(活性化関数)を使用して各写真に対して予測を行い、作品内の特定のノードを点灯するかどうかを決定します。このモデルは、左から右へ、一度に 1 つのレイヤーで動作します。ここでは、より複雑なネットワークは無視します。ネットワークがネットワーク内のすべてのノードに対してこれを計算すると、点灯している(または点灯していない)一番右のノード(出力ノード)に到達します。

どの画像にあなたの両親の写真が含まれているかがわかったので、モデルの予測が正しかったか間違っていたかを伝えることができます。その後、この情報をネットワークにフィードバックします。

アルゴリズムによって使用されるこのフィードバックは、実際の答えがモデルの予測からどれだけ逸脱しているかを定量化する関数の結果です。この関数はコスト関数と呼ばれ、目的関数、効用関数、または適合関数とも呼ばれます。この関数の結果は、結果のノードから情報が「逆方向に」伝わるバックプロパゲーションと呼ばれるプロセスで、ノード間の接続の強度とバイアスを変更するために使用されます。

これを各画像に対して繰り返し、各ケースでアルゴリズムはコスト関数を最小化しようとします。

モデルが正しいか間違っているかを検証するために使用できる数学的手法は多数ありますが、勾配降下法と呼ばれる非常に一般的な方法がよく使用されます。 Algobeans には、その仕組みをわかりやすく説明した「素人向け理論」があります。マイケル・ニールセンは、微積分や線形代数などの数学の知識を活用してこのアプローチを改良しました。

翻訳: 翻訳者: 佐藤 健

ステップ3: 検証

最初のスタック内のすべての写真を処理したら、モデルをテストする準備が整います。 2 番目の写真群を活用して、トレーニングされたモデルが両親が写っている写真を正確に選択できるかどうかを確認する必要があります。

通常、モデル内のノード数、レイヤー数、ノードが点灯するかどうかを決定するために使用される数学関数、バックプロパゲーションフェーズ中に重みがどれだけ積極的かつ効率的にトレーニングされるかなど、モデルに関するさまざまな要素 (ハイパーパラメータ) を微調整しながら、手順 2 と 3 を繰り返します。 Quora の関連紹介を閲覧すれば、良い説明が得られるので、これを理解できます。

ステップ4: 使用

最後に、正確なモデルができたら、そのモデルをアプリケーションにデプロイできます。 ParentsInPicture(photo) などの API 呼び出しとしてモデルを定義し、ソフトウェアからそのメソッドを呼び出して、モデルに推論を実行させ、適切な結果を返すことができます。

このプロセスについては、後ほど、名刺を認識する iPhone アプリを作成しながら詳しく説明します。

ラベル付きデータセットを取得するのは困難 (つまり高価) な場合があるため、予測の価値がラベル付きデータを取得してモデルをトレーニングするコストを正当化することを確認する必要があります。たとえば、がんの可能性がある人のラベル付き X 線写真を入手するのは非常に高価ですが、偽陽性と偽陰性がほとんど生成されない正確なモデルを入手できる可能性は明らかに非常に高くなります。

教師なし学習

教師なし学習は、データセットはあるがラベルがない場合に使用します。教師なし学習は入力セットを受け取り、データ内のパターンを見つけようとします。たとえば、グループに整理したり (クラスタリング)、外れ値を見つけたり (異常検出) します。例えば:

• あなたが T シャツ製造業者で、たくさんの人の身体測定値を持っていると想像してください。次に、これらの測定値をクラスターのセットにグループ化して、XS、S、M、L、XL のシャツのサイズを決定できるクラスタリング アルゴリズムが必要になる場合があります。

文献で紹介されている教師なし学習手法には次のようなものがあります。

• オートエンコーディング

http://ufldl.stanford.edu/tutorial/unsupervised/オートエンコーダー/

•主成分分析

https://www.quora.com/PCA の直感的な説明とは何か

• ランダムフォレスト

https://en.wikipedia.org/wiki/ランダムフォレスト

• K平均法クラスタリング

https://www.youtube.com/watch?v=RD0nNK51Fp8

教師なし学習における最近の最も有望な開発の 1 つは、イアン・グッドフェロー (ヨシュア・ベンジオの研究室で働いていたとき) の「生成的敵対的ネットワーク」と呼ばれるアイデアです。これは、2 つのニューラル ネットワークを相互に接続します。ジェネレーターと呼ばれる 1 つのネットワークは、ディスクリミネーターと呼ばれるもう 1 つのネットワークを欺くように設計されたデータを生成する役割を担います。このアプローチにより、テキスト文字列や手描きのスケッチから写真のようにリアルな画像を生成できる AI テクノロジーなど、驚くべき成果が実現しました。

半教師あり学習

半教師あり学習では、トレーニング段階で大量のラベルなしデータと少量のラベル付きデータを組み合わせます。トレーニング セットを使用してトレーニングされたモデルは、ラベル付けされたデータのみを使用するモデルよりも正確で、トレーニングにかかる​​コストも低くなります。

ラベルなしデータを使用するとモデルの精度が向上する場合がある理由として、答えがわからなくても、考えられる値が何であるか、特定の値がどのくらいの頻度で発生するかについて何かを学ぶことができることが挙げられます。

数学愛好家にとってのメリット: 半教師あり学習に興味がある場合は、Zhu Xiaojin 教授によるこのスライド チュートリアルと 2008 年の文献レビュー記事を読むことができます。 (この2つはプラットフォームの共有ファイル欄で共有します)

強化学習

強化学習は、ラベル付けされたデータセットがないものの、目標(報酬関数)に近づいているかどうかを判断する方法がある状況で使用されます。古典的な子供のゲーム - 「熱いか冷たいか」。 (ハックルバックル ビーンズトークのバリエーション) は、この概念をよく表しています。あなたの仕事は、隠されたターゲット オブジェクトを見つけることです。その後、友達が、あなたがターゲット オブジェクトから熱くなっているか (近づいているか)、冷たくなっているか (遠ざかっているか) を声で知らせてくれます。 「より熱い/より冷たい」が報酬関数であり、アルゴリズムの目標は報酬関数を最大化することです。報酬関数は、遅延され、まばらにラベル付けされたデータの一種と考えることができます。つまり、各データ ポイントで特定の「正しい/間違った」回答を得るのではなく、目標の方向に向かっているかどうかについてのヒントのみを与える遅延応答を得ます。

•DeepMind は、強化学習とディープラーニングを組み合わせて、一連の Atari ビデオゲームのプレイ方法を学習するシステムについて説明した論文を Nature に発表しました。このシステムには、Breakout など非常に成功したものもあれば、Montezuma's Revenge などそれほど成功しなかったものもあります。

•Nervana チーム (現在は Intel 所属) は、これらのテクノロジーの詳細を説明した優れたブログ記事を公開しました。興味のある方はぜひお読みください。

https://www.nervanasys.com/demystifying-deep-reinforcement-learning/

• Russell Kaplan、Christopher Sauer、Alexander Sosa による非常に創造的なスタンフォード大学の学生プロジェクトは、強化学習の課題の 1 つを示し、巧妙な解決策を提案しています。 DeepMind の論文でわかるように、アルゴリズムは Montezuma's Revenge のプレイ方法を学習できませんでした。理由は何ですか?スタンフォード大学の学生たちは、「報酬関数が乏しい環境では、強化学習エージェントは依然として学習に苦労している」と説明しています。 「もっと熱い」または「もっと冷たい」ヒントが十分に得られない場合、隠された「鍵」を見つけるのは難しくなります。スタンフォード大学の学生たちは、このシステムに「はしごを降りる」や「鍵を手に入れる」といった自然言語の指示を理解して応答することを基礎的に教え、OpenAI gymで最高得点を獲得したアルゴリズムを作った。 アルゴリズムのビデオをクリックすると、アルゴリズムのデモンストレーションを視聴できます。

(http://mp.weixinbridge.com/mp/wapredirect?url=https%3A%2F%2Fdrive.google.com%2Ffile%2Fd%2F0B2ZTvWzKa5PHSkJvQVlsb0FLYzQ%2Fview&action=appmsg_redirect&uin=Nzk3MTk3MzIw&biz=MzA5MzQwMDk4Mg==&mid=2651042109&idx=1&type=1&scene=0)

•強化学習に関するこのアルゴリズムを見て、よく学び、そして大ボスのようにスーパーマリオをプレイしましょう。

リチャード・サットンとアンドリュー・バートは強化学習に関する本を書きました。ここをクリックすると、第 2 稿を表示することもできます。 http://incompleteideas.net/sutton/book/the-book-1st.html

<<:  数十億のプロモーショントラフィックでも正確な推奨を行うことは可能でしょうか?コアアルゴリズムの応用実践の解釈_ITテクノロジーウィークリー第505号

>>:  7,346 人が参加したアルゴリズム コンテストは JD.com に何をもたらしたのでしょうか?

ブログ    
ブログ    
ブログ    

推薦する

Nvidia 3090が180億パラメータの大規模モデルに単独で挑む。今度は国内オープンソースプロジェクトが大暴れ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

CCS Insight の予測: 生成 AI は 2024 年までに人気がなくなる

あるアナリスト会社は、生成型AIという熱狂的な分野にとって来年は現実を突きつけられる年になると予測し...

小さなターゲットを検出するためのディープラーニングの一般的な方法

[[427475]]導入ディープラーニングによる物体検出、特に顔検出では、解像度が低い、画像がぼやけ...

MITのロボット犬がまた進化しました。砂利や氷の上でも滑らずに走れます。今回は本当に犬と同じくらい安定しています

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

データベース設計: MySQL フィールド名がキーワードと衝突するのを防ぎ、データの整合性を保護します。

MySQL は広く使用されているリレーショナル データベース管理システムです。データベース設計では...

人工知能が巨大な応用価値を生み出す

飛行機搭乗時の「顔スキャン」から無人スーパーマーケットまで、多機能巡回ロボットからスマート医療まで....

高度な分析とコンピューティング技術の出現が世界のインテリジェントアプリケーション市場を牽引

世界的なスマート アプリケーション市場の成長は、高度なコンピューティングおよび分析テクノロジによって...

...

人工知能の登場により、将来的にこれらの 6 つの職業は失業する可能性があります。あなたは準備ができていますか?

科学技術の発展とビッグデータの登場により、人工知能は私たちの生活にますます近づいてきました。しかし、...

スループットが約30倍に増加しました。田元東チームの最新論文は、大規模モデル展開の問題を解決している

大規模言語モデル (LLM) は今年非常に人気がありました。しかし、その驚異的な効果の背後には、巨大...