ディープラーニングの背後にあるさまざまなアイデアや考え方を徹底的に理解する

ディープニューラルネットワークは、ディープラーニングモデルが画像分類や音声認識などの従来の機械学習の問題において最良の従来の方法に勝った 2012 年に登場しました。これは、ディープラーニングを支えるさまざまな哲学的アイデアとさまざまな考え方のおかげです。

主な矛盾を把握し、二次的な矛盾を無視する - プーリング

ニューラルネットワークにプーリングした後、顕著で一般化された特徴が得られます。抽出されたすべての特徴を使用する場合と比較すると、次元が大幅に低くなるだけでなく、過剰適合も防止されます。

たとえば、max_pooling: 夜間の地球の鳥瞰図では、光の眩しい浸透により、人々は最も明るい部分にのみ注目し、明るい領域が拡大されているという視覚的な錯覚を生み出します。したがって、より抽象的な特徴 (テクスチャなど) を抽出するには、max_pooling の方が適しています。

プーリングは、パラメータの数を減らして過剰適合を防ぐダウンサンプリング手法です。畳み込みカーネルと同様に、プーリング層の各ニューロンは、受容野の小さな領域のみに対応する上位層の出力ニューロンに接続されます。

プーリングは、「主要な矛盾を把握し、二次的な矛盾を無視する」という哲学的な考えを体現しています。特徴抽出のプロセスでは、画像の特徴の最も重要な部分を把握し、重要でない非決定的な小さな特徴を放棄します。

勾配消失の回避 - ReLU とバッチ正規化

ディープニューラルネットワークの層の数が増えると、勾配消失は非常に厄介な問題になります。

ReLU の主な利点は、勾配分散の可能性を減らし、スパース性を高めることです。

線形整流関数 ReLU (Rectified Linear Unit) は、h = max(0,a) として定義されます。ここで、a = Wx + b です。

勾配消失の可能性を減らします。特に、a > 0 の場合、勾配は一定値になります。対照的に、x の絶対値が増加するにつれて、シグモイド関数の勾配はますます小さくなります。 ReLU の一定勾配により、学習が高速化されます。

スパース性を高めます。 a≤ 0 の場合、スパース性が発生します。ネットワーク層にこのようなユニットが多ければ多いほど、表現のスパース性が高まります。一方、シグモイド活性化関数は常にゼロ以外の値を生成する可能性が高く、結果として密な表現になります。疎な表現は密な表現よりも有益です。

バッチ正規化 (BN) は、平均削減と分散分割によって保証される勾配消失問題をうまく解決します。

各レイヤーの出力平均と分散を正規化すると、出力が飽和領域から非飽和領域（微分）に引き寄せられ、勾配消失問題が効果的に解決されます。下の図では、第 2 層と第 3 層の勾配変化について、BN を使用しない場合はシグモイド活性化関数の勾配が 5 倍消失しますが、BN を使用すると勾配は 33% しか消失しません。BN を使用すると、relu 活性化関数の勾配は消失しません。

アンサンブル学習の考え方 - ドロップアウト

ドロップアウトは、過剰適合を回避できる正規化手法です。

ドロップアウトは、入力データの学習時にネットワークが「賢くなりすぎる」ことを防ぐために、トレーニング中にネットワークがデータにどれだけ適応するかを制限する正規化の一種であり、これにより過剰適合を回避するのに役立ちます。

ドロップアウトは本質的にアンサンブル学習の考え方を体現しています。アンサンブル学習では、いくつかの「弱い」分類器を用意し、それらを個別にトレーニングします。各分類器は個別にトレーニングされるため、データの異なる「側面」を学習し、エラーも異なります。これらを組み合わせると、過剰適合が発生しにくい強力な分類器を作成できます。ランダムフォレストと GBDT は典型的な統合アルゴリズムです。

アンサンブルアルゴリズムの 1 つにバギングがあります。バギングでは、各メンバーが入力データの異なるサブセットを使用してトレーニングされ、入力特徴空間全体のサブセットのみを学習します。

ドロップアウトは、バギングの極端なバージョンとして考えることができます。ミニバッチの各トレーニングステップで、ドロップアウト手順によって異なるネットワークが作成され (一部のユニットがランダムに削除される)、通常どおりバックプロパゲーションを使用してトレーニングされます。概念的には、プロセス全体は、それぞれが単一の例でトレーニングされた（つまり、エクストリームバギング）多くの異なるネットワーク（各ステップに 1 つ）のアンサンブルを使用することに似ています。

テスト時には、ネットワーク全体 (すべてのユニット) が使用されますが、規模は縮小されます。数学的には、これはアンサンブル平均に近似します。

明らかに、これはディープラーニングに非常に適した統合アイデアです。

複雑な特徴の深い抽出を考える

ディープラーニングは今日、大きな成功を収めています。ディープニューラルネットワークでは、AlexNet の 8 層から GoogLeNet の 22 層、そして ResNet の 152 層へと、層の数が増えるにつれて、トップ 5 のエラー率はどんどん低くなり、3.57% に達します。

画像やテキストには複雑な階層関係が含まれているため、特徴抽出器でこれらの関係を表す数式を見つけるのは簡単ではありません。ディープラーニングシステムには、ネットワークがこれらすべての複雑な関係をモデル化できるようにする多層表現機能があります。

したがって、ディープラーニングを学習して適用する際には、ネットワーク層の深さを恐れないでください。画像、テキスト、音声などの生データの抽象的な本質的な特徴を抽出するのは、この深い構造です。

ニューラルネットワークは、段階的に抽象度が増す特徴の階層を構築します。

後続の各レイヤーは、前のレイヤーの機能を組み合わせた、ますます複雑になる機能のフィルターとして機能します。

各レイヤーは入力に非線形変換を適用し、出力で表現を提供します。
各層の各ニューロンは次の層のニューロンに情報を送信し、次の層のニューロンはより抽象的なデータを学習します。

したがって、レベルが上がるほど、より抽象的な特徴を学習することになります。。目標は、データを複数の変換レイヤーに渡すことで、データの複雑で抽象的な表現を階層的に学習することです。感覚データ (画像内のピクセルなど) が最初のレイヤーに送られます。したがって、各レイヤーの出力は次のレイヤーへの入力として提供されます。

深層ネットワーク構造の強力な抽象学習および表現機能

画像認識を例に挙げてみましょう。最初のレベルはピクセルなどです。層ごとに上へ進んでいくと、徐々にエッジ、輪郭、さらにはオブジェクトの一部などが見えてきます。全体的に、上に行くにつれて、オブジェクトは抽象化され続けます。現象から本質に至る抽象的なプロセスには多くの段階とプロセスが必要であり、最終的に完了する前に徐々に洗練され、強調される必要があります。

なぜこんなに多くの層があるのでしょうか? これは、全体から部分へ、具体的なものから抽象的なものへの認識論的哲学的考えを反映しています。

共通する重要な機能を抽出し、重要でない機能を破棄します。このプロセスは、もともと段階的な抽象化プロセスであり、層ごとに解きほぐし、抽出し、徐々に明確になり、統合して要約します。より少ない層から抽出された特徴は漠然としており、表現できません。

非線形思考

各レイヤーで非線形変換を実行するのが、ディープラーニングアルゴリズムの基本的な考え方です。深いアーキテクチャでデータが通過するレイヤーが増えるほど、構築される非線形変換は複雑になります。これらの変換はデータを表すため、ディープラーニングは、ディープアーキテクチャで複数の表現レベルを持つデータの表現を学習する表現学習アルゴリズムの特殊なケースとして見ることができます。最終的に得られる表現は、入力データの高度に非線形な関数です。

深層アーキテクチャのレイヤーにおける非線形変換は、データ内の潜在的な説明要因を抽出しようとします。線形変換を組み合わせると別の線形変換が生成されるため、PCA のような深く構造化されたレイヤーでは線形変換を変換アルゴリズムとして使用することはできません。したがって、深いアーキテクチャを持つことは意味がありません。

たとえば、ディープラーニングアルゴリズムに顔画像をいくつか入力すると、第 1 層ではさまざまな方向のエッジを学習し、第 2 層ではこれらのエッジを組み合わせて、唇、鼻、目など顔のさまざまな部分など、より複雑な特徴を学習します。 3 番目のレイヤーでは、これらの特徴を組み合わせて、さまざまな人の顔の形などのより複雑な特徴を学習します。これらの最終的な表現は、顔認識アプリケーションの特徴として使用できます。

この例は、階層化アーキテクチャで取得された表現を組み合わせることで、ディープラーニングアルゴリズムがデータのより抽象的で複雑な表現を見つける方法をわかりやすく簡単に説明するために提供されています。

機能エンジニアリングの思考を排除

従来の機械学習では、特徴エンジニアリングは機械学習スキルの一部です。この場合、データを理解可能な形式に変換し、アルゴリズムに入力する必要があります。ただし、これらの機能の有用性は、モデルがトレーニングされテストされるまで不明であり、データマイナーは、新しい機能を開発し、モデルを再構築し、結果に満足するまで結果を測定するという複雑なサイクルに陥ることがよくあります。これは非常に時間のかかる作業です。

黒いシャツを着てギターを弾く男性

この画像の下のキャプションはニューラルネットワークによって生成されたもので、私たちがこの画像を想像したものと非常によく似ています。このような複雑な解釈を伴うケースでは、ディープラーニングを使用する必要があります。その主な理由はハイパーパラメータです。画像にキャプションを付けるために必要なハイパーパラメータの数は非常に多く、SVM の場合にこれらのハイパーパラメータを手動で選択することはほぼ不可能です。しかし、ディープニューラルネットワークはセットを使用してトレーニングし、自律的に学習することができます。

<<: 顔認識技術のまとめ：従来の方法からディープラーニングまで

>>: ディープラーニングにおける8種類の畳み込みを視覚的に理解する