ディープニューラルネットワークのトレーニングが難しいのはなぜですか?

あなたがエンジニアであり、コンピューターをゼロから設計する任務を負っていると想像してください。ある日、あなたはスタジオで論理回路を設計し、AND ゲートや OR ゲートなどを構築しているときに、上司が悪い知らせを持ってやって来ました。クライアントが奇妙な設計要件を追加したのです。コンピューター全体の回路は 2 層の深さだけでなければならない、というものです。

あなたはショックを受けて上司にこう言います。「この男は気が狂った！」

上司は「彼らは頭がおかしいと思うが、顧客の需要は大きく、それに応えなければならない」と語った。

実際のところ、ある意味では、彼らの顧客はそれほどクレイジーではありません。任意の数の入力に対して AND 演算を実行できる特殊な論理ゲートにアクセスできるとします。マルチ入力 NAND ゲート (複数の入力を AND 演算してから否定演算できるゲート) を使用することもできます。これらの特殊なゲートを使用すると、2 レベルの深さの回路を構築して任意の関数を計算できます。

しかし、理論的に可能であるからといって、それが良いアイデアであるとは限りません。実際には、回路設計問題（または他のほとんどのアルゴリズム問題）を解決するときは、通常、サブ問題を解決する方法を考え、それらのサブ問題に対する解決策を徐々に統合していきます。言い換えれば、最終的な解決策に到達するまでに、複数の抽象化レイヤーを経ることになります。

たとえば、2 つの数値を乗算する論理回路を設計するとします。 2 つの数値の加算を計算する既存のサブ回路に基づいて、この論理回路を作成します。 2 つの数値の合計を計算するサブ回路も、2 ビットを加算するサブ回路上に構築されます。大まかに言うと、私たちの回路は次のようになります。

最終的な回路には、少なくとも 3 層の回路要素が含まれます。実際には、サブタスクを上記よりも小さな単位に分割できるため、この回路には 3 つ以上のレベルが含まれる可能性が高くなります。しかし、それが基本的な考え方です。

したがって、深い回路により、この設計プロセスははるかに簡単になります。しかし、これはデザイン自体にはあまり役立ちません。実際、数学的な証明によれば、一部の機能では、非常に浅い回路を計算するために指数関数的な数の回路ユニットが必要になる場合があります。たとえば、1980 年代初頭の一連の有名な論文では、ビットの集合のパリティを計算するには、浅い回路上で指数関数的な数のゲートが必要であることが示されました。一方、より深い回路を使用する場合は、はるかに小さな回路を使用してパリティを計算できます。つまり、ビットのペアのパリティを計算し、その結果を使用してビットのペアのパリティを計算し、これを繰り返して合計パリティを構築します。したがって、深い回路は浅い回路よりも本質的に大きな機能を獲得します。

私たちが目にするほとんどすべてのネットワークは、入力層と出力層に加えて、1 つの隠しニューロン層のみで構成されています。

これらのシンプルなネットワークはすでに非常に便利です。前の章では、このようなネットワークを使用して、手書きの数字を最大 98% の精度で認識しました。さらに、直感的には、隠れ層が多いニューラルネットワークの方が強力になると予想されます。

このようなネットワークは、ブール回路の場合と同様に、中間層を使用して抽象化の層を構築できます。たとえば、視覚パターン認識を行う場合、第 1 層のニューロンはエッジを認識することを学習し、第 2 層のニューロンはエッジに基づいて三角形や長方形などのより複雑な形状を認識することを学習する可能性があります。 3 番目のレイヤーでは、より複雑な形状を認識できるようになります。等々。これらの複数の抽象化レイヤーにより、ディープネットワークは複雑なパターン認識の問題を解決する方法を学習できるようになるようです。しかし、回路の例で見たように、深いネットワークは浅いネットワークよりも本質的に強力であるという理論的な発見があります。

<<: MySQL などの従来のリレーショナルデータベースは弱すぎます。 GPU データベースは将来のトレンドです!

>>: APICloud CEO 劉欣: モバイルアプリケーションは人工知能の実装にとって最も直接的な媒体である