ディープラーニングの背後にある数学的アイデアを分析する

ディープラーニングの背後にある数学的アイデアを分析する

ディープ ニューラル ネットワーク (DNN) は、基本的に複数の接続されたパーセプトロン (パーセプトロンは単一のニューロン) によって形成されます。人工ニューラル ネットワーク (ANN) は、重み付けされたパスに沿って入力される一連の入力で構成されるシステムと考えることができます。これらの入力は処理され、何らかのタスクを実行するための出力が生成されます。時間が経つにつれて、ANN は「学習」し、さまざまなパスを開発します。さまざまなパスには異なる重みが付けられる可能性があり、あまり望ましくない結果を生成し、より重要であると判断されたパス(またはより望ましい結果を生成するパス)には、あまり望ましくない結果を生成するパスよりもモデル内で高い重みが割り当てられます。

DNN では、すべての入力がすべての出力に密に接続されている場合、そのレイヤーは密なレイヤーと呼ばれます。さらに、DNN には複数の隠し層を含めることができます。隠し層は基本的に、ニューラル ネットワークの入力と出力の間のポイントであり、活性化関数が情報入力を変換します。システムの入力と出力から直接観察できないため、隠れ層と呼ばれます。ニューラル ネットワークが深くなるほど、ネットワークがデータから認識できる内容が増え、出力できる情報も増えます。

ただし、データからできるだけ多くのことを学習することが目標である一方で、ディープラーニング モデルは過剰適合の影響を受ける可能性があります。これは、モデルがトレーニング データ (ランダム ノイズを含む) から学習しすぎた場合に発生します。モデルはデータ内の非常に複雑なパターンを識別できますが、新しいデータのパフォーマンスに悪影響を与える可能性があります。トレーニング データで拾われたノイズは新しいデータや見たことのないデータには適用されず、モデルは発見されたパターンを一般化できません。非線形モデルもディープラーニング モデルでは非常に重要であり、モデルは複数の隠し層を持つことで多くのことを学習しますが、非線形の問題に線形形式を適用するとパフォーマンスが低下します。

ここでの疑問は、「これらのレイヤーはどのようにして学習するのか?」です。ここで、ANN を実際のシナリオに適用して問題を解決し、モデルをトレーニングして目標を達成する方法を理解できます。ケース分析は次のとおりです。

現在のパンデミックの中、多くの学校がオンライン学習に移行しており、一部の学生はコースに合格できる可能性について不安を抱いている。 「このコースに合格できるだろうか?」という質問は、どの AI システムでも解決できるはずです。

簡単にするために、モデルには学生が出席した講義の数、課題に費やした時間、講義中にインターネット接続が失われた回数の 3 つの入力しかないと考えてみましょう。このモデルの出力はバイナリ分類になります。学生はコースに合格するか不合格になるかのどちらかであり、実際には 0 と 1 です。学期末現在、学生 A は 21 の授業に出席し、課題に 90 時間を費やし、学期を通してインターネット接続が 7 回切断されました。これらの入力はモデルに入力され、出力では学生がコースに合格する確率が 5% であると予測されます。 1 週間後、最終成績が発表され、学生 A はコースに合格しました。それで、モデルの予測では何が間違っていたのでしょうか?

技術的には問題ありません。モデルは現在開発されているとおりに機能していたはずです。問題は、モデルが何が起こっているのか全く分かっていないことです。パス上のいくつかの重みを初期化しますが、モデルは現在、正しいものと間違っているものを認識していません。したがって、重みは正しくありません。これが学習の主な源泉であり、モデルは間違いを犯したときにパターンを学習する必要があるという考えに基づいています。これは、何らかの形の「損失」を計算することによって行われます。計算される損失は問題によって異なりますが、一般的には予測出力と実際の出力の差を最小限に抑えることが含まれます。

上記の状況では、生徒は 1 人だけであり、エラー ポイントは 1 つだけなので、最小限に抑えることができます。しかし、通常はそうではありません。ここで、複数の学生と複数の差異を最小化することを検討すると、総損失は通常、すべての予測と実際の観測値の差異の平均として計算されます。

計算される損失は、問題によって異なることに注意してください。したがって、ここでの問題はバイナリ分類 (0 と 1 の分類) であるため、適切な損失計算はクロスエントロピー損失になります。この関数の背後にある考え方は、学生がコースに合格するかどうかの予測分布と実際の分布を比較し、これらの分布の差を最小限に抑えようとすることです。

代わりに、私たちは学生がコースに合格するかどうかを予測するのではなく、コースでどのような成績を取得するかを予測したいと考えています。したがって、クロスエントロピー損失は適切な方法ではなくなります。代わりに、平均二乗誤差損失の方が適切でしょう。この方法は回帰問題に適しています。実際の値と予測値の差の二乗を最小化しようとするのが目的です。

これで、いくつかの損失関数を理解したので (損失関数の紹介はこちら: ディープラーニングの基礎: 数学的分析の基礎と Tensorflow2.0 回帰モデル PDF ブックは記事の最後からダウンロードできます)、損失の最適化とモデルのトレーニングを実行できます。優れた DNN を実現するための重要な要素は、適切な重み付けを行うことです。損失の最適化では、計算された損失を最小化する重み W のセットを見つけようとします。重量コンポーネントが 1 つしかない場合は、重量と損失を 2D プロットにプロットし、損失を最小限に抑える重量を選択できます。しかし、ほとんどの DNN には複数の重みコンポーネントがあり、n 次元グラフを視覚化することは非常に困難です。

代わりに、損失関数の導関数がすべての重みに関して計算され、最大増加の方向が決定されます。これで、モデルは上下の方向を理解し、局所最小値の収束点に到達するまで下方向に移動します。この適切な操作が完了すると、最適な重みのセットが返されます。これは、DNN が使用する必要がある重みです (モデルが適切に開発されていると仮定)。

この導関数を計算するプロセスはバックプロパゲーションと呼ばれ、本質的には微積分の連鎖律です。上記のニューラル ネットワークを考えてみましょう。最初の重みセットの小さな変更が最終的な損失にどのように影響するでしょうか。これが、導関数または勾配が説明しようとしていることです。ただし、最初の重みセットは隠れ層に供給され、隠れ層には別の重みセットが供給され、予測出力と損失が生成されます。したがって、重みの変更が隠れ層に与える影響も考慮する必要があります。現時点では、ネットワークを構成するのはこれら 2 つの部分だけです。ただし、考慮すべき重みがさらにある場合は、出力から入力への連鎖律を適用してこのプロセスを続行できます。

DNN をトレーニングする際に考慮すべきもう 1 つの重要な要素は、学習率 (数学では収束係数と考えることができます) です。モデルが最適な重みのセットを見つけるまで進むと、何らかの係数で重みを更新する必要があります。これは些細なことのように思えるかもしれませんが、モデルの動きを決定する要因を特定することは非常に重要です。係数が小さすぎると、モデルは指数関数的に長い時間実行されるか、グローバル最小値ではないどこかで停止する可能性があります。係数が大きすぎると、モデルはターゲット ポイントを完全に見逃し、発散する可能性があります。

固定比率が理想的かもしれませんが、適応学習比率を使用すると、前述の問題が発生する可能性が減ります。つまり、係数は、現在の勾配、現在の重みのサイズ、または最適な重みを見つけるためのモデルの次のステップに影響を与える可能性のあるその他の要因に基づいて変化します。

[[342318]]

ご覧のとおり、DNN は微積分といくつかの統計に基づいて構築されています。これらの非常に技術的なプロセスの背後にある数学的なアイデアを評価することは、モデル内で実際に何が起こっているかを理解するのに役立ち、全体的に優れたモデルの開発につながる可能性があるため、有用です。

<<:  AIのダークサイド: AIを信頼できるものにする方法

>>:  IoTロボットが製造業と医療現場の危険を防止

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Jarvis はビッグデータ分析の将来にどのように貢献するのでしょうか?

[[187947]] 2017 年の最初の 1 ~ 2 か月間、2017 年のテクノロジー トレン...

機械学習に必要なエンジニアリングの量は将来大幅に削減されるだろう

将来的には、ML 製品の構築がより楽しくなり、これらのシステムはより良く機能するようになります。 M...

...

...

...

AIとIoTでモダンな職場を構築する方法

ビジネスリーダーは、従業員の生産性、パフォーマンス、安全性を向上させるために、人工知能 (AI) と...

畳み込みニューラルネットワークのパフォーマンス最適化

導入畳み込みはニューラル ネットワークのコア計算の 1 つです。コンピューター ビジョンにおける畳み...

ArcSoft Open Platformの新しいアルゴリズムは、顔認識セグメンテーションのシナリオの拡張に役立ちます

ArcSoft ビジュアルオープンプラットフォームであるArcFace 3.0の発売以来、アルゴリ...

第12回中国国際交通博覧会は、都市がインテリジェント交通の新時代を切り開くことを支援するBaiduのスマート交通管理ソリューションを正式に発表した。

5月12日、第12回中国道路交通安全製品博覧会及び公安交通警察装備展示会(以下:交通博覧会)が重慶...

DeepMind の巨額損失の背後で、今日の AI は正しい方向を選んだのでしょうか?

DeepMind は研究に重点を置く世界最大の AI 企業かもしれないが、過去 3 年間の損失は ...

GPUパフォーマンスを最大化

AI プロジェクトを高速化するためのデフォルトのアプローチは、GPU クラスターのサイズを増やすこと...

年末大特集!2020年に最も注目されたAI論文をまとめて紹介

2020年、新型コロナウイルスのせいで世界中の人々が恐怖におののいていることでしょう…しかし、これは...

「2018年中国人工知能サミット」が9月6日に南京で開催される。

人工知能は未来をリードする戦略的技術として、世界の産業構造、経済活動、都市形態、そして人間のライフス...

2021年になっても、データにラベルを付ける方法がまだわかりませんか?なぜ人工知能にはデータ注釈が必要なのでしょうか?

「データを持っている者は人工知能を持っている。」現在、人工知能は私たちの生活の中で当たり前のものに...

プログラミングに熟練する必要はありません。人工知能への参入は思っているより簡単です

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...