父親が8歳の娘にディープラーニングを説明する:11の事実

父親が8歳の娘にディープラーニングを説明する:11の事実

「ニューラル ネットワークは数を数えるのと同じくらい簡単です」、「畳み込み層は単なるバット シグナルです」... この記事では、父親が手書きの数字の認識から始めて、8 歳の娘に「ディープラーニング」を非常に簡単な言葉で説明します。もちろん、この記事を使ってガールフレンド(いる場合)に自分の仕事について説明することもできます。

[[274281]]

機械学習、特にディープラーニングはホットな話題であり、メディアでは必ず「人工知能」という流行語を目にするでしょう。

しかし、これらは新しい概念ではありません。最初の人工ニューラル ネットワーク (ANN) は 1940 年代に導入されました。では、なぜ最近ニューラル ネットワークとディープラーニングが話題になっているのでしょうか?これらの概念については、GPU と機械学習に関する一連のブログ投稿で詳しく説明します。

[[274282]]

80 年代に、父が銀行小切手の文字認識ツールを作ったのを覚えています。あらゆるバリエーションに対応する方程式が必要だったため、非常に多くの異なるタイプの筆跡をチェックするのは本当に大変でした。

過去数年にわたって、この種の問題に取り組む最善の方法は畳み込みニューラル ネットワークであることが明らかになりました。人間が設計した方程式は、無限の手書きパターンを処理するのに適さなくなりました。

最も典型的な例の 1 つ、手書きの数字を認識するニューラル ネットワークである数字認識システムの構築を見てみましょう。

事実1: ニューラルネットワークは数えるのと同じくらい簡単

まず、一番上の行の赤い図形が、各黒い手書きの数字に何回現れるかを数えます。

手書き数字の簡略化されたマトリックス

次に、同じ赤い形に一致する数字の数を数えることで、新しい手書きの数字を認識(推測)してみましょう。次に、これを前の表と比較して、この数字がどの数字と最も強い相関関係にあるかを判断します。

手書きの数字の形を合わせる

おめでとう!手書きの数字を認識するための世界で最もシンプルなニューラル ネットワーク システムを構築しました。

事実2: 画像は単なるマトリックスである

コンピュータは画像をマトリックスとして表示します。白黒画像は 2D マトリックスです。

画像を考えてみましょう。簡単にするために、28 ピクセルの正方形サイズの数字 8 の小さな白黒画像を撮ります。

マトリックスの各セルは、0 (黒を表す) から 255 (純粋な白のピクセルを表す) までのピクセル強度を表します。

したがって、画像は次の 28×28 ピクセルのマトリックスとして表されます。

手書きの数字8とそれに関連する強度マトリックスの画像

事実3: 畳み込み層は単なるバットシグナルに過ぎない

写真に表示されているパターン(ここでは手書きの数字 8)を判別するには、バットシグナル/懐中電灯を使用します。機械学習では、懐中電灯はフィルターと呼ばれます。このフィルターは、Gimp などの一般的な画像処理ソフトウェアで使用される従来の畳み込み行列計算を実行するために使用されます。

[[274283]]

フィルターは画像をスキャンして画像内のパターンを見つけ、一致が成功した場合に肯定的なフィードバックをトリガーします。これは、子供の形を分類するボックスに少し似ています。三角形のフィルターは三角形の穴に一致し、四角形のフィルターは四角形の穴に一致します。

画像フィルターは、子供向けの形状分類ボックスのように機能します。

事実4: フィルタマッチングは簡単に並列化できるタスクである

より科学的な言葉で言えば、画像のフィルタリングプロセスは以下のアニメーションのようになります。ご覧のとおり、フィルター スキャンの各ステップは互いに独立しており、このタスクは高度に並列化できます。

フィルターは相互に依存していないため、数十のフィルターが同時に実行されることに注意してください。

https://github.com/vdumoulin

事実5: フィルタリング操作(行列畳み込み)を可能な限り繰り返す

入力画像/行列が複数の行列畳み込みを使用してフィルタリングされることを見てきました。

画像認識の精度を向上させるには、前の操作でフィルタリングされた画像を取得し、それを何度もフィルタリングするだけです...

もちろん、少し単純化しすぎていますが、一般的には、使用するフィルターの数が多くなり、この操作を連続して繰り返す回数が増えるほど、結果の精度が高まります。

これは、プリミティブ フィルターからエッジ、ホイール、正方形、立方体などのフィルターまで、オブジェクト フィルターのより明確な説明を得るために新しい抽象化レイヤーを作成するようなものです。

事実6: 行列の畳み込みは単なる乗算と加算の演算である

一枚の写真は千の言葉に値します: 次の画像は、畳み込みフィルター (3×3) を使用してフィルター処理されたソース画像 (8×8) の簡略化されたビューです。懐中電灯の投影 (ここでは、Sobel Gx フィルター) によって 1 つの値が提供されます。

入力行列に適用された畳み込みフィルタ(Sobel Gx)の例

(出典: https://datascience.stackexchange.com/questions/23183/why-convolutions-always-use-odd-numbers-as-filter-size/23186)

これがこのアプローチの魔法です。単純な行列演算は高度に並列化可能であり、汎用グラフィックス処理ユニットの使用例に完全に適合します。

事実 7: 検出された内容を簡略化して要約する必要があるか? max() を使用するだけです

一般化可能な知識を学習するには、フィルターが検出した内容を要約する必要があります。

これを行うには、前のフィルタリング操作の出力をサンプリングします。

この操作はプーリングまたはダウンサンプリングと呼ばれますが、実際には行列のサイズを縮小するためのものです。

最大化、最小化、平均、カウント、中央値、合計などの削減操作を使用できます。

最大プーリング層の例 (出典: スタンフォード大学 CS231n)

事実8: 最終結果を得るために出力を平坦化する

私たちが研究しているニューラル ネットワークの主な目的は、画像認識システム (画像分類とも呼ばれる) を構築することであることを忘れないでください。

ニューラル ネットワークの目的が手書きの数字を検出することである場合、入力画像は最終的に 10 個のクラス ([0、1、2、3、4、5、6、7、8、9]) にマッピングされます。

これらすべてのフィルターとダウンサンプリング レイヤーを通過した後でのみ、この入力をクラスにマッピングするには、10 個のニューロン (各ニューロンはクラスを表す) のみを使用し、各ニューロンを最後のサブサンプリング レイヤーに接続します。

以下は、画像認識にこの技術を早期に採用した人の 1 人である Yann Lecun が設計したオリジナルの LeNet-5 畳み込みニューラル ネットワークの概要です。

オリジナル論文の LeNet-5 アーキテクチャ (出典: http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf)

事実9: ディープラーニングはフィードバックループに基づく継続的な改善に過ぎない

この技術の素晴らしさは、畳み込みだけでなく、ネットワーク自体の学習能力と適応能力からも生まれます。バックプロパゲーションと呼ばれるフィードバック ループを実装することで、ネットワークは重みを使用して、異なるレイヤー内の一部の「ニューロン」を緩和および抑制します。

ネットワークの出力を確認し、推測 (出力 0、1、2、3、4、5、6、7、8、または 9) が間違っていた場合は、どのフィルターが「間違いを犯した」かを調べ、間違いを見つけたら、そのフィルターに小さな重みを与えて、次回同じ間違いを繰り返さないようにします。見て!システムは学習し、常に自己改善を続けています。

事実10: これらすべては、ディープラーニングが簡単に並列化できるプロセスであることを示している

何千もの画像を抽出し、何十ものフィルターを実行し、ダウンサンプリングを適用し、出力を平坦化します...これらすべてのステップは並列で実行できるため、システムを簡単に並列化できます。これは、超並列コンピューティングに最適な GPGPU (汎用グラフィックス プロセッシング ユニット) に最適な使用例です。

事実 11: さらに精度が必要ですか?ネットワークは少し深くなります。

もちろんこれは少し単純化しすぎですが、主要な「画像認識コンテスト」である ImageNet チャレンジを見ると、ニューラル ネットワークの深さが増すにつれてエラー率が減少することがわかります。一般的に、他の要因を除外すると、ネットワークの深さを増やすと、一般化能力と精度が向上すると考えられています。

Imagenet チャレンジ優勝者 エラー率とネットワークのレイヤー数

(出典: https://medium.com/@sidereal/cnns-architectures-lenet-alexnet-vgg-googlenet-resnet-and-more-666091488df5)

結論は

画像認識に適用されるディープラーニングの概念について簡単に紹介しました。画像認識 (医療、衛星、自動運転など) のためのほぼすべての新しいアーキテクチャは、レイヤーの数、フィルターの種類、初期化ポイント、マトリックス サイズ、トリック (画像拡張、ドロップアウト、重み圧縮など) が異なるだけで、同じ原理を使用していることは注目に値します。概念は同じです:

手書き数字認識プロセス

ディープラーニング モデルのトレーニングと推論は、多数の基本的な行列演算を並列に実行することに要約できます。これはまさに、既存のグラフィックス プロセッシング ユニット (GPU) が使用されている目的です。


<<:  自動運転AIアルゴリズムとマルチセンサー融合技術

>>:  MITの新しいAI研究:セーターが編めなくても問題ない、AIにやらせればいい

ブログ    
ブログ    

推薦する

人材不足は数百万人に達し、人工知能+教育が一般的なトレンドとなっている

近年、人工知能の急速な発展は各国から大きな注目を集めており、教育界からも大きな注目を集めています。ま...

ディープラーニングのコードを信頼できるのはなぜでしょうか?

ディープラーニングは、正確性を評価するのが難しい分野です。ランダムな初期化、膨大なデータセット、重み...

ソースディレクトリ内のファイルをプレフィックスに応じて異なるディレクトリに分散するためのアルゴリズム設計と C コードの実装

1. 要件の説明Linux システムのソース ディレクトリには、同じサフィックスを持つファイルがいく...

回答者の約40%が顔認識技術の悪用は改善されたと考えている

データ画像。画像/アンスプラッシュ近年、個人情報保護法などの法律や規制の導入・施行により、我が国はデ...

李開復:中国の大型モデル競争は非常に激しく、最終的には大きな勝者が数人出るだろう

12月28日、ベンチャーキャピタリストで元Google China社長の李開復氏の予測によれば、中国...

2021 年を総合的に振り返ると、これら 10 社の AI スタートアップには「材料」がある!

今年の AI スタートアップ リストには、AI 音声アシスタントを構築するためのコード不要の Web...

...

...

採血時に血管が見つからない?人工知能には解決策がある

[[318810]]ビッグデータダイジェスト制作出典: rutgers.edu編纂者:張大毓如、夏亜...

GPU 価格の急激な下落はチップ不足が終わった兆候でしょうか?

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...

顔認識は常に私たちのそばにあり、中秋節は「ハッピースキャン」から始まります

[[424699]]中秋節が近づいており、旅行の計画を立てている方も多いと思います。この特別な期間中...

2021年に注目すべき5つのAI関連の仕事スキル

困難な一年であったにもかかわらず、世界中の多くの企業が、ビジネスを最大化するために人工知能(AI)を...

天才少年・志慧君が志遠ロボットとともに会場に入場!脳としてAIモデル、目標価格は20万以下

Huaweiの才能あふれる若者Zhihuiの起業家デビューがついに登場!観衆の注目が集まる中、「Ex...

顔認識の専門家、王国天氏:人工知能、機械学習、機械視覚とは何ですか?

昨今、人工知能はますます話題になり、応用されていますが、人工知能、機械学習、マシンビジョンとは一体何...

劉烈宏:中国の中核人工知能産業の規模は今年上半期に770億元に達した

[[354052]] 11月24日、工業情報化部の劉烈宏副部長は人工知能サブフォーラム「人工知能:新...