この10ステップを理解すれば、8歳の子供でもディープラーニングを理解できる

この10ステップを理解すれば、8歳の子供でもディープラーニングを理解できる

テクノロジーについて何も知らない人の目には、人工知能とは何でしょうか?

これが『流転地球』に出てくるAI音声アシスタントMOSS?それともターミネーターのスカイネットでしょうか?

現在の人工知能の主流技術であるディープラーニングを理解していないと、本当に現在の科学者が全能で全知全能の映画AI像を作り出していると考える人もいるかもしれません。

では、ディープラーニングとは何かを一般の人々に最も簡単に説明するにはどうすればよいでしょうか?

フランス人ブロガーの Jean-Louis Queguiner 氏は、「8 歳の娘にディープラーニングを説明する」という記事を執筆し、ディープラーニング技術を使用して手書きの数字を認識するニューラル ネットワークを構築する例を挙げ、ディープラーニングの原理をわかりやすく説明しました。

これらの数字の書き方は人によって異なります。コンピューターはどのようにしてこれらの手書きの数字を判別できるのでしょうか?

1. 数えるのと同じくらい簡単

まず、0から9までの10個の数字にもさまざまな画があることを考慮して、手書きの数字ごとに横書き、縦書き、左下がり、右下がり、ねじれなどがいくつあるか分解して見てみましょう。

左側の縦の列は数字で、その上の横の赤い文字は分解された画数です。この表を使用して、各文字に対応する画数がいくつあるかを数えます。

さて、新しい数字をいくつか書いて、新しく書いた数字に赤い線がいくつあるか数えてみましょう。上の表と比較することで、新しく書いた数字が何であるかを判断できます。

例えば、最初の数字には「/」と「丨」があります。この特徴を持つ数字は「1」であることがわかり、完全に一致したので、最初の数字は「1」です。

2番目の数字は、上、下、左、右の半円にそれぞれ2画ずつあり、さらに「/」と「丨」が加わり、合計10画になります。比較すると、上の表の数字「8」には一致する画が 8 つあり、「9」には一致する画が 6 つあるため、2 番目の数字は「8」であることがわかります。

このステップを理解できたら、手書きの数字を認識するための世界で最もシンプルなニューラル ネットワークを構築できたことになります。おめでとうございます。

2. 画像はマトリックスである

8 歳の小学生のほとんどは、行列の概念を学んでいないはずです。行列は、それぞれに数字が配置された一連の水平および垂直のグリッドとして簡単に理解できます。

コンピューターにとって、各写真はマトリックス グリッドに配置された小さなピクセルで構成されており、各グリッドは異なる色を持ち、それらが組み合わされて画像を形成します。

たとえば、これらの赤、緑、黄色のグリッドを拡大すると、実際にはイチゴの写真の一部であることがわかります。

コンピュータでは、色は数字で表されます。イチゴの絵のカラフルな色は、赤、緑、青で、それぞれに数字が付いており、合計 3 つの数字があります。手書きの数字はすべて白黒で、数字は 1 つだけです。0 は純粋な黒、255 は純粋な白、その間の数字は灰色です。数字が小さいほど色が濃く、数字が大きいほど色が薄くなります。

それで、この手書きの数字を見てみると、全部で 28 行 28 列、784 ピクセルのグリッドがあります。ストロークのない黒いグリッドは 0 です。ストロークのある部分は、ストロークの中央が明るい白で、数字は 100 から 200 くらいです。ストロークの端は灰色で、数字は数十しかありません。これがこの手書きの数字のマトリックスを構成しています。

3. 畳み込み層: ストロークのアウトラインを見つける

画像の各ピクセル グリッドが数字であることはわかっていますが、これらの数字のストロークをどのように見つけるのでしょうか。

ディープラーニング ニューラル ネットワークは、多くの「レイヤー」で構成されています。輪郭を見つけるステップでは、畳み込みレイヤーを使用する必要があります。これは基本的に、前のステップで数字で表された画像にフィルターを追加して、ストロークのない部分をフィルターし、ストロークのある部分を残すことです。

フィルターは下のおもちゃのようなものです。パターンの輪郭を認識します。輪郭が一致すれば箱に入れることができます。輪郭が一致しなければ入れられません。三角形のフィルターは三角形の木のブロックに一致し、四角形のフィルターは四角形の木のブロックに一致します。

4. 独立したフィルタリング

フィルタリングのプロセスは、このアニメーションのようになります。各スキャンは独立しているため、互いに干渉することなく、同時に複数のスキャンを実行できます。

5. 繰り返し畳み込み

前のプロセスでは、手書きのデジタル画像は複数のフィルターでフィルタリングされています。ただし、精度を向上させるには、前回フィルタリングした画像をもう一度フィルタリングするだけで済みます。使用するフィルターの数が多く、フィルタリングの回数が多いほど、結果の精度が高まります。

さらに、手書きの数字はおもちゃの三角形や五芒星のように規則的ではないため、人によって「8」の書き方が異なり、筆画の配置も異なります。

フィルターされたストロークをより鮮明にするには、フィルターが先ほど見た赤い水平、垂直、左下がり、右下がりの半円の形状に調整されるまで、新しいフィルターを継続的に作成する必要があります。

6. 畳み込み: 乗算と加算

しかし、フィルタリングにおける具体的なスキャンプロセスとは何でしょうか?

畳み込み演算が関係します。例えば、下の図では、左側に 8×8 の画像があり、中央に 3×3 の畳み込みフィルターがあります。3×3 のグリッドが 8×8 の画像上で 1 つずつ移動し、1 つずつ畳み込みを実行します。

ここで、畳み込みがどのように計算されるかを説明する必要があります。たとえば、上の図では、左側の 3×3 グリッドの左上隅は 3 で、中央の畳み込みフィルターの左上隅は -1 なので、-3 を得るには 3 と -1 を掛ける必要があります。同様に、同じ位置にある 2 つの数を掛け合わせると 9 個の積が得られ、その 9 個の積を合計すると -3 が得られ、これが畳み込みの結果です。

もちろん、図の例には負の数が含まれています。子供が負の数の計算方法をまだ学んでいない場合は、今のところは無視して整数として扱ってもかまいません。

7. プーリング層: 画像を小さくして要約しやすくする

複雑な畳み込み処理の後、サンプリングを要約する必要があります。まず、行列を縮小する必要があります。ここではプーリング層が使用されます。

例えば、4 つのグリッドを 1 つのグリッドに縮小すると、4 つのグリッドの最大値、最小値、平均値、合計などを取ることができるため、行列のサイズは元のサイズの 4 分の 1 だけになります。

8. ニューラルネットワーク

私たちのプロセス全体は、手書きの数字を識別することです。このプロセスは画像分類と呼ばれます。数字は 10 個しかないため、手書きの数字をそれぞれ 0 から 9 までの 10 個のカテゴリに分類する必要があります。

上記の多層処理の後、今度はそれをクラスに分類する必要があります。それぞれがクラスを表す 10 個のニューロンを用意し、それらを最後のプーリング層に接続する必要があります。

以下は、Yann LeCun が設計したオリジナルの LeNet-5 畳み込みニューラル ネットワークです。これは、画像認識分野における初期の成果の 1 つです。

9. バックプロパゲーションによる自己改善

ただし、プロセス全体は畳み込みによって完了するだけでなく、バ​​ックプロパゲーションと呼ばれる方法を使用して重みによってニューロンの数を減らすなど、ニューラル ネットワーク自身の学習および適応能力にも依存します。

簡単に言うと、ニューラルネットワークの出力を見ます。出力の分類が間違っていた場合、例えば手書きの6が9として認識された場合、フィルターの1つが間違いを犯し、責任を負えない信頼できないフィルターであると判断し、その重みを下げてニューラルネットワークが次回同じ間違いをしないようにします。

このようにして、ニューラル ネットワーク システム全体が学習し、自己改善を維持する能力を持ちます。

10. 最後に

何千もの画像を見つけ、何十ものフィルターを実行し、出力をサンプリングする...すべてのステップは完全に並列に実行できるため、GPU で実行するのに適しています。

また、精度の問題については、まだ議論していませんが、画像認識コンテスト ImageNet では、過去数年の結果から、ニューラル ネットワークの層数が増えるにつれて、精度が向上し続けていることがわかります。

最後に、この記事では手書きの文字の認識について説明していますが、医療用であろうと自動運転用であろうと、すべての画像認識の原理は同じです。これらは、多くの層のニューラル ネットワーク、さまざまなフィルター、およびさまざまなマトリックスのさまざまな変換に依存しています。

つまり、すべての画像認識は GPU 上で実行される行列演算です。

ポータル

オリジナルの英語:

https://www.ovh.com/blog/deep-learning-explained-to-my-8-year-old-daughter/

<<:  時速55キロ!寧波杭州湾新区のスマート道路に無人車が走行

>>:  一般的なソートアルゴリズムの概要

ブログ    

推薦する

第14次5カ年計画を見据えて、我が国のロボット産業はどこに向かっているのでしょうか?

ロボットは製造業の「至宝」とみなされています。近年、人口ボーナスの継続的な減少と自動化生産の需要の継...

NVIDIA GPU が一戦で神となる!黄仁訓は人工知能に賭け、1兆ドル規模のグラフィックカード帝国を築く

AlexNet ニューラル ネットワークから ChatGPT、生成 AI の爆発的な増加まで、NVI...

興味深く実用的なオープンソース人工知能プロジェクトトップ10

皆さんは多くの人工知能プロジェクトを見たり使用したりしたことがあると思いますが、そのほとんどは非常に...

AI導入の最大の障壁:熟練した専門家の不足

VentureBeat によると、人工知能 (AI) が革命的なメリットをもたらしたという点について...

リスト発表:海雲捷雲の田良氏が「2021年科学技術影響力のある人物賞」を受賞

著名なIT技術メディア51CTOが主催する第16回中国企業年次選考活動「IT印象:イノベーションの活...

誰もが今から準備すべき、2020 年のキャリアを変える 6 つのテクノロジー トレンド

[51CTO.com クイック翻訳] 新しいテクノロジーの導入により、私たちの職場は変化しています。...

独自の顔ぼかしツールを構築する方法

OpenCVを使用して顔認識をカスタマイズする方法[[412851]]匿名化とは、データを匿名化する...

機械知能に取って代わられない5つのスキル

「機械知能が人間のために行っている 5 つのこと」という記事では、機械が常に新しい奇跡を生み出してい...

人間を超えた最初の専門家! OpenAIが混乱に陥る中、Googleのマルチモーダル大規模モデルGeminiがそれを打ち負かす

OpenAIが混乱に陥っている間、Googleは「全員を殺す」準備をしている。ちょうど昨夜、Goog...

アルトマンのYCスピーチ: ChatGPTを攻撃する者は死ぬ、私ができるからといって、あなたにもできるとは限らない

ウルトラマンのシンプルな言葉はAIスタートアップ企業を震え上がらせた。 「Shelling」Open...

ビッグモデルがAlibaba Cloudを救った!

執筆者 | Yan Zheng 「スピンオフ」によりアリババは再生し、ビッグモデルによりアリババクラ...

顔認識を完了するための3行のPythonコード

顔認識パッケージこれは世界で最もシンプルな顔認識ライブラリです。 Python リファレンスまたはコ...

データサイエンティストと開発者向けの新しいツールであるAmazon SageMakerが中国で利用可能になりました

【51CTO.comオリジナル記事】機械学習は誕生以来、多くの分野で応用されてきましたが、現時点では...

清華大学がゲーム会社を設立しました! 10人以上のChatGPTが勤務し、7分でゲームを開発

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...