この10ステップを理解すれば、8歳の子供でもディープラーニングを理解できる

テクノロジーについて何も知らない人の目には、人工知能とは何でしょうか?

これが『流転地球』に出てくるAI音声アシスタントMOSS？それともターミネーターのスカイネットでしょうか?

現在の人工知能の主流技術であるディープラーニングを理解していないと、本当に現在の科学者が全能で全知全能の映画AI像を作り出していると考える人もいるかもしれません。

では、ディープラーニングとは何かを一般の人々に最も簡単に説明するにはどうすればよいでしょうか?

フランス人ブロガーの Jean-Louis Queguiner 氏は、「8 歳の娘にディープラーニングを説明する」という記事を執筆し、ディープラーニング技術を使用して手書きの数字を認識するニューラルネットワークを構築する例を挙げ、ディープラーニングの原理をわかりやすく説明しました。

これらの数字の書き方は人によって異なります。コンピューターはどのようにしてこれらの手書きの数字を判別できるのでしょうか?

1. 数えるのと同じくらい簡単

まず、0から9までの10個の数字にもさまざまな画があることを考慮して、手書きの数字ごとに横書き、縦書き、左下がり、右下がり、ねじれなどがいくつあるか分解して見てみましょう。

左側の縦の列は数字で、その上の横の赤い文字は分解された画数です。この表を使用して、各文字に対応する画数がいくつあるかを数えます。

さて、新しい数字をいくつか書いて、新しく書いた数字に赤い線がいくつあるか数えてみましょう。上の表と比較することで、新しく書いた数字が何であるかを判断できます。

例えば、最初の数字には「/」と「丨」があります。この特徴を持つ数字は「1」であることがわかり、完全に一致したので、最初の数字は「1」です。

2番目の数字は、上、下、左、右の半円にそれぞれ2画ずつあり、さらに「/」と「丨」が加わり、合計10画になります。比較すると、上の表の数字「8」には一致する画が 8 つあり、「9」には一致する画が 6 つあるため、2 番目の数字は「8」であることがわかります。

このステップを理解できたら、手書きの数字を認識するための世界で最もシンプルなニューラルネットワークを構築できたことになります。おめでとうございます。

2. 画像はマトリックスである

8 歳の小学生のほとんどは、行列の概念を学んでいないはずです。行列は、それぞれに数字が配置された一連の水平および垂直のグリッドとして簡単に理解できます。

コンピューターにとって、各写真はマトリックスグリッドに配置された小さなピクセルで構成されており、各グリッドは異なる色を持ち、それらが組み合わされて画像を形成します。

たとえば、これらの赤、緑、黄色のグリッドを拡大すると、実際にはイチゴの写真の一部であることがわかります。

コンピュータでは、色は数字で表されます。イチゴの絵のカラフルな色は、赤、緑、青で、それぞれに数字が付いており、合計 3 つの数字があります。手書きの数字はすべて白黒で、数字は 1 つだけです。0 は純粋な黒、255 は純粋な白、その間の数字は灰色です。数字が小さいほど色が濃く、数字が大きいほど色が薄くなります。

それで、この手書きの数字を見てみると、全部で 28 行 28 列、784 ピクセルのグリッドがあります。ストロークのない黒いグリッドは 0 です。ストロークのある部分は、ストロークの中央が明るい白で、数字は 100 から 200 くらいです。ストロークの端は灰色で、数字は数十しかありません。これがこの手書きの数字のマトリックスを構成しています。

3. 畳み込み層: ストロークのアウトラインを見つける

画像の各ピクセルグリッドが数字であることはわかっていますが、これらの数字のストロークをどのように見つけるのでしょうか。

ディープラーニングニューラルネットワークは、多くの「レイヤー」で構成されています。輪郭を見つけるステップでは、畳み込みレイヤーを使用する必要があります。これは基本的に、前のステップで数字で表された画像にフィルターを追加して、ストロークのない部分をフィルターし、ストロークのある部分を残すことです。

フィルターは下のおもちゃのようなものです。パターンの輪郭を認識します。輪郭が一致すれば箱に入れることができます。輪郭が一致しなければ入れられません。三角形のフィルターは三角形の木のブロックに一致し、四角形のフィルターは四角形の木のブロックに一致します。

4. 独立したフィルタリング

フィルタリングのプロセスは、このアニメーションのようになります。各スキャンは独立しているため、互いに干渉することなく、同時に複数のスキャンを実行できます。

5. 繰り返し畳み込み

前のプロセスでは、手書きのデジタル画像は複数のフィルターでフィルタリングされています。ただし、精度を向上させるには、前回フィルタリングした画像をもう一度フィルタリングするだけで済みます。使用するフィルターの数が多く、フィルタリングの回数が多いほど、結果の精度が高まります。

さらに、手書きの数字はおもちゃの三角形や五芒星のように規則的ではないため、人によって「8」の書き方が異なり、筆画の配置も異なります。

フィルターされたストロークをより鮮明にするには、フィルターが先ほど見た赤い水平、垂直、左下がり、右下がりの半円の形状に調整されるまで、新しいフィルターを継続的に作成する必要があります。

6. 畳み込み: 乗算と加算

しかし、フィルタリングにおける具体的なスキャンプロセスとは何でしょうか?

畳み込み演算が関係します。例えば、下の図では、左側に 8×8 の画像があり、中央に 3×3 の畳み込みフィルターがあります。3×3 のグリッドが 8×8 の画像上で 1 つずつ移動し、1 つずつ畳み込みを実行します。

ここで、畳み込みがどのように計算されるかを説明する必要があります。たとえば、上の図では、左側の 3×3 グリッドの左上隅は 3 で、中央の畳み込みフィルターの左上隅は -1 なので、-3 を得るには 3 と -1 を掛ける必要があります。同様に、同じ位置にある 2 つの数を掛け合わせると 9 個の積が得られ、その 9 個の積を合計すると -3 が得られ、これが畳み込みの結果です。

もちろん、図の例には負の数が含まれています。子供が負の数の計算方法をまだ学んでいない場合は、今のところは無視して整数として扱ってもかまいません。

7. プーリング層: 画像を小さくして要約しやすくする

複雑な畳み込み処理の後、サンプリングを要約する必要があります。まず、行列を縮小する必要があります。ここではプーリング層が使用されます。

例えば、4 つのグリッドを 1 つのグリッドに縮小すると、4 つのグリッドの最大値、最小値、平均値、合計などを取ることができるため、行列のサイズは元のサイズの 4 分の 1 だけになります。

8. ニューラルネットワーク

私たちのプロセス全体は、手書きの数字を識別することです。このプロセスは画像分類と呼ばれます。数字は 10 個しかないため、手書きの数字をそれぞれ 0 から 9 までの 10 個のカテゴリに分類する必要があります。

上記の多層処理の後、今度はそれをクラスに分類する必要があります。それぞれがクラスを表す 10 個のニューロンを用意し、それらを最後のプーリング層に接続する必要があります。

以下は、Yann LeCun が設計したオリジナルの LeNet-5 畳み込みニューラルネットワークです。これは、画像認識分野における初期の成果の 1 つです。

9. バックプロパゲーションによる自己改善

ただし、プロセス全体は畳み込みによって完了するだけでなく、バックプロパゲーションと呼ばれる方法を使用して重みによってニューロンの数を減らすなど、ニューラルネットワーク自身の学習および適応能力にも依存します。

簡単に言うと、ニューラルネットワークの出力を見ます。出力の分類が間違っていた場合、例えば手書きの6が9として認識された場合、フィルターの1つが間違いを犯し、責任を負えない信頼できないフィルターであると判断し、その重みを下げてニューラルネットワークが次回同じ間違いをしないようにします。

このようにして、ニューラルネットワークシステム全体が学習し、自己改善を維持する能力を持ちます。

10. 最後に

何千もの画像を見つけ、何十ものフィルターを実行し、出力をサンプリングする...すべてのステップは完全に並列に実行できるため、GPU で実行するのに適しています。

また、精度の問題については、まだ議論していませんが、画像認識コンテスト ImageNet では、過去数年の結果から、ニューラルネットワークの層数が増えるにつれて、精度が向上し続けていることがわかります。

最後に、この記事では手書きの文字の認識について説明していますが、医療用であろうと自動運転用であろうと、すべての画像認識の原理は同じです。これらは、多くの層のニューラルネットワーク、さまざまなフィルター、およびさまざまなマトリックスのさまざまな変換に依存しています。

つまり、すべての画像認識は GPU 上で実行される行列演算です。

ポータル

オリジナルの英語:

https://www.ovh.com/blog/deep-learning-explained-to-my-8-year-old-daughter/

<<: 時速55キロ！寧波杭州湾新区のスマート道路に無人車が走行

>>: 一般的なソートアルゴリズムの概要

ブログ

この10ステップを理解すれば、8歳の子供でもディープラーニングを理解できる

残念ながら、自然言語理解はAIがまだ克服していない分野である。

GPT-4Vと人間のデモンストレーションによるロボットのトレーニング：目が学習し、手がそれに従う

この「水中トランスフォーマー」はNASAによって困難な水中作業のためにテストされている。

製造業における機械学習

人工知能を定義する10のキーワード

効果的なITセキュリティにとってAIと機械学習がますます重要になる理由

ハードウェアクラッキングに耐えられるハッシュアルゴリズムにはどのようなものがありますか?

推薦する

プログラマーでなくてもわかる「機械学習」の原理

OpenAI の宮殿戦の究極の秘密が明らかに！内部の女性監督が最初にアルトマンを解雇したことが暴露され、マイクロソフトが最大の勝者となった

人工知能技術情報の無料共有

ピチャイ氏は、Googleが2024年中に従業員を解雇すると明らかにし、これにより中国人従業員が自殺する事態にも発展した。シリコンバレーの約8,000人がAIによって排除される可能性があると疑われている

データサイエンティストと開発者向けの新しいツールであるAmazon SageMakerが中国で利用可能になりました

AIが研究者に歴史の匂いを再現する手助けをする方法

AIキーストロークパターン検出によるパスワードの認識を防ぐ方法

デンマークはロボット工学をリードしています – IoT はどのような役割を果たすのでしょうか?

脳内の画像を高解像度で復元できるようになりました

人工知能の時代に優れた教師とはどのような人物であるべきでしょうか?

現在、人工知能技術はどのような分野に応用されていますか？

AI と Wi-Fi 6: 家庭内 Wi-Fi の革命を推進

アリババが自社開発したAI推論チップがリリース、Hanguang 800は他のチップより10倍強力