この10ステップを理解すれば、8歳の子供でもディープラーニングを理解できる

テクノロジーについて何も知らない人の目には、人工知能とは何でしょうか?

これが『流転地球』に出てくるAI音声アシスタントMOSS？それともターミネーターのスカイネットでしょうか?

現在の人工知能の主流技術であるディープラーニングを理解していないと、本当に現在の科学者が全能で全知全能の映画AI像を作り出していると考える人もいるかもしれません。

では、ディープラーニングとは何かを一般の人々に最も簡単に説明するにはどうすればよいでしょうか?

フランス人ブロガーの Jean-Louis Queguiner 氏は、「8 歳の娘にディープラーニングを説明する」という記事を執筆し、ディープラーニング技術を使用して手書きの数字を認識するニューラルネットワークを構築する例を挙げ、ディープラーニングの原理をわかりやすく説明しました。

これらの数字の書き方は人によって異なります。コンピューターはどのようにしてこれらの手書きの数字を判別できるのでしょうか?

1. 数えるのと同じくらい簡単

まず、0から9までの10個の数字にもさまざまな画があることを考慮して、手書きの数字ごとに横書き、縦書き、左下がり、右下がり、ねじれなどがいくつあるか分解して見てみましょう。

左側の縦の列は数字で、その上の横の赤い文字は分解された画数です。この表を使用して、各文字に対応する画数がいくつあるかを数えます。

さて、新しい数字をいくつか書いて、新しく書いた数字に赤い線がいくつあるか数えてみましょう。上の表と比較することで、新しく書いた数字が何であるかを判断できます。

例えば、最初の数字には「/」と「丨」があります。この特徴を持つ数字は「1」であることがわかり、完全に一致したので、最初の数字は「1」です。

2番目の数字は、上、下、左、右の半円にそれぞれ2画ずつあり、さらに「/」と「丨」が加わり、合計10画になります。比較すると、上の表の数字「8」には一致する画が 8 つあり、「9」には一致する画が 6 つあるため、2 番目の数字は「8」であることがわかります。

このステップを理解できたら、手書きの数字を認識するための世界で最もシンプルなニューラルネットワークを構築できたことになります。おめでとうございます。

2. 画像はマトリックスである

8 歳の小学生のほとんどは、行列の概念を学んでいないはずです。行列は、それぞれに数字が配置された一連の水平および垂直のグリッドとして簡単に理解できます。

コンピューターにとって、各写真はマトリックスグリッドに配置された小さなピクセルで構成されており、各グリッドは異なる色を持ち、それらが組み合わされて画像を形成します。

たとえば、これらの赤、緑、黄色のグリッドを拡大すると、実際にはイチゴの写真の一部であることがわかります。

コンピュータでは、色は数字で表されます。イチゴの絵のカラフルな色は、赤、緑、青で、それぞれに数字が付いており、合計 3 つの数字があります。手書きの数字はすべて白黒で、数字は 1 つだけです。0 は純粋な黒、255 は純粋な白、その間の数字は灰色です。数字が小さいほど色が濃く、数字が大きいほど色が薄くなります。

それで、この手書きの数字を見てみると、全部で 28 行 28 列、784 ピクセルのグリッドがあります。ストロークのない黒いグリッドは 0 です。ストロークのある部分は、ストロークの中央が明るい白で、数字は 100 から 200 くらいです。ストロークの端は灰色で、数字は数十しかありません。これがこの手書きの数字のマトリックスを構成しています。

3. 畳み込み層: ストロークのアウトラインを見つける

画像の各ピクセルグリッドが数字であることはわかっていますが、これらの数字のストロークをどのように見つけるのでしょうか。

ディープラーニングニューラルネットワークは、多くの「レイヤー」で構成されています。輪郭を見つけるステップでは、畳み込みレイヤーを使用する必要があります。これは基本的に、前のステップで数字で表された画像にフィルターを追加して、ストロークのない部分をフィルターし、ストロークのある部分を残すことです。

フィルターは下のおもちゃのようなものです。パターンの輪郭を認識します。輪郭が一致すれば箱に入れることができます。輪郭が一致しなければ入れられません。三角形のフィルターは三角形の木のブロックに一致し、四角形のフィルターは四角形の木のブロックに一致します。

4. 独立したフィルタリング

フィルタリングのプロセスは、このアニメーションのようになります。各スキャンは独立しているため、互いに干渉することなく、同時に複数のスキャンを実行できます。

5. 繰り返し畳み込み

前のプロセスでは、手書きのデジタル画像は複数のフィルターでフィルタリングされています。ただし、精度を向上させるには、前回フィルタリングした画像をもう一度フィルタリングするだけで済みます。使用するフィルターの数が多く、フィルタリングの回数が多いほど、結果の精度が高まります。

さらに、手書きの数字はおもちゃの三角形や五芒星のように規則的ではないため、人によって「8」の書き方が異なり、筆画の配置も異なります。

フィルターされたストロークをより鮮明にするには、フィルターが先ほど見た赤い水平、垂直、左下がり、右下がりの半円の形状に調整されるまで、新しいフィルターを継続的に作成する必要があります。

6. 畳み込み: 乗算と加算

しかし、フィルタリングにおける具体的なスキャンプロセスとは何でしょうか?

畳み込み演算が関係します。例えば、下の図では、左側に 8×8 の画像があり、中央に 3×3 の畳み込みフィルターがあります。3×3 のグリッドが 8×8 の画像上で 1 つずつ移動し、1 つずつ畳み込みを実行します。

ここで、畳み込みがどのように計算されるかを説明する必要があります。たとえば、上の図では、左側の 3×3 グリッドの左上隅は 3 で、中央の畳み込みフィルターの左上隅は -1 なので、-3 を得るには 3 と -1 を掛ける必要があります。同様に、同じ位置にある 2 つの数を掛け合わせると 9 個の積が得られ、その 9 個の積を合計すると -3 が得られ、これが畳み込みの結果です。

もちろん、図の例には負の数が含まれています。子供が負の数の計算方法をまだ学んでいない場合は、今のところは無視して整数として扱ってもかまいません。

7. プーリング層: 画像を小さくして要約しやすくする

複雑な畳み込み処理の後、サンプリングを要約する必要があります。まず、行列を縮小する必要があります。ここではプーリング層が使用されます。

例えば、4 つのグリッドを 1 つのグリッドに縮小すると、4 つのグリッドの最大値、最小値、平均値、合計などを取ることができるため、行列のサイズは元のサイズの 4 分の 1 だけになります。

8. ニューラルネットワーク

私たちのプロセス全体は、手書きの数字を識別することです。このプロセスは画像分類と呼ばれます。数字は 10 個しかないため、手書きの数字をそれぞれ 0 から 9 までの 10 個のカテゴリに分類する必要があります。

上記の多層処理の後、今度はそれをクラスに分類する必要があります。それぞれがクラスを表す 10 個のニューロンを用意し、それらを最後のプーリング層に接続する必要があります。

以下は、Yann LeCun が設計したオリジナルの LeNet-5 畳み込みニューラルネットワークです。これは、画像認識分野における初期の成果の 1 つです。

9. バックプロパゲーションによる自己改善

ただし、プロセス全体は畳み込みによって完了するだけでなく、バックプロパゲーションと呼ばれる方法を使用して重みによってニューロンの数を減らすなど、ニューラルネットワーク自身の学習および適応能力にも依存します。

簡単に言うと、ニューラルネットワークの出力を見ます。出力の分類が間違っていた場合、例えば手書きの6が9として認識された場合、フィルターの1つが間違いを犯し、責任を負えない信頼できないフィルターであると判断し、その重みを下げてニューラルネットワークが次回同じ間違いをしないようにします。

このようにして、ニューラルネットワークシステム全体が学習し、自己改善を維持する能力を持ちます。

10. 最後に

何千もの画像を見つけ、何十ものフィルターを実行し、出力をサンプリングする...すべてのステップは完全に並列に実行できるため、GPU で実行するのに適しています。

また、精度の問題については、まだ議論していませんが、画像認識コンテスト ImageNet では、過去数年の結果から、ニューラルネットワークの層数が増えるにつれて、精度が向上し続けていることがわかります。

最後に、この記事では手書きの文字の認識について説明していますが、医療用であろうと自動運転用であろうと、すべての画像認識の原理は同じです。これらは、多くの層のニューラルネットワーク、さまざまなフィルター、およびさまざまなマトリックスのさまざまな変換に依存しています。

つまり、すべての画像認識は GPU 上で実行される行列演算です。

ポータル

オリジナルの英語:

https://www.ovh.com/blog/deep-learning-explained-to-my-8-year-old-daughter/

<<: 時速55キロ！寧波杭州湾新区のスマート道路に無人車が走行

>>: 一般的なソートアルゴリズムの概要

インテリジェントAIのサポートにより、Xiaomi YoupinはYESOUL Wild Beast高反発腹筋ホイールをクラウドファンディング

この10ステップを理解すれば、8歳の子供でもディープラーニングを理解できる

インテリジェントAIのサポートにより、Xiaomi YoupinはYESOUL Wild Beast高反発腹筋ホイールをクラウドファンディング

C# DES アルゴリズムの暗号化と復号化の例の分析

世界のAIチップ投資環境が明らかに、5つのシナリオにチャンスあり

ハードコア情報 | 顔認識の原理とは？

2024年に期待するAI関連ニュース5選

顧客エンゲージメントにおける 5 つの主要な AI トレンド

上海交通大学は、大規模なバイリンガルプログラミング評価ベンチマークである CodeApex をリリースしました。機械は本当にコード作成において人間に挑戦し始めているのでしょうか?

生成AIビッグモデルが人類の進化に与える影響

AIを使って人の心を理解する？感情科学の専門家：表情から感情を識別するのは信頼できない

推薦する

第14次5カ年計画を見据えて、我が国のロボット産業はどこに向かっているのでしょうか？

NVIDIA GPU が一戦で神となる!黄仁訓は人工知能に賭け、1兆ドル規模のグラフィックカード帝国を築く

興味深く実用的なオープンソース人工知能プロジェクトトップ10

AI導入の最大の障壁：熟練した専門家の不足

リスト発表：海雲捷雲の田良氏が「2021年科学技術影響力のある人物賞」を受賞

誰もが今から準備すべき、2020 年のキャリアを変える 6 つのテクノロジートレンド

独自の顔ぼかしツールを構築する方法

機械知能に取って代わられない5つのスキル

人間を超えた最初の専門家！ OpenAIが混乱に陥る中、Googleのマルチモーダル大規模モデルGeminiがそれを打ち負かす

アルトマンのYCスピーチ: ChatGPTを攻撃する者は死ぬ、私ができるからといって、あなたにもできるとは限らない

ビッグモデルがAlibaba Cloudを救った！

顔認識を完了するための3行のPythonコード

マルチモーダル LLM を自動運転の意思決定者として使用すると、説明可能になります。 SenseTimeの特別なシナリオの純粋なエンドツーエンド処理よりも優れています

データサイエンティストと開発者向けの新しいツールであるAmazon SageMakerが中国で利用可能になりました

清華大学がゲーム会社を設立しました！ 10人以上のChatGPTが勤務し、7分でゲームを開発