ニューラルネットワークの動作原理を1つの記事で理解する

ニューラルネットワークの動作原理を1つの記事で理解する

この記事では、ディープ ニューラル ネットワークの一般的な概要を説明します。

今日では、人工知能について語るとき、「ニューラルネットワーク」という言葉を避けて通ることはできません。人工ニューラル ネットワークは人間の脳を大まかに模倣し、コンピューターがデータから学習できるようにします。

この強力な機械学習の分野は AI の冬を終わらせ、人工知能の新しい時代を導きました。つまり、ニューラル ネットワークは、現在利用可能な最も根本的な破壊的テクノロジーである可能性があります。

ニューラル ネットワークに関するこのガイドを読んだ後、ディープラーニングについて他の人とチャットすることもできます。この目的のために、数式は使用せず、代わりにできる限り類推を使用し、説明のためにアニメーションをいくつか追加するようにします。

強力な思考

AI に関する初期の学説の 1 つは、強力なコンピューターにできるだけ多くの情報をロードし、そのデータについて学習する方法をできるだけ多く提供すれば、コンピューターは「考える」ことができるはずだというものでした。たとえば、IBM の有名なチェス AI Deep Blue の背後にあるアイデアは次のとおりです。チェスの駒のあらゆる可能な動きをプログラムし、十分な計算能力を加えることで、IBM のプログラマーは、対戦相手を倒すために考えられるあらゆる行動と結果を理論的に計算できるマシンを作成しました。

この種のコンピューティングでは、機械はエンジニアが注意深く事前にプログラムした固定ルール(A が起きたら B が起きる、C が起きたら D を行うなど)に依存しており、これは人間が持つような柔軟な学習ではありません。確かにそれは強力なスーパーコンピューティングですが、それ自体は「考える」ものではありません。

機械学習の指導

過去 10 年間で、科学者たちは、膨大な百科事典のような記憶に頼るのではなく、人間の心を模倣し、入力データをシンプルかつ体系的に分析するフレームワークを備えた古い概念を復活させました。 ディープラーニングやニューラルネットワークと呼ばれるこの技術は、1940年代から存在していましたが、画像、動画、音声検索、ブラウジング行動など、今日のデータの急激な増加と、プロセッサの性能向上とコスト低下により、ようやくその真の威力を発揮し始めています。

機械は人間とよく似ている

人工ニューラル ネットワーク (ANN) は、音声コマンドやプレイリストから音楽作曲や画像認識まで、あらゆることを機械が学習できるようにするアルゴリズム構造です。典型的な ANN は、レイヤーと呼ばれるシーケンスで互いに積み重ねられた数千の相互接続された人工ニューロンで構成され、数百万の接続を形成します。多くの場合、層は入力と出力のみを介して前後のニューロン層と相互接続されます。 (これは、あらゆる方向に相互接続されている人間の脳のニューロンとは大きく異なります。)

この階層化された ANN は、大量のラベル付きデータを機械に入力することで、機械がデータを解釈する方法を学習する今日の主な方法の 1 つです (場合によっては、人間よりも優れた方法で学習します)。

たとえば、画像認識は、畳み込みと呼ばれる数学的プロセスを使用して、部分的に隠されたオブジェクトや特定の角度からのみ見えるオブジェクトを識別するなど、非文字どおりの方法で画像を分析するため、畳み込みニューラル ネットワーク (CNN) と呼ばれる特定の種類のニューラル ネットワークに依存しています。 (リカレント ニューラル ネットワークやフィードフォワード ニューラル ネットワークなど、他の種類のニューラル ネットワークもありますが、これらは画像などの認識にはあまり役立ちません。これについては、以下の例で説明します。)

ニューラルネットワークのトレーニングプロセス

では、ニューラル ネットワークはどのように学習するのでしょうか? 教師あり学習と呼ばれる非常にシンプルですが効果的なプロセスを見てみましょう。ニューラル ネットワークが基本的な自己チェックを実行できるように、大量の人間によるラベル付けされたトレーニング データをニューラル ネットワークに入力します。

このラベル付きデータがそれぞれリンゴとオレンジの写真で構成されているとします。写真はデータであり、「リンゴ」と「オレンジ」はラベルです。画像データが入力されると、ネットワークはそれをエッジ、テクスチャ、形状といった最も基本的なコンポーネントに分解します。画像データがネットワークを通過すると、これらの基本コンポーネントが組み合わされて、曲線やさまざまな色といったより抽象的な概念が形成され、さらに組み合わされると、茎や丸ごとのオレンジ、緑と赤のリンゴのように見え始めます。

プロセスの最後に、ネットワークは画像に何が含まれているかを予測しようとします。まず、実際の学習はまだ行われていないため、予測はランダムな推測として表示されます。入力画像がリンゴであるのに予測がオレンジである場合、ネットワークの内部レイヤーを調整する必要があります。

この調整のプロセスはバックプロパゲーションと呼ばれ、次回同じ画像を「リンゴ」として予測する可能性が高まります。このプロセスは、予測の精度が向上しなくなるまで継続されます。現実世界で親が子供にリンゴとオレンジの区別を教えるのと同じように、コンピューターでも訓練によって完璧になります。もし今、「これは単なる学習ではないのか?」と考えているのであれば、あなたは人工知能に適しているかもしれません。

たくさんの層があります...

通常、畳み込みニューラル ネットワークには、入力層と出力層に加えて、次の 4 つの基本的なニューロン層があります。

  • 畳み込み
  • アクティベーション
  • プーリング
  • 完全接続層

畳み込み層

最初の畳み込み層では、何千ものニューロンがフィルターバンクとして機能し、画像内のすべての部分とピクセルを検索してパターンを探します。処理される画像が増えるにつれて、各ニューロンは徐々に特定の特徴をフィルタリングすることを学習し、精度が向上します。

たとえば、画像がリンゴの場合、1 つのフィルターは「赤」の色を見つけることに重点を置き、別のフィルターは丸いエッジを探し、別のフィルターは細い茎を識別する場合があります。散らかった地下室を掃除してガレージセールを計画したことがあるなら、すべてのものをさまざまなカテゴリ(おもちゃ、電化製品、アート、衣類など)に整理することが何を意味するのか理解できるでしょう。 畳み込み層は、画像をさまざまな特徴に分解することによってこれを実行します。

ニューラル ネットワークの特に強力な点は、以前の AI 手法 (Deep Blue で使用されているものなど) とは異なり、これらのフィルターが手動で設計されていないという点です。彼らは純粋にデータを見ることによって学び、自分自身を改善します。

畳み込み層は、それぞれ異なるフィルタリングされた特徴に特化した、セグメント化された異なるバージョンの画像を作成します。これにより、ニューロンが赤、茎、曲線、およびその他のさまざまな要素 (ただしすべて部分的) のインスタンスをどこで認識するかが示されます。しかし、畳み込み層は特徴をかなり自由に識別するため、画像がネットワークを通過するときに価値のあるものを見逃さないようにするために、追加の目が必要になります。

ニューラル ネットワークの利点の 1 つは、非線形に学習できることです。数学的な用語に立ち入ることなく、これが意味するのは、木に実ったリンゴ、太陽の下、日陰にあるリンゴ、キッチンカウンターの上のボウルの中にあるリンゴなど、画像内のそれほど明白ではない特徴を見つける能力です。これはすべてアクティベーション レイヤーのおかげです。アクティベーション レイヤーは、価値のあるもの、つまり明白でありながら見つけにくい属性を多かれ少なかれ強調表示します。

私たちのガレージ セールで、本や大学時代の定番の T シャツなど、各カテゴリからいくつかの宝物を選び出したと想像してください。問題は、まだ捨てたくないかもしれないということです。これらの「可能性のある」項目は、さらに検討するためにそれぞれのカテゴリの上に置きます。

プーリング層

画像全体にわたるこの「畳み込み」により、膨大な量の情報が生成され、すぐに計算上の悪夢になる可能性があります。プーリング レイヤーを入力すると、すべてがより一般的で理解しやすい形式に縮小されます。この問題を解決する方法はたくさんありますが、最も良い方法は「Max Pooling」です。これは、各特徴マップを独自の「Reader's Digest」バージョンにコンパイルし、赤、茎、または曲線の最良のサンプルのみを特徴付けます。

ガレージの春の大掃除の例では、有名な日本の掃除の第一人者、近藤麻理恵さんの原則を採用すると、各カテゴリーの山の中の小さなお気に入りの中から「ときめく」ものを選び、残りは売るか処分する必要があります。 したがって、アイテムの種類ごとに並べ替えることはできますが、実際に保持したいアイテムのみが含まれるようになります。その他はすべて販売済みです。

この時点で、ニューラル ネットワークの設計者は、この分類の後続のレイヤー (畳み込み、アクティベーション、プーリング) を積み重ね、画像のフィルタリングを続行して、より高レベルの情報を取得できます。写真に写っているリンゴを識別する場合、画像は何度もフィルタリングされ、最初のレイヤーでは、赤い部分や茎の先端など、端のほとんど識別できない部分のみが表示されますが、後続のよりフィルタリングされたレイヤーでは、リンゴ全体が表示されます。いずれにしても、結果が出始めると、完全に接続されたレイヤーが作用してきます。

完全接続層

さあ、結果を得る時です。完全に接続されたレイヤーでは、削減された、または「プールされた」各特徴マップは、ニューラル ネットワークが認識することを学習している対象を表す出力ノード (ニューロン) に「完全に接続」されます。 ネットワークのタスクが猫、犬、モルモット、スナネズミを見つける方法を学習することである場合、出力ノードは 4 つになります。 説明したニューラル ネットワークには、出力ノードが 2 つだけあります。1 つは「リンゴ」用、もう 1 つは「オレンジ」用です。

ネットワークに入力される画像がリンゴの画像であり、ネットワークがトレーニングを行って予測精度が向上している場合、優れた特徴パッチとは、リンゴの特徴の高品質なインスタンスを含むものである可能性が高くなります。 ここで、最終出力ノードがその使命を果たし、逆もまた同様です。

「リンゴ」ノードと「オレンジ」ノード(実習で学習)の仕事は、基本的に、それぞれの果物を含む特徴グラフに「投票」することです。したがって、グラフに含まれる「リンゴ」の特徴が多ければ多いほど、その特徴グラフに与えられる投票数が多くなります。両方のノードは、各機能マップの内容に関係なく、そのマップに対して投票する必要があります。したがって、この場合、「オレンジ」ノードには実際には「オレンジ」の特徴が含まれていないため、どの特徴マップにも多くの投票は行われません。 *** 最も多くの票を獲得したノード (この場合は、「apple」ノード) は、ネットワークの「答え」と見なすことができますが、現実はそれほど単純ではない可能性があります。

同じネットワークが 2 つの異なるもの (リンゴとオレンジ) を探しているため、ネットワークの最終的な出力はパーセンテージで表されます。この場合、トレーニング中にネットワークが劣化したと想定されるため、ここでの予測は 75% が「リンゴ」で 25% が「オレンジ」になる可能性があります。または、トレーニングの初期段階であれば、さらに間違っている可能性があり、20% が「リンゴ」で 80% が「オレンジ」である可能性があります。これは良くない。

最初は成功しなかったとしても、何度も何度も試してください…

したがって、初期段階では、ニューラル ネットワークはパーセンテージとして多数の誤った回答を返す可能性があります。 20% が「リンゴ」で 80% が「オレンジ」の場合、予測は明らかに間違っていましたが、これはラベル付けされたトレーニング データを使用した教師あり学習であったため、ネットワークは「バックプロパゲーション」と呼ばれるプロセスを通じて体系的な調整を行うことができました。

数学の専門用語を避けて、バックプロパゲーションは前のレイヤーのノードにフィードバックを送信し、答えがどれだけ異なったかを伝えます。次に、その層は、その上の層にフィードバックを送り、さらにその上の層にフィードバックを送り、最終的に畳み込み層に戻ります。畳み込み層では、後続の画像がネットワークを通過するときに各ニューロンがデータをより適切に認識できるように調整が行われます。

このプロセスは、ニューラル ネットワークが画像内のリンゴとオレンジを識別する精度がますます高まるまで何度も繰り返され、最終的には 100 パーセントの精度で結果を予測できるようになります。ただし、多くのエンジニアは 85 パーセントを許容範囲と見なしています。この時点で、ニューラル ネットワークは写真内のリンゴを実際に認識する準備が整います。

注: Google AlphaGo が自己学習型ニューラル ネットワークを使用して盤面の位置を評価するために使用する方法は、ここで紹介した方法とは異なります。

<<:  開発者が武器をアップグレードするために推奨される 5 つの機械学習フレームワーク

>>:  Facebook のインタラクティブ ニューラル ネットワーク可視化システム ActiVis がニューラル ネットワークの「ブラック ボックス」を公開

ブログ    
ブログ    

推薦する

暗号化アルゴリズムと暗号化システムアーキテクチャに関する簡単な説明

[[436278]]背景情報インターネットの急速な発展に伴い、金融業界は情報セキュリティにますます注...

クロスカメラトラッキングと「スマート」な眼認識技術戦略の研究と実装

ラボガイド現在、公共の場や個人の応用場面に設置されている監視カメラの総数は1億7500万台を超えてい...

Facebookの詐欺行為と戦う方法を学び、CopyCatchアルゴリズムがLockstepをどのように解決するかを見てみましょう

[51CTO.com クイック翻訳] インターネットが誕生して以来、あらゆる種類のジャンク情報や悪意...

未来を受け入れる: AIと教育テクノロジーによる教育の変革

新しいテクノロジー、特に人工知能 (AI) の急速な台頭により、教育と指導は大きな変化の瀬戸際にあり...

...

ディープラーニングの父ヒントン氏が、人工知能を一新するカプセルネットワークの最新動向を発表

[[210898]]なぜ人々が人工知能にこれほど魅了されるのか分からないなら、69歳のGoogle研...

賈陽青の新たな起業:AIGCプロンプトツールのリリース、SDXLを詳細にプレイするのに役立ついくつかの言葉

プロンプトの単語の書き方がわからなくても問題ありません。AIがお手伝いします。 PromptLLM ...

...

あなたを偲んで!孫建博士が早朝に逝去されました。AIは偉大な人物を失い、Megviiは技術リーダーを失いました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

Alibaba iDSTのビジュアルコンピューティング責任者、Hua Xiansheng氏:アルゴリズムの利点は消えつつある

「テクノロジー研究と現実世界の問題を組み合わせ、現実の問題を解決して価値を生み出すことにますます興味...

機械学習モデルを評価する際にデータ漏洩を防ぐ方法

この記事では、モデルのパフォーマンスを評価する際のデータ漏洩の問題と、データ漏洩を回避する方法につい...

Ma Yi、LeCun、Xie Saining がマルチモーダル LLM の重大な欠陥を明らかにしました。画期的な研究により視覚的理解が大幅に向上

サム・アルトマンは、将来の AI テクノロジーが人類に利益をもたらすためには、大規模言語モデルのマル...

テクノロジー大手はAI人材の獲得に競い合い、新卒でも巨額の給与を得られる

編集者注: 将来は AI の時代であるため、あらゆる規模のテクノロジー企業が人材獲得を競っています。...