データ サイエンティストが知っておくべき 10 のディープラーニング アーキテクチャ

データ サイエンティストが知っておくべき 10 のディープラーニング アーキテクチャ

近年、ディープラーニングは勢いを増しており、その進歩のペースについていくことがますます困難になってきています。ディープラーニングではほぼ毎日イノベーションが起きており、ディープラーニングのイノベーションのほとんどは、ArXiv や Spinger で公開されている研究論文の中に隠れています。

[[200717]]

この記事では、ディープラーニングにおける最近の進歩と革新、および Keras ライブラリの実装コードを紹介し、元の論文へのリンクを提供します。

簡潔にするために、この記事ではコンピューター ビジョンの分野でより成功しているディープラーニング アーキテクチャのみを紹介します。

さらに、この記事はニューラル ネットワークの知識に基づいており、Keras にも精通しています。これらのトピックに精通していない場合は、まず以下の記事を読んでおくことを強くお勧めします。

ディープラーニングの基礎 - 人工ニューラルネットワークから始める

《チュートリアル: Keras を使用したニューラルネットワークの最適化 (画像認識のケーススタディ付き)》

ディープラーニングの「高レベルアーキテクチャ」とは何ですか?

単純な機械学習アルゴリズムと比較すると、ディープラーニング アルゴリズムには、はるかに多様なモデルが含まれます。その理由は、ニューラル ネットワークは完全なモデルを構築する上で非常に柔軟性が高いためです。

ニューラル ネットワークは、単純なものから複雑なものまで、あらゆる小さな建物を建てるのに使用できるレゴ ブロックに例えられることもあります。

実際には、「高レベル アーキテクチャ」は、成功したモデル レコードを持つディープラーニング アーキテクチャとして簡単に定義できます。このような「高レベル アーキテクチャ」は、主に ImageNet などのチャレンジで登場します。このチャレンジでは、与えられたデータを使用して画像認識を完了するなどの問題を解決することがタスクとなります。簡単に言えば、ImageNet はデータセットに関するチャレンジであり、データセットは ILSVR (ImageNet Large Scale Visual Recognition) から取得されます。

以下に説明するアーキテクチャと同様に、これらの各アーキテクチャには微妙な違いがあり、これらの違いによって通常のモデルと区別され、問題を解決する際に通常のモデルにはない利点を発揮できるようになります。これらのアーキテクチャも「ディープ モデル」のカテゴリに分類されるため、「シャロー モデル」のアーキテクチャよりもパフォーマンスが優れている可能性があります。

さまざまな種類の「コンピュータービジョンタスク」

この記事は「コンピューター ビジョン」に焦点を当てているため、「コンピューター ビジョン」のタスクが含まれるのは当然です。名前が示すように、「コンピューター ビジョン タスク」は、人間の視覚タスクを再現して完了できるコンピューター モデルを構築することです。これは本質的に、私たちが視覚で見て知覚するものは、人間が作ったシステムで理解して完了できるプログラムであることを意味します。

コンピューター ビジョン タスクの主な種類は次のとおりです。

オブジェクト認識/分類: オブジェクト認識では、生の画像が与えられ、その画像がどのカテゴリに属する​​かを判断することが課題となります。

分類と位置特定: 画像内にオブジェクトが 1 つしかない場合、そのオブジェクトの位置を見つけることがタスクになります。この問題は、より具体的には「位置決めの問題」として表現されるべきです。

オブジェクト検出: オブジェクト検出では、画像内でオブジェクトがどこに配置されているかを識別することがタスクです。これらのオブジェクトは同じカテゴリに属する​​場合もあれば、異なるカテゴリに属する​​場合もあります。

画像セグメンテーション: 画像セグメンテーションは、画像の個々のピクセルを対応するクラスにマッピングすることを目的とした、やや複雑なタスクです。

さまざまなディープラーニングアーキテクチャ

これまで、ディープラーニングの「高レベルアーキテクチャ」について学び、さまざまな種類のコンピュータービジョンタスクを検討してきました。次に、最も重要なディープラーニング アーキテクチャをリストし、簡単に紹介します。

1. アレックスネット

AlexNet は、ディープラーニングの先駆者の 1 人である Geoffrey Hinton 氏とその同僚によって研究され導入された最初のディープラーニング アーキテクチャです。 AlexNet は、一見シンプルですが極めて強力なネットワーク アーキテクチャであり、今日の画期的なディープラーニング研究への道を開いたものです。次の図は AlexNet アーキテクチャです。

分解図から、AlexNet は実際には畳み込み層と蓄積層が互いに積み重ねられ、最上部に完全接続層がある単純なアーキテクチャであることがわかります。 AlexNet モデルは 1980 年代初頭に概念化されました。 AlexNet が他のモデルと異なる点は、タスクの規模とトレーニングに使用する GPU の規模です。 80 年代には、CPU はニューラル ネットワークのトレーニングに使用されていました。 AlexNet は GPU を初めて使用し、トレーニング速度が約 10 倍向上しました。

AlexNet は現在ではやや時代遅れになっていますが、さまざまなタスクにニューラル ネットワークを使用するための出発点であることに変わりはありません。コンピューター ビジョン タスクを完了する場合でも、音声認識タスクを完了する場合でも、AlexNet は依然として必要です。

原著論文リンクコード実装へのリンク

2. VGGネット

「VGG Net」はオックスフォード大学の「Visual Graphics Group」の研究者によって導入されました。 VGG ネットワークの最大の特徴はピラミッド型の形状で、画像に近い下部は比較的広く、最上層は比較的狭く深くなっています。

図に示すように、VGG Net には連続した畳み込み層とそれに続く蓄積層が含まれています。蓄積層は層を狭くする役割を果たします。この論文では、グループの研究者が共同執筆し、さまざまな種類のネットワークを提案していますが、これらのネットワーク アーキテクチャの主な違いは深さです。

VGG ネットワークの利点は次のとおりです。

  1. これは、特定のタスクをベンチマークするための非常に効果的なネットワーク アーキテクチャです。
  2. 同時に、インターネット上には無料の VGG 事前トレーニング済みネットワークが多数存在するため、VGG はさまざまなアプリケーションでよく使用されます。

一方、VGG の主な欠点は、最初からトレーニングするとトレーニング速度が非常に遅くなることです。かなり優れた GPU を使用しても、正常に動作させるまでに 1 週​​間以上かかりました。

原著論文リンクコード実装へのリンク

3. Googleネット

GoogleNet (別名「InceptionNet」) は、Google の研究者によって設計されたネットワーク アーキテクチャです。 2014 年の GoogleNet

ImageNet コンテストで 1 位を獲得し、強力なモデルであることを証明しました。

このネットワーク アーキテクチャでは、研究者はネットワークの深さを深めただけでなく (GoogleNet には 22 層が含まれますが、VGG ネットワークには 19 層しかありません)、「Inception モジュール」と呼ばれる新しい方法も開発しました。

上の図に示すように、このアーキテクチャは、これまでに見てきた秩序だったアーキテクチャと比較して、大きな変化を遂げています。 1 つのレイヤーに表示される「特徴抽出器」にはさまざまな種類があります。これにより、タスクを処理する際の自己トレーニングのプロセスにおいてネットワークの選択肢が広がるため、間接的にネットワークのパフォーマンスが向上します。入力を畳み込むか、入力を直接累積するかを選択できます。

最終的なアーキテクチャは、多数の Inception モジュールが積み重ねられて構成されます。上位層のほとんどには独自の出力層があるため、GoogleNet のトレーニングは他のモデルとは少し異なります。しかし、これらのレイヤーは一緒にトレーニングされるだけでなく、個別にトレーニングされるため、これらの違いにより、モデルは畳み込みをより速く完了できるようになります。

GoogleNet の利点は次のとおりです。

  1. GoogleNet は VGGNet よりも速くトレーニングできます。
  2. 事前トレーニング済みの VGG ネットワークと比較すると、事前トレーニング済みの GoogleNet のサイズは小さくなります。 VGG モデルは 500 MB 以上のスペースを占有する可能性がありますが、GoogleNet は 96 MB しか占有しません。

今のところ、GoogleNet に直接的な欠陥はありませんが、この記事では GoogleNet の改善に役立ついくつかの変更点が提案されています。変更点の 1 つは「XceptionNet」と呼ばれ、「Inception Module」の発散制限が引き上げられました。理論的には、その発散は無限大になる可能性があります。

原著論文リンクコード実装へのリンク

4. ResNet

ResNet は、ディープラーニング アーキテクチャの深さを真​​に定義するネットワーク アーキテクチャです。 ResNet と呼ばれる「残差ネットワーク」には、ResNet アーキテクチャの基礎を形成する、連続した多数の「残差モジュール」が含まれています。 「残差モジュール」を下図に示します。

簡単に言えば、「残差モジュール」には 2 つの選択肢があります。入力に対して一連の関数を実行するか、それらのステップをスキップするかを選択できます。

GoogleNet と同様に、これらの「残留モジュール」は互いに積み重ねられ、完全なネットワークを形成します。

ResNet によって導入された新しい技術の一部は次のとおりです。

  1. 高度な「適応学習」技術ではなく、標準の SGD を使用します。これは、トレーニングを通常どおり継続する初期化関数を介して実行されます。
  2. 入力を前処理する方法を変更し、ネットワークに送る前にバッチ処理します。

ResNet の主な利点は、何千もの残差層を使用してネットワークを構築でき、それらすべてをトレーニングに使用できることです。これは、層の数が増えるにつれて「シーケンシャル ネットワーク」のパフォーマンスが低下する通常の「シーケンシャル ネットワーク」とは少し異なります。

原著論文リンクコード実装へのリンク

5. レスネクスト

ResNeXt は現在最も先進的な物体認識技術と言われています。 ResNeXt は、Inception と ResNet に基づいた、新しく改良されたネットワーク アーキテクチャです。次の図は、ResNeXt の残余モジュールをまとめたものです。

原著論文リンクコード実装へのリンク

6. RCNN(地域ベースCNN)

RCNN は、物体認識問題に対するディープラーニング アーキテクチャの中で最も影響力のあるネットワーク アーキテクチャであると言われています。認識と検出の問題を解決するために、RCNN は画像内のすべてのオブジェクトをフレームに収め、画像内のオブジェクトが何であるかを識別しようとします。操作手順は以下のとおりです。

RCNN の構造は次のとおりです。

原著論文リンクコード実装へのリンク

7. YOLO (一度だけ見る)

YOLO は、ディープラーニングをベースにした、これまでで最も先進的なリアルタイム画像認識システムです。下の図からわかるように、まず画像を小さな正方形に分割し、次にこれらの正方形に対して認識アルゴリズムを 1 つずつ実行して各正方形がどのオブジェクト カテゴリに属する​​かを判断し、同じカテゴリの正方形を結合して最も正確なオブジェクト ボックスを形成します。

これらの操作は独立して完了するため、リアルタイムで実行できます。 1秒間に最大40枚の画像を処理できます。

YOLO のパフォーマンスは RCNN と比較すると低下しますが、そのリアルタイム処理機能は日常的な問題の処理において依然として大きな利点を提供します。 YOLO ネットワーク アーキテクチャは次のとおりです。

原著論文リンクコード実装へのリンク

8. スクイーズネット

SqueezeNet アーキテクチャは、モバイル プラットフォームなどの低帯域幅のシナリオで非常に役立つ、より強力なネットワーク アーキテクチャです。このネットワーク アーキテクチャは 4.9 MB のスペースしか占有しませんが、Inception は 100 MB を超えるスペースを占有します。この劇的な変化は、「ファイア モジュール」と呼ばれる構造から生じます。 「火災モジュール」を以下に示します。

次の図は、squeezeNet の最終的なアーキテクチャを示しています。

原著論文リンクコード実装へのリンク

9. セグネット

SegNet は、画像セグメンテーションを解決するためのディープラーニング アーキテクチャです。これは、一連の処理レイヤー (エンコーダー) と、ピクセル分類用の対応するデコーダー セットで構成されます。次の図は、SegNet の動作プロセスをまとめたものです。

SegNet の主な特徴は、エンコード ネットワークの蓄積インデックスがデコード ネットワークの蓄積インデックスに接続されているため、セグメント化された画像で高周波の詳細が保持されることです。つまり、情報は畳み込みを介して間接的に転送されるのではなく、直接転送されます。 SegNet は画像セグメンテーション問題に最適なモデルです。

原著論文リンクコード実装へのリンク

10. GAN(生成的敵対的ネットワーク)

GAN は、ニューラル ネットワークを使用して、トレーニング データセットに表示されたように見えるが実際には表示されていない、まったく新しい存在しない画像を生成する、まったく異なるニューラル ネットワーク アーキテクチャです。下の図はGANの分解図です。

<<:  オープンソースフレームワークとコンピューティング能力の向上により、AI は第 3 のクライマックスを迎えています。AI を教育とどのように組み合わせることができるでしょうか?

>>:  人工知能

ブログ    
ブログ    

推薦する

...

今後10年間で、人工知能とロボットは雇用に7つの影響を与える

[[202532]]編集者注: この記事はNetEase Intelligenceからのもので、著者...

Go 言語 - データ構造とアルゴリズム プロジェクト

[[404457]]この記事はWeChatの公開アカウント「roseduanの執筆場所」から転載した...

...

パンデミック下でIoTが「最前線で働く人」の役割を果たす

[[397252]]画像ソース: https://pixabay.com/images/id-594...

自社開発のAIチップのトレンドが始まっており、テクノロジー依存からの脱却は始まりに過ぎない

大規模な AI モデルへの熱狂に後押しされ、AI チップの分野ではついに百家争鳴の時代が到来しました...

AI によって自動化された、誰でも使えるオンライン写真編集!北京大学の卒業生がアルゴリズムを新たな高みへ

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

「象の鼻」ロボットが登場!ボトルキャップを開けたり、家事も問題なく行えます。

ロボットに対する従来の印象は、四角くて冷たい機械、または人間に似た機械ですが、柔らかいロボット、特に...

...

...

AIを使えばITの運用と保守が簡単になる

[[437499]]この記事はWeChatの公開アカウント「Computer World」から転載し...

ガートナー: 2023 年の機械学習の主要トレンド

今週オーストラリアのシドニーで開催されたガートナー・データ&アナリティクス・サミットで、この調査・ア...

GPT-LLMトレーナー: タスク固有のLLMトレーニングを1文で実装

人工知能の急速な発展を背景に、特定のタスクを実行するためのモデルのトレーニングは常に困難な作業となっ...

...