データサイエンティストが知っておくべき 10 のディープラーニングアーキテクチャ

近年、ディープラーニングは勢いを増しており、その進歩のペースについていくことがますます困難になってきています。ディープラーニングではほぼ毎日イノベーションが起きており、ディープラーニングのイノベーションのほとんどは、ArXiv や Spinger で公開されている研究論文の中に隠れています。

[[200717]]

この記事では、ディープラーニングにおける最近の進歩と革新、および Keras ライブラリの実装コードを紹介し、元の論文へのリンクを提供します。

簡潔にするために、この記事ではコンピュータービジョンの分野でより成功しているディープラーニングアーキテクチャのみを紹介します。

さらに、この記事はニューラルネットワークの知識に基づいており、Keras にも精通しています。これらのトピックに精通していない場合は、まず以下の記事を読んでおくことを強くお勧めします。

ディープラーニングの基礎 - 人工ニューラルネットワークから始める

《チュートリアル: Keras を使用したニューラルネットワークの最適化 (画像認識のケーススタディ付き)》

ディープラーニングの「高レベルアーキテクチャ」とは何ですか?

単純な機械学習アルゴリズムと比較すると、ディープラーニングアルゴリズムには、はるかに多様なモデルが含まれます。その理由は、ニューラルネットワークは完全なモデルを構築する上で非常に柔軟性が高いためです。

ニューラルネットワークは、単純なものから複雑なものまで、あらゆる小さな建物を建てるのに使用できるレゴブロックに例えられることもあります。

実際には、「高レベルアーキテクチャ」は、成功したモデルレコードを持つディープラーニングアーキテクチャとして簡単に定義できます。このような「高レベルアーキテクチャ」は、主に ImageNet などのチャレンジで登場します。このチャレンジでは、与えられたデータを使用して画像認識を完了するなどの問題を解決することがタスクとなります。簡単に言えば、ImageNet はデータセットに関するチャレンジであり、データセットは ILSVR (ImageNet Large Scale Visual Recognition) から取得されます。

以下に説明するアーキテクチャと同様に、これらの各アーキテクチャには微妙な違いがあり、これらの違いによって通常のモデルと区別され、問題を解決する際に通常のモデルにはない利点を発揮できるようになります。これらのアーキテクチャも「ディープモデル」のカテゴリに分類されるため、「シャローモデル」のアーキテクチャよりもパフォーマンスが優れている可能性があります。

さまざまな種類の「コンピュータービジョンタスク」

この記事は「コンピュータービジョン」に焦点を当てているため、「コンピュータービジョン」のタスクが含まれるのは当然です。名前が示すように、「コンピュータービジョンタスク」は、人間の視覚タスクを再現して完了できるコンピューターモデルを構築することです。これは本質的に、私たちが視覚で見て知覚するものは、人間が作ったシステムで理解して完了できるプログラムであることを意味します。

コンピュータービジョンタスクの主な種類は次のとおりです。

オブジェクト認識/分類: オブジェクト認識では、生の画像が与えられ、その画像がどのカテゴリに属するかを判断することが課題となります。

分類と位置特定: 画像内にオブジェクトが 1 つしかない場合、そのオブジェクトの位置を見つけることがタスクになります。この問題は、より具体的には「位置決めの問題」として表現されるべきです。

オブジェクト検出: オブジェクト検出では、画像内でオブジェクトがどこに配置されているかを識別することがタスクです。これらのオブジェクトは同じカテゴリに属する場合もあれば、異なるカテゴリに属する場合もあります。

画像セグメンテーション: 画像セグメンテーションは、画像の個々のピクセルを対応するクラスにマッピングすることを目的とした、やや複雑なタスクです。

さまざまなディープラーニングアーキテクチャ

これまで、ディープラーニングの「高レベルアーキテクチャ」について学び、さまざまな種類のコンピュータービジョンタスクを検討してきました。次に、最も重要なディープラーニングアーキテクチャをリストし、簡単に紹介します。

1. アレックスネット

AlexNet は、ディープラーニングの先駆者の 1 人である Geoffrey Hinton 氏とその同僚によって研究され導入された最初のディープラーニングアーキテクチャです。 AlexNet は、一見シンプルですが極めて強力なネットワークアーキテクチャであり、今日の画期的なディープラーニング研究への道を開いたものです。次の図は AlexNet アーキテクチャです。

分解図から、AlexNet は実際には畳み込み層と蓄積層が互いに積み重ねられ、最上部に完全接続層がある単純なアーキテクチャであることがわかります。 AlexNet モデルは 1980 年代初頭に概念化されました。 AlexNet が他のモデルと異なる点は、タスクの規模とトレーニングに使用する GPU の規模です。 80 年代には、CPU はニューラルネットワークのトレーニングに使用されていました。 AlexNet は GPU を初めて使用し、トレーニング速度が約 10 倍向上しました。

AlexNet は現在ではやや時代遅れになっていますが、さまざまなタスクにニューラルネットワークを使用するための出発点であることに変わりはありません。コンピュータービジョンタスクを完了する場合でも、音声認識タスクを完了する場合でも、AlexNet は依然として必要です。

原著論文リンクコード実装へのリンク

2. VGGネット

「VGG Net」はオックスフォード大学の「Visual Graphics Group」の研究者によって導入されました。 VGG ネットワークの最大の特徴はピラミッド型の形状で、画像に近い下部は比較的広く、最上層は比較的狭く深くなっています。

図に示すように、VGG Net には連続した畳み込み層とそれに続く蓄積層が含まれています。蓄積層は層を狭くする役割を果たします。この論文では、グループの研究者が共同執筆し、さまざまな種類のネットワークを提案していますが、これらのネットワークアーキテクチャの主な違いは深さです。

VGG ネットワークの利点は次のとおりです。

これは、特定のタスクをベンチマークするための非常に効果的なネットワークアーキテクチャです。
同時に、インターネット上には無料の VGG 事前トレーニング済みネットワークが多数存在するため、VGG はさまざまなアプリケーションでよく使用されます。

一方、VGG の主な欠点は、最初からトレーニングするとトレーニング速度が非常に遅くなることです。かなり優れた GPU を使用しても、正常に動作させるまでに 1 週間以上かかりました。

原著論文リンクコード実装へのリンク

3. Googleネット

GoogleNet (別名「InceptionNet」) は、Google の研究者によって設計されたネットワークアーキテクチャです。 2014 年の GoogleNet

ImageNet コンテストで 1 位を獲得し、強力なモデルであることを証明しました。

このネットワークアーキテクチャでは、研究者はネットワークの深さを深めただけでなく (GoogleNet には 22 層が含まれますが、VGG ネットワークには 19 層しかありません)、「Inception モジュール」と呼ばれる新しい方法も開発しました。

上の図に示すように、このアーキテクチャは、これまでに見てきた秩序だったアーキテクチャと比較して、大きな変化を遂げています。 1 つのレイヤーに表示される「特徴抽出器」にはさまざまな種類があります。これにより、タスクを処理する際の自己トレーニングのプロセスにおいてネットワークの選択肢が広がるため、間接的にネットワークのパフォーマンスが向上します。入力を畳み込むか、入力を直接累積するかを選択できます。

最終的なアーキテクチャは、多数の Inception モジュールが積み重ねられて構成されます。上位層のほとんどには独自の出力層があるため、GoogleNet のトレーニングは他のモデルとは少し異なります。しかし、これらのレイヤーは一緒にトレーニングされるだけでなく、個別にトレーニングされるため、これらの違いにより、モデルは畳み込みをより速く完了できるようになります。

GoogleNet の利点は次のとおりです。

GoogleNet は VGGNet よりも速くトレーニングできます。
事前トレーニング済みの VGG ネットワークと比較すると、事前トレーニング済みの GoogleNet のサイズは小さくなります。 VGG モデルは 500 MB 以上のスペースを占有する可能性がありますが、GoogleNet は 96 MB しか占有しません。

今のところ、GoogleNet に直接的な欠陥はありませんが、この記事では GoogleNet の改善に役立ついくつかの変更点が提案されています。変更点の 1 つは「XceptionNet」と呼ばれ、「Inception Module」の発散制限が引き上げられました。理論的には、その発散は無限大になる可能性があります。

原著論文リンクコード実装へのリンク

4. ResNet

ResNet は、ディープラーニングアーキテクチャの深さを真に定義するネットワークアーキテクチャです。 ResNet と呼ばれる「残差ネットワーク」には、ResNet アーキテクチャの基礎を形成する、連続した多数の「残差モジュール」が含まれています。「残差モジュール」を下図に示します。

簡単に言えば、「残差モジュール」には 2 つの選択肢があります。入力に対して一連の関数を実行するか、それらのステップをスキップするかを選択できます。

GoogleNet と同様に、これらの「残留モジュール」は互いに積み重ねられ、完全なネットワークを形成します。

ResNet によって導入された新しい技術の一部は次のとおりです。

高度な「適応学習」技術ではなく、標準の SGD を使用します。これは、トレーニングを通常どおり継続する初期化関数を介して実行されます。
入力を前処理する方法を変更し、ネットワークに送る前にバッチ処理します。

ResNet の主な利点は、何千もの残差層を使用してネットワークを構築でき、それらすべてをトレーニングに使用できることです。これは、層の数が増えるにつれて「シーケンシャルネットワーク」のパフォーマンスが低下する通常の「シーケンシャルネットワーク」とは少し異なります。

原著論文リンクコード実装へのリンク

5. レスネクスト

ResNeXt は現在最も先進的な物体認識技術と言われています。 ResNeXt は、Inception と ResNet に基づいた、新しく改良されたネットワークアーキテクチャです。次の図は、ResNeXt の残余モジュールをまとめたものです。

原著論文リンクコード実装へのリンク

6. RCNN（地域ベースCNN）

RCNN は、物体認識問題に対するディープラーニングアーキテクチャの中で最も影響力のあるネットワークアーキテクチャであると言われています。認識と検出の問題を解決するために、RCNN は画像内のすべてのオブジェクトをフレームに収め、画像内のオブジェクトが何であるかを識別しようとします。操作手順は以下のとおりです。

RCNN の構造は次のとおりです。

原著論文リンクコード実装へのリンク

7. YOLO (一度だけ見る)

YOLO は、ディープラーニングをベースにした、これまでで最も先進的なリアルタイム画像認識システムです。下の図からわかるように、まず画像を小さな正方形に分割し、次にこれらの正方形に対して認識アルゴリズムを 1 つずつ実行して各正方形がどのオブジェクトカテゴリに属するかを判断し、同じカテゴリの正方形を結合して最も正確なオブジェクトボックスを形成します。

これらの操作は独立して完了するため、リアルタイムで実行できます。 1秒間に最大40枚の画像を処理できます。

YOLO のパフォーマンスは RCNN と比較すると低下しますが、そのリアルタイム処理機能は日常的な問題の処理において依然として大きな利点を提供します。 YOLO ネットワークアーキテクチャは次のとおりです。

原著論文リンクコード実装へのリンク

8. スクイーズネット

SqueezeNet アーキテクチャは、モバイルプラットフォームなどの低帯域幅のシナリオで非常に役立つ、より強力なネットワークアーキテクチャです。このネットワークアーキテクチャは 4.9 MB のスペースしか占有しませんが、Inception は 100 MB を超えるスペースを占有します。この劇的な変化は、「ファイアモジュール」と呼ばれる構造から生じます。「火災モジュール」を以下に示します。

次の図は、squeezeNet の最終的なアーキテクチャを示しています。

原著論文リンクコード実装へのリンク

9. セグネット

SegNet は、画像セグメンテーションを解決するためのディープラーニングアーキテクチャです。これは、一連の処理レイヤー (エンコーダー) と、ピクセル分類用の対応するデコーダーセットで構成されます。次の図は、SegNet の動作プロセスをまとめたものです。

SegNet の主な特徴は、エンコードネットワークの蓄積インデックスがデコードネットワークの蓄積インデックスに接続されているため、セグメント化された画像で高周波の詳細が保持されることです。つまり、情報は畳み込みを介して間接的に転送されるのではなく、直接転送されます。 SegNet は画像セグメンテーション問題に最適なモデルです。

原著論文リンクコード実装へのリンク

10. GAN（生成的敵対的ネットワーク）

GAN は、ニューラルネットワークを使用して、トレーニングデータセットに表示されたように見えるが実際には表示されていない、まったく新しい存在しない画像を生成する、まったく異なるニューラルネットワークアーキテクチャです。下の図はGANの分解図です。

<<: オープンソースフレームワークとコンピューティング能力の向上により、AI は第 3 のクライマックスを迎えています。AI を教育とどのように組み合わせることができるでしょうか?

>>: 人工知能

データサイエンティストが知っておくべき 10 のディープラーニングアーキテクチャ

GPT-4ではMITでコンピュータサイエンスの学位を取得できない

PyTorch を使用した Mixture of Experts (MoE) モデルの実装

スマートテクノロジーが現代のビジネス運営を改善する7つの方法

大きなモデルをベンチマークに騙されないでください!テストセットが事前トレーニングにランダムに挿入され、スコアが人為的に高くなり、モデルが愚かになる

データ構造とアルゴリズム: 文字列の分割とバランス

ChatGPTの愚かさに対する新たな説明: 世界はAIによって変化し、訓練されたときとは異なっている

順序保存回帰: リソース利用を最大化するアルゴリズム

ロボット兵士はもはやSFではない

グラフィックで説明する 10 個のグラフアルゴリズム

Nvidia の新しいブラックテクノロジーが「Minecraft」のモザイクをリアルな大ヒット作に変える

推薦する

猫とチャットできるようになりました！生成型AIがもたらす包括的な革命：5年以内に初の動物言語を解読

トレーニングなしでリアルタイムに動的値のアライメントを実現：オープンソースの値アライメント手法OPOは、クローズドソースとオープンソースの両方の大規模モデルで利用可能

Apple チップは、計算精度を低下させることなく大規模なモデルを実行できます。投機的サンプリングは急速に普及しており、GPT-4 もこれを使用しています。

笑顔は73年にわたる：ディープフェイクがイスラエル建国戦争の古い写真を「復活」させる

引退した中国人女性のAIによるイラストがWeiboで話題に！「バカなガチョウの王様」とハッピー・パピーがGPT-4の想像力の限界に挑戦

IBM と KPMG が従業員をどのようにトレーニングしているかの秘密を明らかにします。トレーニングに AI を使用するのは良い考えでしょうか?

安全性は小さな問題ではありません。これがAI時代に彼らが選択することです

GitHubのレポートによると、米国のプログラマーの92%がAIツールを使用している