転移学習に使用される 4 つのコンピュータ ビジョン フィールド モデル

転移学習に使用される 4 つのコンピュータ ビジョン フィールド モデル

導入

SOTA 事前トレーニング済みモデルを使用して、転移学習を通じて現実世界のコンピューター ビジョンの問題を解決します。

高精度の機械学習モデルの構築を試したことはあるが、転移学習を試したことがない場合は、この投稿があなたの人生を変えるでしょう。少なくとも、私にとってはそうです。

私たちのほとんどは、すでにいくつかの機械学習チュートリアルを通じてニューラル ネットワークの基礎を理解しようと試みています。これらのチュートリアルは、リカレント ニューラル ネットワーク、畳み込みニューラル ネットワーク、GAN、オートエンコーダなどの人工ニ​​ューラル ネットワークの基礎を理解するのに非常に役立ちます。しかし、これらのチュートリアルの主な機能は、実際のシナリオでの実装に備えることです。

さて、ディープラーニングを活用した AI システムを構築する予定がある場合、(i) 優秀な AI 研究者を育成するための多額の予算があるか、(ii) 転移学習の恩恵を受けることができます。

転移学習とは何ですか?

転移学習は、あるタスク (ソース タスク) から得られた知識を、異なるが類似したタスク (ターゲット タスク) に適用することを目的とした機械学習と人工知能の分野です。

たとえば、Wikipedia テキストの分類を学習する際に得られた知識は、法律テキストの分類問題を解決するために使用できます。もう 1 つの例は、車を分類することを学習したときに得た知識を使用して、空の鳥を識別することです。これらのサンプル間には相関関係があります。鳥の検出にはテキスト分類モデルを使用しませんでした。

転移学習とは、関連する以前に学習したタスクからの知識を転移して、新しいタスクでの学習を改善することを指します。

要約すると、転移学習は車輪の再発明をせずに、非常に短時間で AI アプリケーションを構築するのに役立つ分野です。

[[346505]]

転移学習の歴史

転移学習の威力を示すために、Andrew Ng 氏の言葉を引用します。

転移学習は、教師あり学習に次ぐ機械学習の商業的成功の原動力となるだろう

転移学習の歴史は 1993 年にまで遡ります。 Lorien Pratt 氏の論文「ニューラル ネットワーク間の識別可能性に基づく転送」はパンドラの箱を開け、転移学習の可能性を世界に紹介しました。 1997 年 7 月、雑誌「Machine Learning」に転移学習に関する論文特集号が発行されました。分野が深まるにつれて、マルチタスク学習などの隣接するトピックも転移学習の分野に組み込まれました。 『Learning to Learn』はこの分野における先駆的な書籍の一つです。今日、転移学習は、技術系起業家が新しい AI ソリューションを構築し、研究者が機械学習の限界を押し広げるための強力な手段となっています。

転移学習はどのように機能しますか?

転移学習を実装するには、次の 3 つの要件があります。

  • サードパーティによって開発されたオープンソースの事前トレーニング済みモデル
  • 再利用モデル
  • 質問を微調整する

オープンソースの事前トレーニング済みモデルを開発する

事前トレーニング済みモデルとは、私たちと同様の問題を解決するために他の人が作成し、トレーニングしたモデルです。実際には、その誰かというのは、ほとんどの場合、テクノロジー界の巨人かスター研究者のグループです。通常、ImageNet や Wikipedia Corpus などの非常に大規模なデータセットがベース データセットとして選択されます。次に、特定の問題 (たとえば、この問題では VGG19 を使用して画像分類を行います) を解決するために、大規模なニューラル ネットワーク (たとえば、VGG19 には 143,667,240 個のパラメーターがあります) を作成します。もちろん、この事前トレーニング済みモデルは、これらのモデルを活用して再利用できるように公開する必要があります。

再利用モデル

これらの事前トレーニング済みモデルを入手したら、レイヤー、機能、重み、バイアスなどの学習した知識を再利用します。事前トレーニング済みのモデルを環境にロードする方法はいくつかあります。結局のところ、それは関連情報を含む単なるファイル/フォルダーです。ただし、ディープラーニング ライブラリにはすでにこれらの事前トレーニング済みモデルが多数ホストされているため、アクセスしやすくなっています。

  • TensorFlowハブ
  • Keras アプリケーション
  • PyTorch ハブ

上記のソースのいずれかを使用して、トレーニング済みのモデルを読み込むことができます。通常、すべてのレイヤーと重みが含まれており、必要に応じてネットワークを微調整できます。

質問を微調整する

現在のモデルは私たちの問題を解決できるかもしれません。通常、事前トレーニング済みモデルを微調整する方がよい理由は 2 つあります。

  • この方法により、より高い精度を実現できます。
  • 弊社の微調整されたモデルは正しい形式で出力を生成できます。

一般的に言えば、ニューラル ネットワークでは、最下層と中間層は通常、一般的な特徴を表し、最上層は問題固有の特徴を表します。新しい問題は元の問題とは異なるため、最上位レベルを削除することを優先します。問題に固有のレイヤーを追加することで、より高い精度を実現できます。

最上位レイヤーを削除した後、必要な出力が得られるように独自のレイヤーを配置する必要があります。たとえば、ImageNet を使用してトレーニングされたモデルは、最大 1,000 個のオブジェクトを分類できます。手書きの数字を分類しようとする場合 (MNIST 分類など)、ニューロンが 10 個だけのレイヤーにする方がよいかもしれません。

事前トレーニング済みのモデルにカスタム レイヤーを追加した後、特定の損失関数とオプティマイザーを使用してそれを設定し、追加のトレーニングで微調整することができます。

コンピュータービジョンにおける事前学習済みモデル4つ

画像生成、ニューラル スタイル転送、画像分類、画像キャプション作成、異常検出などのコンピューター ビジョン タスク用の事前トレーニング済みネットワークが 4 つあります。

  • VG19 19 19 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 290 300 310 320 330 340 350 360 380 490 500 400 520 530
  • インセプションv3 (GoogLeNet)
  • レスネット50
  • エフィシェントネット

それぞれ詳しく見ていきましょう。

VGG-19

VGG は、19 層の深さを持つ畳み込みニューラル ネットワークです。これは、2014 年にオックスフォード大学の Karen Simonyan 氏と Andrew Zisserman 氏によって、論文「大規模画像認識のための非常に深い畳み込みネットワーク」の中で構築およびトレーニングされました。 VGG-19 ネットワークも、ImageNet データベースの 100 万枚を超える画像を使用してトレーニングされました。もちろん、ImageNet でトレーニングされた重みを使用してモデルをインポートすることもできます。この事前トレーニング済みのネットワークは、最大 1000 個のオブジェクトを分類できます。ネットワークは 224 x 224 ピクセルのカラー画像でトレーニングされます。サイズとパフォーマンスの簡単な説明は次のとおりです。

  • サイズ: 549 MB
  • トップ1の精度:71.3%
  • トップ5の精度:90.0%
  • パラメータ数: 143,667,240
  • 深さ: 26

インセプションv3 (GoogLeNet)

Inceptionv3 は、50 層の深さを持つ畳み込みニューラル ネットワークです。これは Google によって構築およびトレーニングされたもので、この論文「畳み込みの深層」で確認できます。 ImageNet の重みを使用して事前トレーニングされた Inceptionv3 は、最大 1000 個のオブジェクトを分類できます。このネットワークの画像入力サイズは 299 x 299 ピクセルで、VGG19 ネットワークよりも大きくなっています。 VGG19 は 2014 年の ImageNet コンテストで準優勝し、Inception が優勝しました。 Inceptionv3 の機能の簡単な概要は次のとおりです。

  • サイズ: 92 MB
  • トップ1の精度:77.9%
  • トップ5の精度:93.7%
  • パラメータ数: 23,851,784
  • 深さ: 159

ResNet50 (残差ネットワーク)

ResNet50 は、深さ 50 層の畳み込みニューラル ネットワークです。これは、2015 年に Microsoft によって構築およびトレーニングされました (論文: [Deep Residual Learning for Image Recognition](http://deep residual learning for image recognize /))。このモデルは、ImageNet データベースの 100 万枚を超える画像でトレーニングされました。 VGG-19 と同様に、最大 1,000 個のオブジェクトを分類でき、ネットワークは 224 x 224 ピクセルのカラー画像でトレーニングされます。サイズとパフォーマンスの簡単な説明は次のとおりです。

  • サイズ: 98 MB
  • トップ1の精度:74.9%
  • トップ5の精度:92.1%
  • パラメータ数: 25,636,712

ResNet50 と VGG19 を比較すると、ResNet50 は複雑さが低いにもかかわらず、実際には VGG19 よりもパフォーマンスが優れていることがわかります。 ResNet101、ResNet152、ResNet50V2、ResNet101V2、ResNet152V2 などの新しいバージョンも使用できます。

エフィシェントネット

EfficientNet は、Google が 2019 年の論文「EfficientNet: 畳み込みニューラル ネットワークのモデル スケーリングの再考」でトレーニングして公開した最先端の畳み込みニューラル ネットワークです。 EfficientNet には 8 つのオプション実装 (B0 から B7) があり、最も単純な EfficientNet B0 でも非常に優れています。 530万のパラメータを備え、77.1%という最先端の精度性能を実現します。

EfficientNetB0 の特徴を簡単に説明すると次のようになります。

  • サイズ: 29 MB
  • トップ1の精度:77.1%
  • トップ5の精度:93.3%
  • パラメータ数: ~5,300,000
  • 深さ: 159

その他のコンピュータビジョンの問題に対する事前トレーニング済みモデル

最先端の優れた畳み込みニューラル ネットワーク モデルを 4 つ紹介します。ただし、転移学習に使用できるモデルは他にも数十種類あります。以下は、Keras アプリケーションで利用可能なこれらのモデルのベンチマーク分析です。

要約する

最先端のニューラル ネットワーク モデルに簡単にアクセスできる世界では、限られたリソースで独自のモデルを構築しようとするのは、車輪の再発明のようなもので、意味がありません。

代わりに、これらのトレーニング済みモデルを使用し、その上にいくつかの新しいレイヤーを追加し、特定のコンピューター ビジョン タスクについて考えてからトレーニングしてみてください。モデルをゼロから構築した場合よりも、より成功する結果が得られます。

<<:  ロボットになることでのみロボットを倒すことができる

>>:  比較分析に基づく人工知能技術の革新の道筋に関する研究

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

MIT、新たな3Dプリント材料の発見を加速する新たなAIツールを開発

カスタマイズされた医療機器から手頃な価格の住宅まで、あらゆるものを作成するために使用される 3D プ...

失礼ながら、モデルはプロンプトが何を言っているのか理解できない可能性があります。

GPT-3などの超大規模モデルの登場により、コンテキスト内学習も普及してきました。インコンテキスト...

次世代オーディオアシスタント: AI がオーディオ体験をどう形作るか

人工知能(AI)はここ数か月、ビジネス環境における流行語となっています。効率性の向上、コストの削減、...

企業向け人工知能アプリケーション開発ガイド

AI アプリケーション開発プロセスを詳しく調べ始める場合、まずこれらのプロジェクトが通常のアプリケー...

人工知能と教育の未来: 教師の関与を刺激する

要点: 教育における AI システムの開発者は現在、教師を支援するために取り組んでいます。信頼できる...

エッジ AI がインダストリー 4.0 の成果を推進する方法

物理的な世界を中心としたこれまでの産業革命とは異なり、第 4 次産業革命によって導入されたデジタル要...

先進的な自動運転システムの3つの新しい認識機能の分析

[[439322]]自動車の知能化と電動化の急速な発展に伴い、自動運転センサー構成の需要は増加し続け...

2つのセッションにおけるインターネット大手の提案の要約:デジタル経済とスマートカーが頻出語に

[[385182]]中国人民政治協商会議第13期全国委員会第4回会議が2021年3月4日に北京で開催...

人工知能が仕事を奪っていますが、将来の職場で私たちは何のために戦うのでしょうか?

病院では、人工知能 (AI) は人間の医師よりもレントゲンの分析が得意です。法律事務所では、AI は...

...

...

食品配達ドローンは登場するのか?テンセントが美団の増資を完了、無人配達の研究開発に4億ドルを投資

[[411531]]写真/トゥチョン美団は7月13日夜、テンセントのサブスクリプション契約に含まれる...

カリフォルニア工科大学、プロペラアームを使って滑空する二足歩行ロボットを開発

LEONARDO は、カリフォルニア工科大学の航空宇宙ロボット工学および制御研究所の言語の天才たちの...