転移学習に使用される 4 つのコンピュータ ビジョン フィールド モデル

転移学習に使用される 4 つのコンピュータ ビジョン フィールド モデル

導入

SOTA 事前トレーニング済みモデルを使用して、転移学習を通じて現実世界のコンピューター ビジョンの問題を解決します。

高精度の機械学習モデルの構築を試したことはあるが、転移学習を試したことがない場合は、この投稿があなたの人生を変えるでしょう。少なくとも、私にとってはそうです。

私たちのほとんどは、すでにいくつかの機械学習チュートリアルを通じてニューラル ネットワークの基礎を理解しようと試みています。これらのチュートリアルは、リカレント ニューラル ネットワーク、畳み込みニューラル ネットワーク、GAN、オートエンコーダなどの人工ニ​​ューラル ネットワークの基礎を理解するのに非常に役立ちます。しかし、これらのチュートリアルの主な機能は、実際のシナリオでの実装に備えることです。

さて、ディープラーニングを活用した AI システムを構築する予定がある場合、(i) 優秀な AI 研究者を育成するための多額の予算があるか、(ii) 転移学習の恩恵を受けることができます。

転移学習とは何ですか?

転移学習は、あるタスク (ソース タスク) から得られた知識を、異なるが類似したタスク (ターゲット タスク) に適用することを目的とした機械学習と人工知能の分野です。

たとえば、Wikipedia テキストの分類を学習する際に得られた知識は、法律テキストの分類問題を解決するために使用できます。もう 1 つの例は、車を分類することを学習したときに得た知識を使用して、空の鳥を識別することです。これらのサンプル間には相関関係があります。鳥の検出にはテキスト分類モデルを使用しませんでした。

転移学習とは、関連する以前に学習したタスクからの知識を転移して、新しいタスクでの学習を改善することを指します。

要約すると、転移学習は車輪の再発明をせずに、非常に短時間で AI アプリケーションを構築するのに役立つ分野です。

[[346505]]

転移学習の歴史

転移学習の威力を示すために、Andrew Ng 氏の言葉を引用します。

転移学習は、教師あり学習に次ぐ機械学習の商業的成功の原動力となるだろう

転移学習の歴史は 1993 年にまで遡ります。 Lorien Pratt 氏の論文「ニューラル ネットワーク間の識別可能性に基づく転送」はパンドラの箱を開け、転移学習の可能性を世界に紹介しました。 1997 年 7 月、雑誌「Machine Learning」に転移学習に関する論文特集号が発行されました。分野が深まるにつれて、マルチタスク学習などの隣接するトピックも転移学習の分野に組み込まれました。 『Learning to Learn』はこの分野における先駆的な書籍の一つです。今日、転移学習は、技術系起業家が新しい AI ソリューションを構築し、研究者が機械学習の限界を押し広げるための強力な手段となっています。

転移学習はどのように機能しますか?

転移学習を実装するには、次の 3 つの要件があります。

  • サードパーティによって開発されたオープンソースの事前トレーニング済みモデル
  • 再利用モデル
  • 質問を微調整する

オープンソースの事前トレーニング済みモデルを開発する

事前トレーニング済みモデルとは、私たちと同様の問題を解決するために他の人が作成し、トレーニングしたモデルです。実際には、その誰かというのは、ほとんどの場合、テクノロジー界の巨人かスター研究者のグループです。通常、ImageNet や Wikipedia Corpus などの非常に大規模なデータセットがベース データセットとして選択されます。次に、特定の問題 (たとえば、この問題では VGG19 を使用して画像分類を行います) を解決するために、大規模なニューラル ネットワーク (たとえば、VGG19 には 143,667,240 個のパラメーターがあります) を作成します。もちろん、この事前トレーニング済みモデルは、これらのモデルを活用して再利用できるように公開する必要があります。

再利用モデル

これらの事前トレーニング済みモデルを入手したら、レイヤー、機能、重み、バイアスなどの学習した知識を再利用します。事前トレーニング済みのモデルを環境にロードする方法はいくつかあります。結局のところ、それは関連情報を含む単なるファイル/フォルダーです。ただし、ディープラーニング ライブラリにはすでにこれらの事前トレーニング済みモデルが多数ホストされているため、アクセスしやすくなっています。

  • TensorFlowハブ
  • Keras アプリケーション
  • PyTorch ハブ

上記のソースのいずれかを使用して、トレーニング済みのモデルを読み込むことができます。通常、すべてのレイヤーと重みが含まれており、必要に応じてネットワークを微調整できます。

質問を微調整する

現在のモデルは私たちの問題を解決できるかもしれません。通常、事前トレーニング済みモデルを微調整する方がよい理由は 2 つあります。

  • この方法により、より高い精度を実現できます。
  • 弊社の微調整されたモデルは正しい形式で出力を生成できます。

一般的に言えば、ニューラル ネットワークでは、最下層と中間層は通常、一般的な特徴を表し、最上層は問題固有の特徴を表します。新しい問題は元の問題とは異なるため、最上位レベルを削除することを優先します。問題に固有のレイヤーを追加することで、より高い精度を実現できます。

最上位レイヤーを削除した後、必要な出力が得られるように独自のレイヤーを配置する必要があります。たとえば、ImageNet を使用してトレーニングされたモデルは、最大 1,000 個のオブジェクトを分類できます。手書きの数字を分類しようとする場合 (MNIST 分類など)、ニューロンが 10 個だけのレイヤーにする方がよいかもしれません。

事前トレーニング済みのモデルにカスタム レイヤーを追加した後、特定の損失関数とオプティマイザーを使用してそれを設定し、追加のトレーニングで微調整することができます。

コンピュータービジョンにおける事前学習済みモデル4つ

画像生成、ニューラル スタイル転送、画像分類、画像キャプション作成、異常検出などのコンピューター ビジョン タスク用の事前トレーニング済みネットワークが 4 つあります。

  • VG19 19 19 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 290 300 310 320 330 340 350 360 380 490 500 400 520 530
  • インセプションv3 (GoogLeNet)
  • レスネット50
  • エフィシェントネット

それぞれ詳しく見ていきましょう。

VGG-19

VGG は、19 層の深さを持つ畳み込みニューラル ネットワークです。これは、2014 年にオックスフォード大学の Karen Simonyan 氏と Andrew Zisserman 氏によって、論文「大規模画像認識のための非常に深い畳み込みネットワーク」の中で構築およびトレーニングされました。 VGG-19 ネットワークも、ImageNet データベースの 100 万枚を超える画像を使用してトレーニングされました。もちろん、ImageNet でトレーニングされた重みを使用してモデルをインポートすることもできます。この事前トレーニング済みのネットワークは、最大 1000 個のオブジェクトを分類できます。ネットワークは 224 x 224 ピクセルのカラー画像でトレーニングされます。サイズとパフォーマンスの簡単な説明は次のとおりです。

  • サイズ: 549 MB
  • トップ1の精度:71.3%
  • トップ5の精度:90.0%
  • パラメータ数: 143,667,240
  • 深さ: 26

インセプションv3 (GoogLeNet)

Inceptionv3 は、50 層の深さを持つ畳み込みニューラル ネットワークです。これは Google によって構築およびトレーニングされたもので、この論文「畳み込みの深層」で確認できます。 ImageNet の重みを使用して事前トレーニングされた Inceptionv3 は、最大 1000 個のオブジェクトを分類できます。このネットワークの画像入力サイズは 299 x 299 ピクセルで、VGG19 ネットワークよりも大きくなっています。 VGG19 は 2014 年の ImageNet コンテストで準優勝し、Inception が優勝しました。 Inceptionv3 の機能の簡単な概要は次のとおりです。

  • サイズ: 92 MB
  • トップ1の精度:77.9%
  • トップ5の精度:93.7%
  • パラメータ数: 23,851,784
  • 深さ: 159

ResNet50 (残差ネットワーク)

ResNet50 は、深さ 50 層の畳み込みニューラル ネットワークです。これは、2015 年に Microsoft によって構築およびトレーニングされました (論文: [Deep Residual Learning for Image Recognition](http://deep residual learning for image recognize /))。このモデルは、ImageNet データベースの 100 万枚を超える画像でトレーニングされました。 VGG-19 と同様に、最大 1,000 個のオブジェクトを分類でき、ネットワークは 224 x 224 ピクセルのカラー画像でトレーニングされます。サイズとパフォーマンスの簡単な説明は次のとおりです。

  • サイズ: 98 MB
  • トップ1の精度:74.9%
  • トップ5の精度:92.1%
  • パラメータ数: 25,636,712

ResNet50 と VGG19 を比較すると、ResNet50 は複雑さが低いにもかかわらず、実際には VGG19 よりもパフォーマンスが優れていることがわかります。 ResNet101、ResNet152、ResNet50V2、ResNet101V2、ResNet152V2 などの新しいバージョンも使用できます。

エフィシェントネット

EfficientNet は、Google が 2019 年の論文「EfficientNet: 畳み込みニューラル ネットワークのモデル スケーリングの再考」でトレーニングして公開した最先端の畳み込みニューラル ネットワークです。 EfficientNet には 8 つのオプション実装 (B0 から B7) があり、最も単純な EfficientNet B0 でも非常に優れています。 530万のパラメータを備え、77.1%という最先端の精度性能を実現します。

EfficientNetB0 の特徴を簡単に説明すると次のようになります。

  • サイズ: 29 MB
  • トップ1の精度:77.1%
  • トップ5の精度:93.3%
  • パラメータ数: ~5,300,000
  • 深さ: 159

その他のコンピュータビジョンの問題に対する事前トレーニング済みモデル

最先端の優れた畳み込みニューラル ネットワーク モデルを 4 つ紹介します。ただし、転移学習に使用できるモデルは他にも数十種類あります。以下は、Keras アプリケーションで利用可能なこれらのモデルのベンチマーク分析です。

要約する

最先端のニューラル ネットワーク モデルに簡単にアクセスできる世界では、限られたリソースで独自のモデルを構築しようとするのは、車輪の再発明のようなもので、意味がありません。

代わりに、これらのトレーニング済みモデルを使用し、その上にいくつかの新しいレイヤーを追加し、特定のコンピューター ビジョン タスクについて考えてからトレーニングしてみてください。モデルをゼロから構築した場合よりも、より成功する結果が得られます。

<<:  ロボットになることでのみロボットを倒すことができる

>>:  比較分析に基づく人工知能技術の革新の道筋に関する研究

ブログ    
ブログ    
ブログ    

推薦する

2019年に解決すべき11のAI倫理的ジレンマ

ビッグデータダイジェスト制作編集者: Luan Hongye、Aileen今こそAIの倫理について議...

...

絶対確実な協働ロボット

人間とロボットが協力して協働ロボットを作る[[321860]]協働ロボットは人間と対話し、協働するよ...

ロボットが大学入試を受けたら、何点取れるでしょうか?清華大学や北京大学に入学できるでしょうか?

周知のとおり、大学入試は我が国で最も競争率の高い試験です。世界最先端のロボットを大学入試に送り込んだ...

...

今後 10 年間で 21 の新しい仕事が生まれます。あなたに何ができるか見てみましょう。

[[242467]]現在観察できるマクロ経済、政治、人口、社会、文化、ビジネス、テクノロジーの一般...

2020年のAI技術のブレークスルーをすべて見る

2020年は、厳しい防疫活動のさなか、静かに過ぎていきました。今年も人工知能の進歩は止まりませんでし...

グラフ最適化のためのエンドツーエンドの転送可能な深層強化学習

[[425806]]多様なアクセラレータ セットでトレーニングされた大規模で複雑なニューラル ネット...

パーソナライズされた推奨事項は、馴染みのあるものに偏っていますか?アルゴリズムは公平性を侵害できない

北京日報によると、異なる消費者が同じ電子商取引プラットフォーム上で同じキーワードを使用して商品を検索...

...

...

Baiduの新しいAIインフラがCIFTISでデビューし、CTOの王海峰が業界インテリジェンスの推進におけるBaiduの成果を紹介

AIはあらゆる分野に新たな活力を吹き込み、AIの新しいインフラはサービス貿易部門を含む社会経済の発展...

...

必要なものを教えていただければ、当社のAIがコードを作成します

何をしたいのかを伝えるだけで、AI が自動的にコードを作成します。今、私たちはこの目標に一歩近づきま...

ロボティック プロセス オートメーションの 10 大メリット

ロボティック プロセス オートメーション (RPA) ソリューションは、人間が日常的に実行する多くの...