転移学習に使用される 4 つのコンピュータ ビジョン フィールド モデル

転移学習に使用される 4 つのコンピュータ ビジョン フィールド モデル

導入

SOTA 事前トレーニング済みモデルを使用して、転移学習を通じて現実世界のコンピューター ビジョンの問題を解決します。

高精度の機械学習モデルの構築を試したことはあるが、転移学習を試したことがない場合は、この投稿があなたの人生を変えるでしょう。少なくとも、私にとってはそうです。

私たちのほとんどは、すでにいくつかの機械学習チュートリアルを通じてニューラル ネットワークの基礎を理解しようと試みています。これらのチュートリアルは、リカレント ニューラル ネットワーク、畳み込みニューラル ネットワーク、GAN、オートエンコーダなどの人工ニ​​ューラル ネットワークの基礎を理解するのに非常に役立ちます。しかし、これらのチュートリアルの主な機能は、実際のシナリオでの実装に備えることです。

さて、ディープラーニングを活用した AI システムを構築する予定がある場合、(i) 優秀な AI 研究者を育成するための多額の予算があるか、(ii) 転移学習の恩恵を受けることができます。

転移学習とは何ですか?

転移学習は、あるタスク (ソース タスク) から得られた知識を、異なるが類似したタスク (ターゲット タスク) に適用することを目的とした機械学習と人工知能の分野です。

たとえば、Wikipedia テキストの分類を学習する際に得られた知識は、法律テキストの分類問題を解決するために使用できます。もう 1 つの例は、車を分類することを学習したときに得た知識を使用して、空の鳥を識別することです。これらのサンプル間には相関関係があります。鳥の検出にはテキスト分類モデルを使用しませんでした。

転移学習とは、関連する以前に学習したタスクからの知識を転移して、新しいタスクでの学習を改善することを指します。

要約すると、転移学習は車輪の再発明をせずに、非常に短時間で AI アプリケーションを構築するのに役立つ分野です。

[[346505]]

転移学習の歴史

転移学習の威力を示すために、Andrew Ng 氏の言葉を引用します。

転移学習は、教師あり学習に次ぐ機械学習の商業的成功の原動力となるだろう

転移学習の歴史は 1993 年にまで遡ります。 Lorien Pratt 氏の論文「ニューラル ネットワーク間の識別可能性に基づく転送」はパンドラの箱を開け、転移学習の可能性を世界に紹介しました。 1997 年 7 月、雑誌「Machine Learning」に転移学習に関する論文特集号が発行されました。分野が深まるにつれて、マルチタスク学習などの隣接するトピックも転移学習の分野に組み込まれました。 『Learning to Learn』はこの分野における先駆的な書籍の一つです。今日、転移学習は、技術系起業家が新しい AI ソリューションを構築し、研究者が機械学習の限界を押し広げるための強力な手段となっています。

転移学習はどのように機能しますか?

転移学習を実装するには、次の 3 つの要件があります。

  • サードパーティによって開発されたオープンソースの事前トレーニング済みモデル
  • 再利用モデル
  • 質問を微調整する

オープンソースの事前トレーニング済みモデルを開発する

事前トレーニング済みモデルとは、私たちと同様の問題を解決するために他の人が作成し、トレーニングしたモデルです。実際には、その誰かというのは、ほとんどの場合、テクノロジー界の巨人かスター研究者のグループです。通常、ImageNet や Wikipedia Corpus などの非常に大規模なデータセットがベース データセットとして選択されます。次に、特定の問題 (たとえば、この問題では VGG19 を使用して画像分類を行います) を解決するために、大規模なニューラル ネットワーク (たとえば、VGG19 には 143,667,240 個のパラメーターがあります) を作成します。もちろん、この事前トレーニング済みモデルは、これらのモデルを活用して再利用できるように公開する必要があります。

再利用モデル

これらの事前トレーニング済みモデルを入手したら、レイヤー、機能、重み、バイアスなどの学習した知識を再利用します。事前トレーニング済みのモデルを環境にロードする方法はいくつかあります。結局のところ、それは関連情報を含む単なるファイル/フォルダーです。ただし、ディープラーニング ライブラリにはすでにこれらの事前トレーニング済みモデルが多数ホストされているため、アクセスしやすくなっています。

  • TensorFlowハブ
  • Keras アプリケーション
  • PyTorch ハブ

上記のソースのいずれかを使用して、トレーニング済みのモデルを読み込むことができます。通常、すべてのレイヤーと重みが含まれており、必要に応じてネットワークを微調整できます。

質問を微調整する

現在のモデルは私たちの問題を解決できるかもしれません。通常、事前トレーニング済みモデルを微調整する方がよい理由は 2 つあります。

  • この方法により、より高い精度を実現できます。
  • 弊社の微調整されたモデルは正しい形式で出力を生成できます。

一般的に言えば、ニューラル ネットワークでは、最下層と中間層は通常、一般的な特徴を表し、最上層は問題固有の特徴を表します。新しい問題は元の問題とは異なるため、最上位レベルを削除することを優先します。問題に固有のレイヤーを追加することで、より高い精度を実現できます。

最上位レイヤーを削除した後、必要な出力が得られるように独自のレイヤーを配置する必要があります。たとえば、ImageNet を使用してトレーニングされたモデルは、最大 1,000 個のオブジェクトを分類できます。手書きの数字を分類しようとする場合 (MNIST 分類など)、ニューロンが 10 個だけのレイヤーにする方がよいかもしれません。

事前トレーニング済みのモデルにカスタム レイヤーを追加した後、特定の損失関数とオプティマイザーを使用してそれを設定し、追加のトレーニングで微調整することができます。

コンピュータービジョンにおける事前学習済みモデル4つ

画像生成、ニューラル スタイル転送、画像分類、画像キャプション作成、異常検出などのコンピューター ビジョン タスク用の事前トレーニング済みネットワークが 4 つあります。

  • VG19 19 19 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 290 300 310 320 330 340 350 360 380 490 500 400 520 530
  • インセプションv3 (GoogLeNet)
  • レスネット50
  • エフィシェントネット

それぞれ詳しく見ていきましょう。

VGG-19

VGG は、19 層の深さを持つ畳み込みニューラル ネットワークです。これは、2014 年にオックスフォード大学の Karen Simonyan 氏と Andrew Zisserman 氏によって、論文「大規模画像認識のための非常に深い畳み込みネットワーク」の中で構築およびトレーニングされました。 VGG-19 ネットワークも、ImageNet データベースの 100 万枚を超える画像を使用してトレーニングされました。もちろん、ImageNet でトレーニングされた重みを使用してモデルをインポートすることもできます。この事前トレーニング済みのネットワークは、最大 1000 個のオブジェクトを分類できます。ネットワークは 224 x 224 ピクセルのカラー画像でトレーニングされます。サイズとパフォーマンスの簡単な説明は次のとおりです。

  • サイズ: 549 MB
  • トップ1の精度:71.3%
  • トップ5の精度:90.0%
  • パラメータ数: 143,667,240
  • 深さ: 26

インセプションv3 (GoogLeNet)

Inceptionv3 は、50 層の深さを持つ畳み込みニューラル ネットワークです。これは Google によって構築およびトレーニングされたもので、この論文「畳み込みの深層」で確認できます。 ImageNet の重みを使用して事前トレーニングされた Inceptionv3 は、最大 1000 個のオブジェクトを分類できます。このネットワークの画像入力サイズは 299 x 299 ピクセルで、VGG19 ネットワークよりも大きくなっています。 VGG19 は 2014 年の ImageNet コンテストで準優勝し、Inception が優勝しました。 Inceptionv3 の機能の簡単な概要は次のとおりです。

  • サイズ: 92 MB
  • トップ1の精度:77.9%
  • トップ5の精度:93.7%
  • パラメータ数: 23,851,784
  • 深さ: 159

ResNet50 (残差ネットワーク)

ResNet50 は、深さ 50 層の畳み込みニューラル ネットワークです。これは、2015 年に Microsoft によって構築およびトレーニングされました (論文: [Deep Residual Learning for Image Recognition](http://deep residual learning for image recognize /))。このモデルは、ImageNet データベースの 100 万枚を超える画像でトレーニングされました。 VGG-19 と同様に、最大 1,000 個のオブジェクトを分類でき、ネットワークは 224 x 224 ピクセルのカラー画像でトレーニングされます。サイズとパフォーマンスの簡単な説明は次のとおりです。

  • サイズ: 98 MB
  • トップ1の精度:74.9%
  • トップ5の精度:92.1%
  • パラメータ数: 25,636,712

ResNet50 と VGG19 を比較すると、ResNet50 は複雑さが低いにもかかわらず、実際には VGG19 よりもパフォーマンスが優れていることがわかります。 ResNet101、ResNet152、ResNet50V2、ResNet101V2、ResNet152V2 などの新しいバージョンも使用できます。

エフィシェントネット

EfficientNet は、Google が 2019 年の論文「EfficientNet: 畳み込みニューラル ネットワークのモデル スケーリングの再考」でトレーニングして公開した最先端の畳み込みニューラル ネットワークです。 EfficientNet には 8 つのオプション実装 (B0 から B7) があり、最も単純な EfficientNet B0 でも非常に優れています。 530万のパラメータを備え、77.1%という最先端の精度性能を実現します。

EfficientNetB0 の特徴を簡単に説明すると次のようになります。

  • サイズ: 29 MB
  • トップ1の精度:77.1%
  • トップ5の精度:93.3%
  • パラメータ数: ~5,300,000
  • 深さ: 159

その他のコンピュータビジョンの問題に対する事前トレーニング済みモデル

最先端の優れた畳み込みニューラル ネットワーク モデルを 4 つ紹介します。ただし、転移学習に使用できるモデルは他にも数十種類あります。以下は、Keras アプリケーションで利用可能なこれらのモデルのベンチマーク分析です。

要約する

最先端のニューラル ネットワーク モデルに簡単にアクセスできる世界では、限られたリソースで独自のモデルを構築しようとするのは、車輪の再発明のようなもので、意味がありません。

代わりに、これらのトレーニング済みモデルを使用し、その上にいくつかの新しいレイヤーを追加し、特定のコンピューター ビジョン タスクについて考えてからトレーニングしてみてください。モデルをゼロから構築した場合よりも、より成功する結果が得られます。

<<:  ロボットになることでのみロボットを倒すことができる

>>:  比較分析に基づく人工知能技術の革新の道筋に関する研究

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

人工知能 (AI) を活用して仕事の未来を築くにはどうすればよいでしょうか?

仕事は私たちの生活の重要な部分です。私たちの人生の3分の1はこれに費やされています。私たちの世界には...

AI のブラックボックスを開く: 「説明可能な」人工知能 (XAI) への認知ガイド!

今日、企業組織は意思決定に人工知能や機械学習モデルをますます頼りにしており、こうした意思決定は私たち...

スマートセキュリティカメラの3つの主要市場

2020 年に企業のオーナーや管理者が直面した健康、安全、セキュリティの課題は、非常に明確になりまし...

マイクロソフトの深夜革命、GPT-4 Office フルパッケージが登場!月30ドルで10億人の労働者の雇用が奪われる?

6 か月の遅延の後、Microsoft Copilot ファミリー全体がついに登場しました。ちょう...

2020 年の人工知能におけるトップ 10 の技術進歩

[[373610]]編集者注: 2020年が過ぎようとしています。今年、人工知能の分野ではどんな大き...

推薦システムの主なアルゴリズムの概要とYoutubeのディープラーニング推薦アルゴリズムの例

協調フィルタリング協調フィルタリング (CF) とそのバリエーションは、最も一般的に使用される推奨ア...

生体認証:デジタル時代への突入

生体認証とは、ある人物の特定の生物学的特徴に基づいてその人物を識別する技術の使用を指します。テクノロ...

AIが物流業界に革命を起こす5つの方法

人工知能は物流業界に革命を起こす上で重要な役割を果たします。グローバル化により、あらゆるものがデジタ...

自動運転はどこまで徹底できるのか?運転席をなくすことさえできる。

Baiduの無人運転アプリケーションを見ました。私は車の所有者が自動で駐車するのを助けるアウディの...

人工知能1年後:パンデミックはテクノロジーの発展にどのような影響を与えたのでしょうか?

[[389010]]消費者の行動が変化し、企業の業務ニーズが変化するにつれて、人工知能は徐々に企業...

JD Digits の AI ロボットが物理産業に貢献し、業界賞を受賞

電気の「ジュージュー」という音が響くコンピューター室では、「スマートガーディアン」コンピューター室検...

2018年のAIトレンドはこちら

ビッグデータの計算分析は決して時代遅れではありません。それどころか、データ量が増え続けるにつれて、デ...

...

中国はビッグデータ、人工知能、遺伝子技術などに関する知的財産法制の整備を加速させる。

中国共産党中央委員会と国務院がこのほど発表した「知的財産強国建設要綱(2021~2035年)」では、...