AI 転移学習はどのように機能しますか? AI モデルとトレーニング プロセスでどのような役割を果たすのでしょうか?

AI 転移学習はどのように機能しますか? AI モデルとトレーニング プロセスでどのような役割を果たすのでしょうか?

今日、AI プログラムは、写真やビデオ内の顔や物体を認識し、音声をリアルタイムで書き起こし、X 線スキャンで何年も前に癌を検出し、最も複雑なゲームのいくつかで人間と競争することができます。

[[334758]]

数年前まで、これらの課題はすべて克服不可能で何十年も先のことと考えられていたか、あるいは最適とは言えない結果で対処されていました。しかし、ここ数年で非常に人気が高まった人工知能の一分野であるニューラルネットワークとディープラーニングの進歩により、コンピューターはこれらの問題や他の多くの複雑な問題を解決できるようになりました。

残念ながら、ディープラーニング モデルをゼロから作成する場合、大量のデータとコンピューティング リソースにアクセスする必要があります。これは多くの人が買えない贅沢品です。さらに、タスクを実行するためのディープラーニング モデルのトレーニングには長い時間がかかるため、時間的予算が限られているユースケースには適していません。幸いなことに、あるトレーニング済みの AI モデルから得られた知識を別の AI モデルに適用する転移学習は、これらの問題の解決に役立ちます。

ディープラーニングモデルのトレーニングコスト

ディープラーニングは、トレーニング例を通じて AI を開発する科学である機械学習のサブセットです。しかし近年まで、その非効率性ゆえに AI コミュニティからはほとんど無視されてきました。過去数年間、大量のデータとコンピューティング リソースが利用できるようになったことで、ニューラル ネットワークが注目を集め、現実世界の問題を解決できるディープラーニング アルゴリズムの開発が可能になりました。

ディープラーニング モデルをトレーニングするには、基本的に、ニューラル ネットワークに大量の注釈付きサンプルを提供する必要があります。これらの例としては、ラベルの付いたオブジェクトを含む画像や、患者のマンモグラムスキャンとその最終結果などが挙げられます。ニューラル ネットワークは、画像を慎重に分析および比較し、類似したカテゴリの画像間の繰り返しパターンを表す数学モデルを開発します。

ImageNet (22,000 のカテゴリに分類された 1,400 万を超える画像のデータベース) や MNIST (60,000 の手書き数字のデータセット) など、すでにいくつかの大規模なオープンソース データセットが存在します。 AI エンジニアはこれらのリソースを使用してディープラーニング モデルをトレーニングできます。

ただし、ディープラーニング モデルのトレーニングには、非常に強力なコンピューティング リソースへのアクセスも必要です。開発者は通常、CPU、GPU クラスター、または Google の Tensor Processing Unit (TPU) などの特殊なハードウェアを使用して、ニューラル ネットワークを効率的にトレーニングします。このようなリソースを購入またはレンタルするコストは、単独の開発者または小規模な組織の予算を超える可能性があります。さらに、多くの問題では、強力な AI モデルをトレーニングするのに十分な例がありません。

転移学習により、ディープラーニングのトレーニングの負担が大幅に軽減される

AI エンジニアが特定の問題を解決するために画像分類ニューラル ネットワークを作成したいとします。エンジニアは、何千枚もの画像を収集する代わりに、ImageNet などの公開データセットを使用し、ドメイン固有の写真でそれらを強化することができます。

しかし、AIエンジニアは、ニューラルネットワークを通じて何百万もの画像を実行するために必要なコンピューティングリソースを借りるために依然として高額な料金を支払わなければなりません。ここで転移学習が役立ちます。転移学習とは、以前にトレーニングされたニューラル ネットワークを微調整して新しい AI モデルを作成するプロセスです。

開発者は、ニューラル ネットワークを最初からトレーニングする代わりに、事前にトレーニングされたオープン ソースのディープラーニング モデルをダウンロードし、独自の目的に合わせて微調整することができます。事前にトレーニングされたベースモデルが多数用意されており、その中から選択できます。一般的な例としては、AlexNet、Google の Inception-v3、Microsoft の ResNet-50 などがあります。これらのニューラル ネットワークは、ImageNet データセットでトレーニングされています。 AI エンジニアは、独自のドメイン固有の例を使用して AI をさらにトレーニングすることで AI を強化するだけで済みます。

転移学習には大規模なコンピューティング リソースは必要ありません。ほとんどの場合、デスクトップ コンピューターまたはラップトップ コンピューターでは、事前トレーニング済みのニューラル ネットワークを数時間以内で微調整できます。

転移学習の仕組み

興味深いことに、ニューラル ネットワークは階層的に動作を展開します。各ニューラル ネットワークは複数のレイヤーで構成されています。トレーニング後、各レイヤーは入力データ内の特定の特徴を検出するように調整されます。

たとえば、画像分類器の畳み込みネットワークでは、最初の数層でエッジ、コーナー、円、色の塊などの一般的な特徴を検出します。ネットワークの奥深くに進むにつれて、レイヤーは目、顔、完全なオブジェクトなど、より具体的なものを検出し始めます。

ニューラル ネットワークの最上層は一般的な特徴を検出します。より深い層では実際のオブジェクトを検出します (出典: arxiv.org)

転移学習を実行する際、AI エンジニアは事前トレーニング済みのニューラル ネットワークの最初のレイヤーを固定します。これらは、すべてのドメインに共通する一般的な機能を検出するレイヤーです。次に、独自の例を使用してより深いレイヤーを微調整し、新しいレイヤーを追加して、トレーニング データセットに含まれる新しいカテゴリを分類します。

事前トレーニング済みおよび微調整済みの AI モデルは、それぞれ「教師」モデルと「生徒」モデルとも呼ばれます。

固定および微調整されたレイヤーの数は、ソース AI モデルとターゲット AI モデル間の類似性によって異なります。生徒の AI モデルが教師のモデルに非常に近い問題を解く場合、事前トレーニング済みモデルの個々のレイヤーを微調整する必要はありません。開発者は、ネットワークの最後に新しいレイヤーを追加し、新しいカテゴリの AI をトレーニングするだけです。これを「ディープ特徴抽出」と呼びます。ターゲットドメインのトレーニングデータが不足している場合にも、ディープ特徴抽出が適しています。

ソースと宛先の間に大きな相違がある場合、またはトレーニング例が多数ある場合、開発者は事前トレーニング済みの AI モデル内のいくつかのレイヤーを固定します。次に、新しい分類レイヤーを追加し、新しい例を使用して凍結解除レイヤーを微調整します。これは「中間レベルの特徴抽出」と呼ばれます。

ソース AI モデルとターゲット AI モデルの間に大きな違いがある場合、開発者はニューラル ネットワーク全体を解凍して再トレーニングします。 「フルモデル微調整」と呼ばれるこのタイプの転移学習にも、大量のトレーニング例が必要です。

画像提供: シカゴ大学

事前にトレーニングされたモデルを取得して、そのすべてのレイヤーを再トレーニングするのはばかげているように思えます。しかし、実際には、時間とコンピューティング リソースを節約できます。トレーニングの前に、ニューラル ネットワーク内の変数は乱数で初期化され、トレーニング データが処理されるにつれてその値が調整されます。事前トレーニング済みのニューラル ネットワークの変数値は、何百万ものトレーニング例に合わせて調整されています。したがって、ソース AI モデルに少しでも類似した新しい例のセットでトレーニングする新しい AI モデルにとっては、より良い出発点となります。

転移学習は万能薬ではない

転移学習は、AI モデルのトレーニングに関する多くの問題を効率的かつ手頃な方法で解決します。ただし、トレードオフも伴います。事前トレーニング済みのニューラル ネットワークにセキュリティ上の脆弱性がある場合、AI モデルはそれを転移学習の基礎として使用し、それらの脆弱性を継承します。

たとえば、ベースモデルは、敵対的攻撃や、AI の動作を不規則に変更させるように巧妙に作成された入力例の影響を受けない可能性があります。悪意のある攻撃者がベースモデルに対する敵対的サンプルを開発できた場合、その攻撃はそこから派生したほとんどの AI モデルに対して有効になります。シカゴ大学、カリフォルニア大学サンタクララ校、バージニア工科大学の研究者らは、昨年のUsenixセキュリティシンポジウムで発表した論文でこれについて説明した。

さらに、AIにゲームのプレイ方法を教えるといった一部の分野では、転移学習の使用は非常に限られています。これらの AI モデルは、計算集約的で多くの試行錯誤を必要とする AI の分野である強化学習を使用してトレーニングされました。強化学習では、ほとんどの新しい問題は固有のものであり、独自の解決が必要です。

しかし、要約すると、ほとんどのディープラーニング アプリケーション (画像分類や自然言語処理など) では、巧妙な転移学習をうまく活用できる可能性が高くなります。

<<:  Microsoft Megvii の顔認識は 100% 動作不能! 写真の「見えないマント」で写真のプライバシー データを保護

>>:  自然言語処理はビジネスに革命をもたらす

ブログ    
ブログ    
ブログ    

推薦する

調査と市場:2025年までに世界のヘルスケア人工知能市場は272億ドルに達する

市場調査会社リサーチ・アンド・マーケッツが最近発表したレポートによると、人工知能の世界のヘルスケア市...

「Nvidia人工呼吸器」オープンソース:コンピュータアーキテクチャのマスターによって構築され、コストが98%削減され、黄仁訓が賞賛

この人工呼吸器は、コンピューターアーキテクチャの巨匠ビル・ダリー氏によって設計されました。コンピュー...

女性用メイクアップムスク!超楽しいモデルStyleCLIPがオープンソースになりました。急いで自分の顔を変えてみましょう

[[421561]]マスク氏は科学研究に本当に多大な貢献をしてきました!最近、イスラエルの研究者が新...

...

グーグルは、人工知能の進歩により飛行機による地球温暖化への影響を大幅に軽減できると主張

グーグルは8月14日、飛行機による気候への影響を大幅に軽減できる人工知能の分野で大きな進歩を遂げたと...

ノキア、ネットワーク自動化におけるAI推進のためドバイに「イノベーションラボ」を開設すると発表

9月26日、海外メディアETテレコムによると、ノキアは中東とアフリカでの技術革新を促進し、ネットワー...

...

スマート製造を活用して持続可能な工場フロアを構築するにはどうすればよいでしょうか?

自動車メーカーは、施設を近代化し、事業運営をより持続可能にするために、スマート製造戦略を採用していま...

...

携帯電話は小型ロボットに置き換えられるのでしょうか?中国工程院院士:人工知能技術のブレークスルーが鍵

[[361089]] 「ロボットは製造業の頂点であり、その応用と製造は国のハイエンド製造業の重要な指...

機械学習 | PyTorch 簡潔チュートリアル パート 1

前回の記事では、特徴の正規化とテンソルを紹介しました。次は、主にシンプルな PyTorch の実践を...

OT システムは、生成 AI によってもたらされるセキュリティ上の課題にどのように対処するのでしょうか?

現在、ほとんどのサイバー攻撃では、データの流出とデータの暗号化という 2 つの主な方法が使用されてい...

Linux サーバー管理のヒント: 効率とセキュリティを向上させる

Linux サーバー管理は、サーバーの安全、安定、効率的な運用を確保するための重要なタスクです。以下...

...

Web アプリケーション向けビジネス チャットボット 12 選

[[315528]] [51CTO.com クイック翻訳] ビジネスの発展を推進するために、AI(人...