転移学習の魔法:ディープラーニングは誰でも利用できるようになる

転移学習の魔法:ディープラーニングは誰でも利用できるようになる

1 年前、私は数人の友人と機械学習 API を構築するためのオープンソース プラットフォームである Cortex の開発を始めました。当初、私たちは、本番環境で機械学習 (ML) を使用しているすべての企業を含むすべてのユーザーが、成熟したデータ サイエンス チームを持つ大企業であると想定していました。

しかし、私たちはまったく間違っていました。

一年を通して、学生、独立したエンジニア、小規模なチームがモデルを生産段階に移行していく様子を見てきました。驚くべきことに、日常のアプリケーションで使用できる最先端の大規模なディープラーニング モデルを提供していることがよくあります。 2 人のメンバーからなるチームが最近、アプリケーションの同時ユーザー 10,000 人をサポートするために 500 GPU の推論クラスターを構築しました。

最近まで、大きな予算と大量のデータを持つ企業だけがこれを実現できました。今では、どのチームでもそれが可能になりました。この変化はさまざまな要因の組み合わせの結果ですが、重要な要素の 1 つは転移学習です。

転移学習とは何か

広義では、転移学習とは、あるタスク用にトレーニングされたディープ ニューラル ネットワークの知識を、関連するタスク用にトレーニングされた別のネットワークに「転移」する技術を指します。たとえば、転移学習を使用すると、物体検出に使用されるモデルを取得し、少量のデータを使用して「微調整」して、より具体的な物体を検出することができます。

これらの技術は、ディープ ニューラル ネットワークのアーキテクチャのおかげで機能します。ネットワークの下位層はより基本的な知識を担当し、タスク固有の知識は通常上位層にあります。


画像出典: スタンフォード

下位層をトレーニングした後、少量のデータで上位層を微調整できます。たとえば、オブジェクト検出モデル (YOLOv4 など) は、非常に小さなデータセットで特定のもの (ナンバープレートなど) を認識するように微調整できます。

ネットワーク間で知識を転送する手法はさまざまですが、プロセスを簡素化することを目的とした新しいプロジェクトが数多くあります。たとえば、gpt-2-simple ライブラリを使用すると、誰でも GPT-2 を微調整し、Python 関数を使用して予測を生成することができます: https://gist.github.com/caleb-kaiser/dd40d16647b1e4cda7545837ea961272。

転移学習が機械学習をどう拓くか

ほとんどのチームは、特定の種類の知識が不足しているために機械学習を使用できないわけではありません。画像分類器を構築する場合、使用できるよく知られたモデルが多数あり、最新のフレームワークを使用するとトレーニングが非常に簡単になります。ほとんどのチームにとって、機械学習はコストがかかることから現実的な選択肢とは考えられてきませんでした。

例として、OpenAI の (これまでのところ) 最高の言語モデルである GPT-2 を使用しましょう。

パブリック クラウドを使用する場合、GPT-2 のトレーニングだけで推定 4 万ドル以上のコストがかかります。この料金に加えて、GPT-2 のトレーニングには 40 GB のテキスト コンテンツも必要です (控えめに見積もっても 2,000 万ページ以上)。大量のテキストをキャプチャして整理すること自体が大規模なプロジェクトです。このため、ほとんどのチームは独自の GPT-2 をトレーニングすることができませんでした。

しかし、単に微調整したいだけの場合はどうすればよいでしょうか? 関連するプロジェクトを見てみましょう。

AI Dungeon は、以前のコマンド ゲーム ダンジョン クローラーのスタイルで、自分でアドベンチャーを選択するゲームです。プレイヤーはコマンドを入力してプレイし、ゲームはそれに応じて冒険を進めていきます。このアドベンチャー ゲームは、トレーニング済みの GPT-2 モデルによって作成されており、自分でアドベンチャーを選択するテキストを記述できます。

AI Dungeon は、独立系エンジニアの Nick Walton 氏によって開発されました。同氏は、gpt-2-simple と chooseyourstory.com Web サイトから抽出したテキストを使用して GPT を微調整しました。ウォルトン氏によると、GPT-2 を微調整するには 30MB のテキストと DGX-1 のトレーニングに約 12 時間かかり、コストは約 374.62 ドルだったが、結果として得られた製品は AWS の p3dn.24xlarge とほぼ同じだったという。

ほとんどのチームは、40,000 ドルのクラウド サービス料金と 40 GB のテキスト抽出に圧倒されるかもしれませんが、375 ドルと 30 MB であれば、小規模なチームでも問題にはなりません。

転移学習の応用分野は言語モデルを超えています。創薬においては、モデルをゼロからトレーニングするのに十分な疾患固有のデータが存在しないことがよくあります。 DeepScreening は、ユーザーが独自のデータベースをアップロードしてモデルを微調整し、そのプラットフォームを使用して反応する可能性のある化合物のライブラリをスクリーニングできるようにすることで、この問題に対処する無料のプラットフォームです。

[[333822]]
画像ソース: unsplash

このようなモデルをゼロからトレーニングすることはほとんどの研究者の能力を超えていましたが、転移学習のおかげで、突然誰もがそれを実行できるようになりました。

次世代のディープラーニングモデルは転移学習に依存している

強調しておかなければならない点が 1 つあります。これまで挙げた例は経済的利益に焦点を当てていますが、転移学習は小規模なチームが数字を補うために使用するツールではありません。規模に関係なく、すべてのチームが転移学習を使用してディープラーニング モデルをトレーニングしています。実際、新しくリリースされたモデルのいくつかは転移学習用に特別に設計されています。

GPT-2 が初めてリリースされたとき、その生のメモリのせいで話題になったことを思い出してください。それまで、15 億のパラメータを持つモデルなど聞いたこともありませんでした。しかし、1,750億のパラメータを持つGPT-3と比較すると見劣りします。

OpenAI を除けば、1750 億のパラメータを持つ言語モデルをトレーニングできる企業はほとんどありません。このような大規模なモデルを展開する場合でも、多くの問題が発生します。 OpenAI はオープンソースをリリースするという伝統を破り、事前トレーニング済みの新しいモデル バージョンを作成し、GPT-3 を API としてリリースしました。ユーザーは独自のデータを使用して GPT-3 を微調整できます。

言い換えれば、GPT-3 の規模の大きさにより、転移学習はもはや新しいタスクをトレーニングするための手頃な方法ではなく、唯一の実行可能なアプローチになっています。

転移学習を優先するアプローチがますます一般的になっています。 Google は、高度なコンピューター ビジョン モデルのオープン ソース リポジトリである Big Transfer をリリースしました。コンピューター ビジョン モデルは通常、言語モデルよりも小さいですが、追いつき始めています。1,400 万枚の画像でトレーニングされた事前トレーニング済みの ResNet-152x4 は 4.1 GB を占めます。

名前が示すように、Big Transfer はこれらのモデルによる転移学習の使用を促進することを目的としています。リポジトリの一部として、Google は各モデルを簡単に微調整できるコードも提供しています。次の図に示すように、モデルの容量は時間の経過とともに増加します (GPT-3 ではグラフのサイズが 10 倍に増加します)。


画像出典: Microsoft

この傾向が続くと(そして、それが続かないという兆候はありません)、転移学習はチームが最先端のディープラーニングを使用する主な方法になるでしょう。

モデルが大きくなるにつれて、転移学習によってすべてのチームがモデルにアクセスできるようになり、生産される大規模なディープラーニング モデルの数は急増しました。これらのモデルのトレーニングは困難です。推論には大量のスペースとメモリが必要であり、一度に複数のリクエストを処理できないことがよくあります。

[[333824]]
画像ソース: unsplash

これらのモデル向けに Cortex にはすでにいくつかの主要な機能 (GPU/ASIC 推論、リクエストベースのエラスティック スケーリング、スポット インスタンスのサポート) が導入されており、モデルの拡張に合わせて新しい機能を追加し続けます。

しかし、世界中のすべてのエンジニアが最先端のディープラーニングを使用して問題を解決できるようになる可能性と比較すると、インフラストラクチャの課題は取るに足らないものです。ディープラーニングは今や誰でも利用できるようになりました。

<<:  あなたの顔、5セント

>>:  清華大学と北京大学がケンブリッジ大学を上回り、Googleがリストを独占、百度が中国企業をリード、ICML2020ランキングが発表

ブログ    
ブログ    

推薦する

PyTorch がなぜ人気があるのでしょうか?創業者スーミスが成長の秘訣を語る

PyTorch は、ディープラーニング分野で最も人気のあるフレームワークの 1 つです。最初のバージ...

ヴィンセントの画像プロンプトはもう退屈でも長くもありません! LLM強化拡散モデル、簡単な文章で高品質の画像を生成できる

拡散モデルは、テキストプロンプトのガイダンスに基づいて高品質でコンテンツが豊富な画像を生成できる、主...

Deep MedicalがRSNA 2020に参加、AIによる高速イメージングが新たなホットスポットに

2020年12月4日、7日間にわたる北米放射線学会第106回年次総会(RSNA 2020)が正式に閉...

ソフトマックスを放棄した初の大規模線形アテンショントランスフォーマーモデル: 1750億のパラメータ、より優れた速度と精度

最近、上海人工知能研究所とOpenNLPLabの研究チームが、ソフトマックスベースの注意メカニズムを...

ガートナーは、信頼、成長、変化を通じてイノベーションを推進する新興テクノロジーをリストアップ

[[419256]] [51CTO.com クイック翻訳]信頼の設計、成長の加速、変化の形成は、ガー...

2022年のスマート製造のトレンド

製造業は過去 1 世紀にわたって大きく変化しました。 新しい高度なテクノロジーが業界を前進させるにつ...

AIがハッカー攻撃を防ぐ方法

ビジネス ワークフローに AI ツールを導入すると、ハッカーにとってより価値が高く、防御が困難になる...

2021年のAIに関する10の大胆な予測

2020年は忘れられない年です。今年に入って、新型コロナウイルスの感染拡大に伴い、人工知能(AI)が...

ハッカーがAIとMLを駆使して企業を狙う方法

サイバーセキュリティは AI と ML の進歩の恩恵を受けています。今日のセキュリティ チームは、疑...

ロボットを活用する3つの革新的な方法

[[412609]]画像ソース: https://pixabay.com/images/id-648...

...

将来ロボットは人間の皮膚を持つようになるかもしれないが、その外見はかなり恐ろしい

ロボットは科学者の主な研究分野となっており、この分野の技術が進歩し続けると、ロボットがこの社会の主な...

天一雲が大規模言語モデル微調整データコンテストで優勝しました!

最近、天地FT-Data Rankerコンテストが終了し、天一クラウドインテリジェントエッジビジネス...

...

人工知能は気候変動の転換点を明らかにするかもしれない

ウォータールー大学の応用数学教授であるクリス・バウチ氏は、新しいディープラーニングアルゴリズムの結果...