転移学習の魔法:ディープラーニングは誰でも利用できるようになる

転移学習の魔法:ディープラーニングは誰でも利用できるようになる

1 年前、私は数人の友人と機械学習 API を構築するためのオープンソース プラットフォームである Cortex の開発を始めました。当初、私たちは、本番環境で機械学習 (ML) を使用しているすべての企業を含むすべてのユーザーが、成熟したデータ サイエンス チームを持つ大企業であると想定していました。

しかし、私たちはまったく間違っていました。

一年を通して、学生、独立したエンジニア、小規模なチームがモデルを生産段階に移行していく様子を見てきました。驚くべきことに、日常のアプリケーションで使用できる最先端の大規模なディープラーニング モデルを提供していることがよくあります。 2 人のメンバーからなるチームが最近、アプリケーションの同時ユーザー 10,000 人をサポートするために 500 GPU の推論クラスターを構築しました。

最近まで、大きな予算と大量のデータを持つ企業だけがこれを実現できました。今では、どのチームでもそれが可能になりました。この変化はさまざまな要因の組み合わせの結果ですが、重要な要素の 1 つは転移学習です。

転移学習とは何か

広義では、転移学習とは、あるタスク用にトレーニングされたディープ ニューラル ネットワークの知識を、関連するタスク用にトレーニングされた別のネットワークに「転移」する技術を指します。たとえば、転移学習を使用すると、物体検出に使用されるモデルを取得し、少量のデータを使用して「微調整」して、より具体的な物体を検出することができます。

これらの技術は、ディープ ニューラル ネットワークのアーキテクチャのおかげで機能します。ネットワークの下位層はより基本的な知識を担当し、タスク固有の知識は通常上位層にあります。


画像出典: スタンフォード

下位層をトレーニングした後、少量のデータで上位層を微調整できます。たとえば、オブジェクト検出モデル (YOLOv4 など) は、非常に小さなデータセットで特定のもの (ナンバープレートなど) を認識するように微調整できます。

ネットワーク間で知識を転送する手法はさまざまですが、プロセスを簡素化することを目的とした新しいプロジェクトが数多くあります。たとえば、gpt-2-simple ライブラリを使用すると、誰でも GPT-2 を微調整し、Python 関数を使用して予測を生成することができます: https://gist.github.com/caleb-kaiser/dd40d16647b1e4cda7545837ea961272。

転移学習が機械学習をどう拓くか

ほとんどのチームは、特定の種類の知識が不足しているために機械学習を使用できないわけではありません。画像分類器を構築する場合、使用できるよく知られたモデルが多数あり、最新のフレームワークを使用するとトレーニングが非常に簡単になります。ほとんどのチームにとって、機械学習はコストがかかることから現実的な選択肢とは考えられてきませんでした。

例として、OpenAI の (これまでのところ) 最高の言語モデルである GPT-2 を使用しましょう。

パブリック クラウドを使用する場合、GPT-2 のトレーニングだけで推定 4 万ドル以上のコストがかかります。この料金に加えて、GPT-2 のトレーニングには 40 GB のテキスト コンテンツも必要です (控えめに見積もっても 2,000 万ページ以上)。大量のテキストをキャプチャして整理すること自体が大規模なプロジェクトです。このため、ほとんどのチームは独自の GPT-2 をトレーニングすることができませんでした。

しかし、単に微調整したいだけの場合はどうすればよいでしょうか? 関連するプロジェクトを見てみましょう。

AI Dungeon は、以前のコマンド ゲーム ダンジョン クローラーのスタイルで、自分でアドベンチャーを選択するゲームです。プレイヤーはコマンドを入力してプレイし、ゲームはそれに応じて冒険を進めていきます。このアドベンチャー ゲームは、トレーニング済みの GPT-2 モデルによって作成されており、自分でアドベンチャーを選択するテキストを記述できます。

AI Dungeon は、独立系エンジニアの Nick Walton 氏によって開発されました。同氏は、gpt-2-simple と chooseyourstory.com Web サイトから抽出したテキストを使用して GPT を微調整しました。ウォルトン氏によると、GPT-2 を微調整するには 30MB のテキストと DGX-1 のトレーニングに約 12 時間かかり、コストは約 374.62 ドルだったが、結果として得られた製品は AWS の p3dn.24xlarge とほぼ同じだったという。

ほとんどのチームは、40,000 ドルのクラウド サービス料金と 40 GB のテキスト抽出に圧倒されるかもしれませんが、375 ドルと 30 MB であれば、小規模なチームでも問題にはなりません。

転移学習の応用分野は言語モデルを超えています。創薬においては、モデルをゼロからトレーニングするのに十分な疾患固有のデータが存在しないことがよくあります。 DeepScreening は、ユーザーが独自のデータベースをアップロードしてモデルを微調整し、そのプラットフォームを使用して反応する可能性のある化合物のライブラリをスクリーニングできるようにすることで、この問題に対処する無料のプラットフォームです。

[[333822]]
画像ソース: unsplash

このようなモデルをゼロからトレーニングすることはほとんどの研究者の能力を超えていましたが、転移学習のおかげで、突然誰もがそれを実行できるようになりました。

次世代のディープラーニングモデルは転移学習に依存している

強調しておかなければならない点が 1 つあります。これまで挙げた例は経済的利益に焦点を当てていますが、転移学習は小規模なチームが数字を補うために使用するツールではありません。規模に関係なく、すべてのチームが転移学習を使用してディープラーニング モデルをトレーニングしています。実際、新しくリリースされたモデルのいくつかは転移学習用に特別に設計されています。

GPT-2 が初めてリリースされたとき、その生のメモリのせいで話題になったことを思い出してください。それまで、15 億のパラメータを持つモデルなど聞いたこともありませんでした。しかし、1,750億のパラメータを持つGPT-3と比較すると見劣りします。

OpenAI を除けば、1750 億のパラメータを持つ言語モデルをトレーニングできる企業はほとんどありません。このような大規模なモデルを展開する場合でも、多くの問題が発生します。 OpenAI はオープンソースをリリースするという伝統を破り、事前トレーニング済みの新しいモデル バージョンを作成し、GPT-3 を API としてリリースしました。ユーザーは独自のデータを使用して GPT-3 を微調整できます。

言い換えれば、GPT-3 の規模の大きさにより、転移学習はもはや新しいタスクをトレーニングするための手頃な方法ではなく、唯一の実行可能なアプローチになっています。

転移学習を優先するアプローチがますます一般的になっています。 Google は、高度なコンピューター ビジョン モデルのオープン ソース リポジトリである Big Transfer をリリースしました。コンピューター ビジョン モデルは通常、言語モデルよりも小さいですが、追いつき始めています。1,400 万枚の画像でトレーニングされた事前トレーニング済みの ResNet-152x4 は 4.1 GB を占めます。

名前が示すように、Big Transfer はこれらのモデルによる転移学習の使用を促進することを目的としています。リポジトリの一部として、Google は各モデルを簡単に微調整できるコードも提供しています。次の図に示すように、モデルの容量は時間の経過とともに増加します (GPT-3 ではグラフのサイズが 10 倍に増加します)。


画像出典: Microsoft

この傾向が続くと(そして、それが続かないという兆候はありません)、転移学習はチームが最先端のディープラーニングを使用する主な方法になるでしょう。

モデルが大きくなるにつれて、転移学習によってすべてのチームがモデルにアクセスできるようになり、生産される大規模なディープラーニング モデルの数は急増しました。これらのモデルのトレーニングは困難です。推論には大量のスペースとメモリが必要であり、一度に複数のリクエストを処理できないことがよくあります。

[[333824]]
画像ソース: unsplash

これらのモデル向けに Cortex にはすでにいくつかの主要な機能 (GPU/ASIC 推論、リクエストベースのエラスティック スケーリング、スポット インスタンスのサポート) が導入されており、モデルの拡張に合わせて新しい機能を追加し続けます。

しかし、世界中のすべてのエンジニアが最先端のディープラーニングを使用して問題を解決できるようになる可能性と比較すると、インフラストラクチャの課題は取るに足らないものです。ディープラーニングは今や誰でも利用できるようになりました。

<<:  あなたの顔、5セント

>>:  清華大学と北京大学がケンブリッジ大学を上回り、Googleがリストを独占、百度が中国企業をリード、ICML2020ランキングが発表

ブログ    
ブログ    

推薦する

人工知能時代のデータストレージの未来

2024 年は、テクノロジーとデータの状況に大きな変化が起こる年になると予想されています。生成 AI...

...

とても怖い!最初のAIはすでに詐欺行為を行っている

​​ [[250441]]​​この記事はGeek View (ID: geekview) の許可を得...

6つの興味深い画像グレースケール変換アルゴリズム

[楊静卓のブログより引用]序文白黒写真の時代は過ぎ去りましたが、今、昔の写真を見ると、昔に戻ったよう...

2024年のビッグデータ産業予測(I)

分析するオムニチャネルコマースが拡大するにつれ、広告分析の世界は劇的な変化を遂げるでしょう。オンライ...

知能ロボット連携システムとその主要技術

ロボットの知能化に向けた開発において、マルチロボット協働システムは包括的な技術統合プラットフォームで...

...

...

...

「人工知能+学習」は教育をより良くするのでしょうか?

「教育は死んだが、学習は不滅である。」半世紀前、アメリカの教育思想家イリイチは著書『脱学校社会』の...

小売業界のトレンド: 人工知能からクーポンコードまで

[[436501]]機械学習と人工知能 (AI) の登場により、企業のビジネスのやり方は大きく変化し...

独自の大規模言語モデルを展開する 5 つの方法

これは歴史上最も急速に成長している新技術です。生成 AI は世界を変え、画像、ビデオ、オーディオ、テ...

この論文では、688件の大規模モデル論文を分析し、LLMの現在の課題と応用について検討する。

まったく知られていなかった状態から誰もが話題にする状態へと、大規模言語モデル (LLM) の状況はこ...

IDC: アジア太平洋地域のAI支出は大幅に増加、銀行業界がAIに最も投資

IDC の最新の世界人工知能支出ガイドによると、アジア太平洋地域 (日本を除く) の AI システム...