転移学習の魔法:ディープラーニングは誰でも利用できるようになる

転移学習の魔法:ディープラーニングは誰でも利用できるようになる

1 年前、私は数人の友人と機械学習 API を構築するためのオープンソース プラットフォームである Cortex の開発を始めました。当初、私たちは、本番環境で機械学習 (ML) を使用しているすべての企業を含むすべてのユーザーが、成熟したデータ サイエンス チームを持つ大企業であると想定していました。

しかし、私たちはまったく間違っていました。

一年を通して、学生、独立したエンジニア、小規模なチームがモデルを生産段階に移行していく様子を見てきました。驚くべきことに、日常のアプリケーションで使用できる最先端の大規模なディープラーニング モデルを提供していることがよくあります。 2 人のメンバーからなるチームが最近、アプリケーションの同時ユーザー 10,000 人をサポートするために 500 GPU の推論クラスターを構築しました。

最近まで、大きな予算と大量のデータを持つ企業だけがこれを実現できました。今では、どのチームでもそれが可能になりました。この変化はさまざまな要因の組み合わせの結果ですが、重要な要素の 1 つは転移学習です。

転移学習とは何か

広義では、転移学習とは、あるタスク用にトレーニングされたディープ ニューラル ネットワークの知識を、関連するタスク用にトレーニングされた別のネットワークに「転移」する技術を指します。たとえば、転移学習を使用すると、物体検出に使用されるモデルを取得し、少量のデータを使用して「微調整」して、より具体的な物体を検出することができます。

これらの技術は、ディープ ニューラル ネットワークのアーキテクチャのおかげで機能します。ネットワークの下位層はより基本的な知識を担当し、タスク固有の知識は通常上位層にあります。


画像出典: スタンフォード

下位層をトレーニングした後、少量のデータで上位層を微調整できます。たとえば、オブジェクト検出モデル (YOLOv4 など) は、非常に小さなデータセットで特定のもの (ナンバープレートなど) を認識するように微調整できます。

ネットワーク間で知識を転送する手法はさまざまですが、プロセスを簡素化することを目的とした新しいプロジェクトが数多くあります。たとえば、gpt-2-simple ライブラリを使用すると、誰でも GPT-2 を微調整し、Python 関数を使用して予測を生成することができます: https://gist.github.com/caleb-kaiser/dd40d16647b1e4cda7545837ea961272。

転移学習が機械学習をどう拓くか

ほとんどのチームは、特定の種類の知識が不足しているために機械学習を使用できないわけではありません。画像分類器を構築する場合、使用できるよく知られたモデルが多数あり、最新のフレームワークを使用するとトレーニングが非常に簡単になります。ほとんどのチームにとって、機械学習はコストがかかることから現実的な選択肢とは考えられてきませんでした。

例として、OpenAI の (これまでのところ) 最高の言語モデルである GPT-2 を使用しましょう。

パブリック クラウドを使用する場合、GPT-2 のトレーニングだけで推定 4 万ドル以上のコストがかかります。この料金に加えて、GPT-2 のトレーニングには 40 GB のテキスト コンテンツも必要です (控えめに見積もっても 2,000 万ページ以上)。大量のテキストをキャプチャして整理すること自体が大規模なプロジェクトです。このため、ほとんどのチームは独自の GPT-2 をトレーニングすることができませんでした。

しかし、単に微調整したいだけの場合はどうすればよいでしょうか? 関連するプロジェクトを見てみましょう。

AI Dungeon は、以前のコマンド ゲーム ダンジョン クローラーのスタイルで、自分でアドベンチャーを選択するゲームです。プレイヤーはコマンドを入力してプレイし、ゲームはそれに応じて冒険を進めていきます。このアドベンチャー ゲームは、トレーニング済みの GPT-2 モデルによって作成されており、自分でアドベンチャーを選択するテキストを記述できます。

AI Dungeon は、独立系エンジニアの Nick Walton 氏によって開発されました。同氏は、gpt-2-simple と chooseyourstory.com Web サイトから抽出したテキストを使用して GPT を微調整しました。ウォルトン氏によると、GPT-2 を微調整するには 30MB のテキストと DGX-1 のトレーニングに約 12 時間かかり、コストは約 374.62 ドルだったが、結果として得られた製品は AWS の p3dn.24xlarge とほぼ同じだったという。

ほとんどのチームは、40,000 ドルのクラウド サービス料金と 40 GB のテキスト抽出に圧倒されるかもしれませんが、375 ドルと 30 MB であれば、小規模なチームでも問題にはなりません。

転移学習の応用分野は言語モデルを超えています。創薬においては、モデルをゼロからトレーニングするのに十分な疾患固有のデータが存在しないことがよくあります。 DeepScreening は、ユーザーが独自のデータベースをアップロードしてモデルを微調整し、そのプラットフォームを使用して反応する可能性のある化合物のライブラリをスクリーニングできるようにすることで、この問題に対処する無料のプラットフォームです。

[[333822]]
画像ソース: unsplash

このようなモデルをゼロからトレーニングすることはほとんどの研究者の能力を超えていましたが、転移学習のおかげで、突然誰もがそれを実行できるようになりました。

次世代のディープラーニングモデルは転移学習に依存している

強調しておかなければならない点が 1 つあります。これまで挙げた例は経済的利益に焦点を当てていますが、転移学習は小規模なチームが数字を補うために使用するツールではありません。規模に関係なく、すべてのチームが転移学習を使用してディープラーニング モデルをトレーニングしています。実際、新しくリリースされたモデルのいくつかは転移学習用に特別に設計されています。

GPT-2 が初めてリリースされたとき、その生のメモリのせいで話題になったことを思い出してください。それまで、15 億のパラメータを持つモデルなど聞いたこともありませんでした。しかし、1,750億のパラメータを持つGPT-3と比較すると見劣りします。

OpenAI を除けば、1750 億のパラメータを持つ言語モデルをトレーニングできる企業はほとんどありません。このような大規模なモデルを展開する場合でも、多くの問題が発生します。 OpenAI はオープンソースをリリースするという伝統を破り、事前トレーニング済みの新しいモデル バージョンを作成し、GPT-3 を API としてリリースしました。ユーザーは独自のデータを使用して GPT-3 を微調整できます。

言い換えれば、GPT-3 の規模の大きさにより、転移学習はもはや新しいタスクをトレーニングするための手頃な方法ではなく、唯一の実行可能なアプローチになっています。

転移学習を優先するアプローチがますます一般的になっています。 Google は、高度なコンピューター ビジョン モデルのオープン ソース リポジトリである Big Transfer をリリースしました。コンピューター ビジョン モデルは通常、言語モデルよりも小さいですが、追いつき始めています。1,400 万枚の画像でトレーニングされた事前トレーニング済みの ResNet-152x4 は 4.1 GB を占めます。

名前が示すように、Big Transfer はこれらのモデルによる転移学習の使用を促進することを目的としています。リポジトリの一部として、Google は各モデルを簡単に微調整できるコードも提供しています。次の図に示すように、モデルの容量は時間の経過とともに増加します (GPT-3 ではグラフのサイズが 10 倍に増加します)。


画像出典: Microsoft

この傾向が続くと(そして、それが続かないという兆候はありません)、転移学習はチームが最先端のディープラーニングを使用する主な方法になるでしょう。

モデルが大きくなるにつれて、転移学習によってすべてのチームがモデルにアクセスできるようになり、生産される大規模なディープラーニング モデルの数は急増しました。これらのモデルのトレーニングは困難です。推論には大量のスペースとメモリが必要であり、一度に複数のリクエストを処理できないことがよくあります。

[[333824]]
画像ソース: unsplash

これらのモデル向けに Cortex にはすでにいくつかの主要な機能 (GPU/ASIC 推論、リクエストベースのエラスティック スケーリング、スポット インスタンスのサポート) が導入されており、モデルの拡張に合わせて新しい機能を追加し続けます。

しかし、世界中のすべてのエンジニアが最先端のディープラーニングを使用して問題を解決できるようになる可能性と比較すると、インフラストラクチャの課題は取るに足らないものです。ディープラーニングは今や誰でも利用できるようになりました。

<<:  あなたの顔、5セント

>>:  清華大学と北京大学がケンブリッジ大学を上回り、Googleがリストを独占、百度が中国企業をリード、ICML2020ランキングが発表

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

一般的なモデル統合手法の紹介: バギング、ブースティング、スタッキング

この記事では、ブートストラップ、バギング、ランダム フォレスト、ブースティング、スタッキング、その他...

機械学習アルゴリズムの実践 - Platt SMO と遺伝的アルゴリズム最適化 SVM

[[206589]]序文以前、SVMの双対問題を最適化するために、単純なSMOアルゴリズムを実装し...

人工知能の時代は私たちの生活にどのような影響を与えるのでしょうか?

これは視覚障害者向けに設計された特別な人工知能メガネです。このメガネを通して、視覚障害者は再びこの色...

人工知能は現代のテクノロジー業界をさまざまな形で変えている

AIは現代のビジネスとテクノロジーのエコシステムをさまざまな形で大きく変えてきました。過去数年間に...

Google の研究者が発狂: AI に人格があると信じ、有給休暇を取得し、チャットログが恐ろしい

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

中国の顔認識技術が世界を震撼させている! (顔認証調査報告書を添付します)

顔認識は皆さんもよくご存知だと思います。過去2年間、顔認識技術の急速な発展に伴い、「顔スキャン」は徐...

機械学習を使用して、GPU と TPU で高速化できる O(N) 複雑度のソート アルゴリズムを構築します。

[[238409]]ソートは、コンピュータ サイエンスにおいて常に最も基本的なアルゴリズムの 1 ...

たった今、アリババが重大な技術的爆弾を発表しました!

人類史上のスーパープロジェクトとは何でしょうか?ピラミッド、万里の長城、ドバイワールドアイランド、三...

2023年に出現するサイバー脅威、AI、量子コンピューティング、データ汚染まで

ハッカーや詐欺師が新しいテクノロジーを入手したり、古い脆弱性を悪用する新しい方法を考え出したりするに...

金融ロボットの解読:毒ではなくアシスタント

[[231414]]会計、税務、監査などの業務でロボットが人間に取って代わったらどうなるか想像してみ...

...

AIGCは単なるコード支援ではありません

生成型人工知能 (AIGC) は、ソフトウェア開発者の生産性を向上させる大きな可能性を秘めています。...

...

...