ビッグモデルの時代、周志華教授の「ラーニングウェア」の考え方を分析：小さなモデルでも大きなことができる

ビッグモデルの時代に入りつつあることは間違いありません。オープンソースやクローズドソースのさまざまなビッグモデルが次々と登場し、次々とアプリケーションを解決し、ギャップを埋めています。そしてそれ以前にも、すでに「十分に良い」小型モデルは数多く存在していました。そのため、ユーザーにとって適切なモデルを見つけることが難しくなります。

2016年に南京大学の周志華教授が提唱したラーニングウェアのアイデアは、この問題の解決策となるかもしれない。「モデル＋プロトコル」による学習ソフトウェア市場を構築することで、ユーザーのモデル選択はアプリストアからソフトウェアをダウンロードするのと同じくらい簡単になり、データのプライバシーなど多くの問題も回避できるようになると期待されています。

最近、周志華氏のチームは「ラーニングウェア」に関する新しい論文を更新し、この考えをさらに深めました。

写真

論文リンク: https://arxiv.org/abs/2210.03647

一般的に、コンピューターはハードウェアとソフトウェアで構成されています。テクノロジーの発展に伴い、ハードウェアとソフトウェアは急速に進化し、コンピューターに「機械学習」と呼ばれる機能も備わっています。この機能により、コンピューターは高速ハードウェアと高度なソフトウェアを使用して、大量のデータに隠されたパターンを効率的に発見できるようになり、世界の仕組みを「学習」して実用的なタスクを完了できるようになります。

近年、機械学習は破壊的な画像生成AIや大規模言語モデルなど、世界を変えるような成果を数多く達成しています。現在、市場には、商業企業が提供する使いやすい製品、研究チームによってリリースされたオープンソースモデル、さまざまな開発者やユーザーがさまざまなタスク要件に合わせて最適化した専用モデルなど、多くの機械学習モデルが存在します。

この複雑なモデルエコシステムは、ユーザーを混乱させています。タスクがあり、それを解決するために機械学習モデルを使用したいが、AI の専門家ではない場合、適切なモデルをどのように選択すればよいのでしょうか。

実際、この問題は、一般ユーザーが AI を効果的に使用するための最大の障害となっています。ご存知のように、多くの人は、ChatGPT などの大規模言語モデル (LLM) に適切な質問をする方法を知りません (プロンプトエンジニアという職業も生まれました)。ましてや、自分のタスクに適したモデルを見つけることなどできません。

この問題に対処するため、南京大学の周志華教授は2016年に「ラーンウェア」と呼ばれる新しいパラダイムを提案しました。ユーザーが入手後に直感的に使い方を習得できるハードウェアやソフトウェアと同様に、ユーザーは学習ウェアの形で自分のタスクに適した機械学習モデルを見つけることもできます。

簡単に例えると、ユーザーが良い肉切り包丁を購入したい場合、自分のニーズをマーケットに提出すると、マーケットはユーザーのニーズに基づいて最も一貫性のある説明と製品をマッチングし、ユーザーに推奨します。しかし、この推奨は彼女のニーズに完全には一致しない可能性があります。たとえば、推奨はメロンを切るのに適したナイフです。しかし、このナイフは使えないわけではありません。彼女はこのナイフを直接使って肉を切ることも、他の方法で研いでより鋭くし、肉を切るのに適した状態にすることもできます。

図1: 学習ウェアの類似点

周志華氏が提案した学習ウェアモデルも同様です。ユーザーが学習ウェアマーケットにニーズを提出し、マーケットが適切なモデルを推奨し、その後、ユーザーは独自のデータを使用してモデルを最適化し、自分のタスクにより適したものにします。

学習ウェアの用途は何ですか?

ユーザーが自分のタスクに適したモデルを見つけるのを支援することに加えて、Learningware には他にどのような用途がありますか? Zhou Zhihua 氏のチームが発表した最新の論文「Learnware: Small Models Do Big」によると、Learnware は多くの機械学習アプリケーションの問題を解決できます。

トレーニングデータの不足: 少量のデータしかないタスクでも、モデルが優れた学習成果物に基づいて構築されていれば、強力な機械学習モデルを生成できます。実際、ほとんどのユースケースでは、適応と改良のために少量のデータのみが必要です。

トレーニングスキルの不足: トレーニングスキルが不足している一般ユーザーでも、モデルをゼロから構築するのではなく、高性能な学習者の支援を受けることができれば、強力な機械学習モデルを取得できます。

壊滅的な忘却: 学習教材が学習教材市場に受け入れられると、そのすべての機能が他の学習教材に置き換えられない限り、その学習教材は永久に市場に残ります。したがって、学習ウェア市場における古い知識は常に保持されます。何も忘れられません。

継続的な学習: 開発者はさまざまなタスクでトレーニングされた優れたパフォーマンスの学習ウェアを継続的に提出するため、学習ウェア市場は自然に継続的な学習と生涯学習を実現でき、学習ウェア市場の知識は引き続き充実します。

データのプライバシー/所有権: 開発者はモデルを提出する際にデータを共有する必要がないため、データのプライバシー/所有権は十分に保護されます。モデルのリバースエンジニアリングの可能性を完全に排除することはできませんが、他の多くのプライバシー保護スキームと比較するとリスクは非常に小さいです。

計画外のタスク: 学習ウェア市場はすべての合法的な開発者に開放されています。したがって、すべての正当な開発者がタスクの実行に失敗していない限り、市場には常に役立つ学習教材が存在することになります。さらに、いくつかの新しいタスクについては、専用のモデルを構築する開発者がいなくても、既存の学習者を選択して組み立てることで解決できます。

カーボンフットプリント: 小さなモデルを組み立てるだけで、ほとんどのアプリケーションで十分なパフォーマンスが得られる可能性があります。そのため、大規模なモデルを大量にトレーニングすることにあまり関心がないかもしれません。他の開発者のモデルを再利用できるため、開発の重複を減らすことができます。さらに、あるモデルが 1 人のユーザーにとってうまく機能しない場合でも、別のユーザーにとっては非常に役立つ場合があります。トレーニングコストが無駄になりません。

ソフトウェア設計を学ぶ

次に、周志華氏のチームが提案した学習教材のデザインアイデアを詳しく見てみましょう。まず、機械学習アプリケーションには、開発者、ユーザー、市場という 3 つの重要なエンティティがあることを直感的に理解できます。

開発者は通常、優れたパフォーマンスを発揮するトレーニング済みの機械学習モデルを作成し、それを共有または販売する機械学習の専門家です。

ユーザーは機械学習サービスを必要としていますが、データが限られていたり、機械学習の知識やスキルが不足していることがよくあります。

学習ウェア市場は、開発者からパフォーマンスの高いトレーニング済みモデルを取得または購入して市場に投入し、学習ウェアを識別して再利用することでユーザーにサービスを提供または販売し、ユーザーが手元のタスクを解決できるように支援します。基本的な動作は、図 2 に示すように 2 つの段階に分けられます。

図2: 学習ソフトウェア市場の2つの段階

提出フェーズ

提出段階では、開発者はトレーニング済みのモデルを学習ソフトウェア市場に自発的に提出できます。市場は、何らかのメカニズム（検証パフォーマンスなど）を通じて一定の品質を確保することで、提出されたモデルを受け入れるか否かを決定できます。学習ソフトウェア市場にすでに何百万ものモデルがある場合、新しいユーザーは自分にとって役立つ可能性のあるモデルをどのように見つければよいのでしょうか?

モデルの実験のためにユーザーに独自のデータを市場に提出するよう求めることは絶対にできません。これは面倒でコストがかかるだけでなく、さらに深刻な問題は、ユーザーデータの漏洩につながる可能性があることです。 Learnware の提案では、プライバシーや所有権の問題により、開発者もユーザーもデータを開示したがらないという事実が考慮されているため、ユーザーデータと元のトレーニングデータの類似性を比較するなどの単純で直接的な方法も実現可能ではありません。そのため、周志華チームの設計は、学習ソフトウェア市場では開発者のオリジナルのトレーニングデータもユーザーのオリジナルのデータも取得できないという制約に基づいています。さらに、ユーザーは市場にある既存のモデルについてあまり認識していないと想定しています。

この問題に対処するために、周志華氏のチームが提案したソリューションの核心は仕様にあります。 Learningware Marketplace は、提出されたモデルを受け入れることを決定すると、モデルの元のトレーニングデータを明らかにしない形式でモデルの専門知識と目的を伝える仕様をモデルに割り当てます。簡単にするために、以下のモデルの関連概念を表すために単純な記号を使用します。モデルは、入力ドメイン X を出力ドメイン Y にマッピングできる特定の機能関係に対応しており、この期間中に考慮されるターゲットは obj であると仮定します。つまり、これらのモデルは、この関数空間 F : X→Y wrt obj 内にあります。各モデルには仕様があります。すべての仕様は仕様空間を形成し、同じタスクに貢献するモデルの仕様は互いに近くなります。

学習市場には、異なる X や異なる Y や異なる obj を持つさまざまなモデルが存在します。すべての可能な機能空間内のすべての可能なモデルをカバーする仕様空間を仕様世界と呼ぶと、可能な機能空間に対応する各仕様空間は仕様島と呼ぶことができます。現時点では、すべての可能なモデルを効果的かつ完全に識別しながら、仕様の世界全体をカバーできる簡潔でエレガントな仕様形式を設計することは、研究者にとって依然として困難です。実際の状況に基づいて、周志華氏のチームは次の設計を採用しました。各学習ピースの仕様は 2 つの部分で構成され、最初の部分では学習ピースがどの仕様アイランドに配置されているかを説明し、2 番目の部分ではアイランド内のどこに配置されているかを明らかにします。

最初の部分は、タスク、入力、出力、ターゲットを含む一連の説明/ラベルを含む文字列として実装できます。次に、ユーザー要求で提供された説明/ラベルに基づいて、対応するプロトコルアイランドを効率的かつ正確に見つけることができます。一般的に言えば、学習市場の設計者は、説明/ラベルの初期セットを作成できます。市場が既存の機能空間に分類できない新しいモデルを受け入れると、セットを拡張して新しい機能空間と対応する仕様アイランドを作成できます。

図 3 に示すように、プロトコルアイランドをより大きなアイランドに統合することもできます。原則として、X、Y、obj に共通のコンポーネントがある場合は、仕様アイランドをマージできます。すべての可能なタスクが存在する場合、すべてのプロトコルアイランドが断片化されていない統一されたプロトコルの世界に接続されると考えられます。

図3: 学習ウェアの規制された世界

展開フェーズ

展開フェーズでは、ユーザーは学習ウェア市場に要件を提出し、市場はいくつかの有用な学習ウェアを特定してユーザーに返します。問題は 2 つあります。1. ユーザーのニーズに合った学習教材をどのように特定するか、2. 返却された学習教材をどのように再利用するかです。

学習ウェア市場には何百万ものモデルが存在します。モデルの再利用やドメイン適応に関連するこれまでの機械学習研究では、すべての事前トレーニング済みモデルが有用であると想定されていましたが、学習済みモデルのうち、現在のユーザータスクに有用となるのはごく一部である可能性が高いと考えられます。マルチタスク学習 (トレーニング中にこれらのさまざまなタスクのデータを使用できる) やドメインに依存しない学習 (ソースドメインのラベル付きデータを使用できる) とは異なり、学習ウェアマーケットプレイスでは、この情報が利用可能であるとは想定されていません。実際には、特に学習ウェア市場が元のトレーニングデータや現在のユーザーの元のデータにアクセスできないことを考慮すると、適切な学習ウェアを効果的に特定することは非常に困難です。

仕様設計を通じて、学習ウェア市場では、ユーザーが説明/タグセットを使用してニーズを記述することを要求できます。これは、将来設計されるユーザーインターフェイスまたは何らかの学習ウェア記述言語を通じて実現できます。この情報に基づいて、ユーザーのタスクは、仕様アイランドから有用な学習部分を識別する方法に簡素化されます。学習ウェア市場は、仕様アイランドに対応する機能空間にアンカー学習ウェアをいくつか提供し、ユーザーにそれらをテストして情報を返すように要求し、この情報に基づいて潜在的に有用な学習者を特定することができます。

有用な学習教材が見つかり、ユーザーに配信されると、ユーザーはそれをさまざまな方法で再利用できます。前のアナロジーとは対照的に、ユーザーはこれらのモデルを直接使用することも、独自のデータを使用してさらに最適化し、タスクに適したものにすることもできます。

学習ソフトウェア規制

理想的には、学習ウェア仕様は、学習ウェア市場の各モデルに関する重要な情報を表現/エンコードして、将来のユーザーが効率的かつ適切に識別できるようにする必要があります。前述したように、周志華チームの現在のプロトコル設計は 2 つの部分で構成されています。最初の部分は文字列で、開発者が提出した情報に基づいて学習ウェアマーケットが付けた説明/ラベルです。その目的は、モデルが配置されている仕様アイランドを見つけることです。学習ウェア市場のプレーヤーによって、使用する説明やラベルが異なる場合があります。

仕様の 2 番目の部分は、関数空間 F : X→Y wrt obj にモデルを配置することです。この部分では、周志華氏のチームによって提案された方法は、簡略化された KME (カーネル平均埋め込み) のセットに基づいた RKME (縮小カーネル平均埋め込み) と呼ばれます。 KME は、確率分布を RKHS (再生カーネルヒルベルト空間) 内の点にマッピングする強力な手法であり、縮小セットは元のデータを公開せずに表現力を保持します。

開発者がデータセットに基づいてトレーニングされたモデルを送信したいとします。モデルがトレーニングされると、x_i をモデルに入力して対応する出力を取得できます。これはモデルの出力であり、真実ではないことに注意してください。したがって、データセットはモデルの機能をエンコードします。つまり、モデルの機能表現を提供します。より完全な表現を得るために、x_i 以外の x もモデルに入力できることに注意してください。周志華氏のチームは以前、このアイデアを使って比較的単純なモデルを学習し、そのパフォーマンスは元の複雑なモデルに匹敵するものだった。研究チームは、ジェフリー・ヒントン氏らが提唱する知識蒸留の考え方がこれに似ていると述べました。このアイデアは基礎として機能し、RKME 仕様の最初の部分を構成します。簡単にするために、zi をと表し、モデルの関数は zi の分布にエンコードされます。次に、マーケットプレイスは、RKHS ノルムによって測定された距離を最小化することによって、縮小セット表現を生成します。ここで、k (·,·) は、学習ウェアマーケットプレイスによって決定され、開発者に提供される RKHS に対応するカーネル関数です。解決された (β, t) は、元のデータ z のよりコンパクトな表現を提供します。開発者は、これをモデル仕様の 2 番目の部分として使用するために送信します。

展開フェーズでは、ユーザーが大量のトレーニングデータを持っている場合、マーケットは提出する RKME 要件の構築を支援できます。次に、RKME 仕様をユーザー要件と照合することで、市場は RKHS 内で最小の標準距離を持つ学習ピースを識別して返すことができます。複数の学習ピースの RKME 仕様の加重組み合わせがユーザーのニーズと最も距離が短い場合、市場では複数の有用な学習ピースを特定することもできます。ユーザーが RKME 要件を構築するのに十分なトレーニングデータを持っていない場合、学習ウェアマーケットは複数のアンカー学習ウェアをユーザーに送信することもできます。ユーザーはこれらのアンカー学習器に独自のデータを入力することができ、これにより、マーケットプレイスに返される情報（精度や再現率、その他のパフォーマンスメトリックなど）が生成されます。この情報は、たとえば、アンカー学習から遠く離れたモデルのパフォーマンスが低く、アンカー学習に近いモデルのパフォーマンスが高いことを発見し、仕様アイランドで適切なモデルを見つけるなど、市場が潜在的に有用なモデルを特定するのに役立ちます。

学習ソフトウェア市場向けのプロトタイプ設計

このアイデアの実現可能性を検証するために、周志華氏のチームは学習ソフトウェア市場のプロトタイプを設計しました。そのユーザーインターフェースを下の図に示します。

市場には、さまざまなデータセットでトレーニングされた 53 種類の売上予測モデルがありますが、それらの入力空間、出力空間、目的は同じです。したがって、これらのモデルの仕様は同じ仕様島に配置されます。

実験プロセスでは、学習ソフトウェア市場の助けを借りて独自の売上予測モデルを構築したい新規ユーザーをシミュレートします。

実験結果は以下の通りです。ユーザーが独自のデータを使用してゼロからモデルを構築する場合と比較して、特にユーザーデータが比較的小さい場合、学習ソフトウェア市場を使用すると大幅なパフォーマンスの向上を実現できます。

図5: 売上予測実験の結果

結論

2016年にラーニングウェアという概念が提唱されて以来、AIの分野は大きな変化を遂げてきました。音声、画像、動画、テキスト、マルチモーダルなど、さまざまなモデルが次から次へと登場し、目まぐるしい勢いで進化しています。この分野に特化していない一般ユーザーにとって、実際のアプリケーションでは常にモデルのパフォーマンス、使用コスト、応答速度など、多くの側面を考慮する必要があるため、特定のタスクに適したモデルを見つけることは容易ではありません。

学習ソフトウェア市場が実際のアプリケーション環境に大規模に展開されることが成功すれば、AIの真の普及への扉が開かれると期待されます。当時は、特定のタスク用の人工知能モデルを構築する際には、学習ソフトウェア市場を検索するだけでよく、ゼロから構築する必要はありませんでした。これは、現在プログラマーがソフトウェアを作成する際に GitHub などのコードリポジトリで有用なコードを検索するのと同じです。

大規模アプリケーション向けの大規模言語モデルの最近の実装により、新たな可能性も見えてきました。学習ソフトウェア市場のモデルに優れたドキュメントが装備され、ユーザーレビューのメカニズムが統合されていたら、ユーザーは自然言語を使用してタスクの要件を説明することさえできるでしょう。こうすることで、関連する経験がまったくない新しいユーザーでも、自分のタスクに適したモデルを見つけることができるようになります。

<<: 大規模言語モデルの視覚的才能: GPTは文脈学習を通じて視覚的タスクも解決できる

>>: GPT-4 はハイブリッド大規模モデルを使用しますか?研究により、MoE+命令チューニングにより大規模モデルのパフォーマンスが向上することが証明された