この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転載したものです。転載については出典元にお問い合わせください。 無限のデータ、無限の計算能力、無限のモデル、完璧な最適化アルゴリズム、一般化パフォーマンスなどの無制限のリソースがある場合、これから得られる事前トレーニング済みモデルを使用してすべての問題を解決できるでしょうか? これは誰もが非常に関心を持っている質問ですが、既存の機械学習理論では答えることができません。これは表現力の理論とは何の関係もありません。なぜなら、モデルが無限であれば、表現力も当然無限だからです。また、アルゴリズムの最適化と一般化のパフォーマンスが完璧であると想定しているため、最適化と一般化の理論とも関係がありません。つまり、これまでの理論的研究における問題は、ここではもはや存在しないのです! 今日は、ICML'2023で発表した私の論文「On the Power of Foundation Models」を紹介し、圏論の観点から答えたいと思います。 カテゴリー理論とは何ですか?数学を専攻していない場合は、圏論に馴染みがないかもしれません。圏論は数学の数学として知られており、現代数学の基本言語を提供します。代数位相幾何学、代数幾何学、代数グラフ理論など、現代数学のほぼすべての分野は、カテゴリー理論の言語を使用して記述されます。圏論は構造と関係を研究する学問です。集合論の自然な拡張として考えることができます。集合論では、集合には複数の異なる要素が含まれますが、圏論では、要素だけでなく要素間の関係も記録します。 マーティン・クッペはかつて数学地図を描き、その地図の最上部に圏論を置き、数学のすべての領域を明らかにしました。 インターネット上にはカテゴリー理論の入門書がたくさんあります。ここでは、いくつかの基本的な概念について簡単に説明します。 教師あり学習におけるカテゴリー理論的観点過去 10 年間、教師あり学習フレームワークに関する多くの研究が行われ、多くの素晴らしい結論が得られました。しかし、このフレームワークは AI アルゴリズムの理解を制限し、大規模な事前トレーニング済みモデルを理解することを非常に困難にします。たとえば、既存の一般化理論では、モデルのクロスモーダル学習能力を説明するのは困難です。 入力データと出力データをサンプリングすることでこの関数を学習できますか? このプロセスでは、2 つのカテゴリ X と Y の内部構造は考慮されないことに注意してください。実際、教師あり学習ではカテゴリ内の構造について何の仮定も行わないため、2 つのカテゴリ内の 2 つのオブジェクト間には関係がないと想定できます。したがって、X と Y は完全に 2 つの集合としてみなすことができます。この時点で、一般化理論における有名な「ノーフリーランチ定理」によれば、追加の仮定がなければ、X から Y への関数を学習することは不可能であることがわかります (サンプル数が膨大でない限り)。 一見すると、この新しい視点は役に立たないように思えます。カテゴリに制約を追加することと、関数に制約を追加することの間には本質的な違いはないようです。実際、新しい視点は、従来のフレームワークの去勢版のようなものです。教師あり学習で非常に重要な損失関数の概念さえ言及されておらず、トレーニング アルゴリズムの収束または一般化特性を分析するために使用することはできません。では、この新しい視点をどのように理解すればよいのでしょうか? カテゴリー理論は鳥瞰図を提供してくれると思います。それ自体は、元のより具体的な教師あり学習フレームワークを置き換えるものではなく、また、より優れた教師あり学習アルゴリズムを作成するために使用されるべきでもありません。対照的に、教師あり学習フレームワークは「サブモジュール」であり、特定の問題を解決するために使用できるツールです。したがって、カテゴリー理論では損失関数や最適化プロセスは考慮されません。これらは、アルゴリズムの実装の詳細に似ています。カテゴリと関数の構造に重点を置き、特定の関数が学習可能かどうかを理解しようとします。これらの問題は、従来の教師あり学習フレームワークでは非常に困難ですが、カテゴリの観点からは簡単になります。 自己教師学習に関するカテゴリー理論的観点事前トレーニングのタスクと範囲次に、まず事前トレーニングタスクにおけるスコープの定義を明確にします。実際、事前トレーニング タスクを設計しないと、カテゴリ内のオブジェクト間に関係は存在しません。しかし、事前トレーニング タスクを設計した後、タスクの形で人間の事前知識を使用して、カテゴリに構造を注入します。そして、これらの構造は、大きなモデルが持つ知識になります。 具体的には: 言い換えれば、データセットに対して事前トレーニング タスクを定義するときに、対応する関係構造を含むカテゴリを定義します。事前トレーニング タスクの学習目標は、モデルがこのカテゴリを適切に学習できるようにすることです。具体的には、理想モデルの概念を見てみましょう。 理想のモデルここで「データに依存しない」とは はデータを見る前に定義済みであるが、添え字fはfと これら2つの機能。言い換えると、 は「単純な」関数ですが、モデル f の助けを借りてより複雑な関係を表すために使用できます。わかりにくいかもしれないので、圧縮アルゴリズムを例に挙げてみましょう。圧縮アルゴリズム自体はデータに依存する場合があり、たとえば、データ配布用に特別に最適化されている場合があります。しかし、データに依存しない関数として 、データ分布にアクセスすることはできませんが、「圧縮アルゴリズムを呼び出す」操作はデータに依存しないため、圧縮アルゴリズムを呼び出してデータを解凍することができます。 異なる事前トレーニングタスクに対して、異なる : したがって、事前トレーニング学習のプロセスは、理想的なモデル f を見つけるプロセスであると言えます。 しかし、たとえ は確実であり、定義上、理想的なモデルは一意ではありません。理論的には、モデル f は超インテリジェントであり、C でデータを学習しなくても何でも実行できる可能性があります。この場合、f の累乗について意味のある主張をすることはできません。そこで、問題の別の側面を見てみましょう。 事前トレーニング タスクによって定義されたカテゴリ C が与えられた場合、任意の理想 f に対してどのタスクを解決できますか? これが、この記事の冒頭で答えたい中心的な質問です。まず重要な概念を紹介しましょう。 田んぼ埋め込みそれは簡単に証明できる は最も弱い理想モデルである。なぜなら、他の理想モデルfが与えられているからである。 内のすべての関係は f にも含まれています。同時に、これは他の追加の仮定なしに事前トレーニング モデルを学習するという究極の目標でもあります。したがって、私たちの核心的な質問に答えるために、 。 迅速な調整:より多くの経験、より多くの知識特定のタスクTは解決できますか?この質問に答えるために、まず圏論における最も重要な定理の 1 つを紹介しましょう。 米田レマ今すぐ、 T(X)はこれら2つの表現を使用して計算できます。ただし、タスクではPにパスするよう促すことに注意してください それよりも 送信すると、私たちは受け取ることになります (P) ではなく T として 入力。これにより、カテゴリー理論におけるもう一つの重要な定義が生まれます。 この定義に基づいて、次の定理が得られます(証明は省略)。 定理1と系アルゴリズムを調整するために使用されるヒントの中には、必ずしもカテゴリ C のオブジェクトではなく、特徴空間内の表現であるものがあることに言及する価値があります。このアプローチは、表現可能なものよりも複雑なタスクをサポートする可能性を秘めていますが、その強化は特徴空間の表現力に依存します。以下に定理 1 の簡単な系を示します。 帰結1:画像の回転角度を予測する事前トレーニングタスク[4]では、ヒントの微調整ではセグメンテーションや分類などの複雑な下流タスクを解決できない。 証明: 画像の回転角度を予測する事前トレーニング タスクでは、特定の画像を 0°、90°、180°、270° の 4 つの異なる角度で回転させ、モデルに予測を行うように要求します。したがって、この事前トレーニング タスクによって定義されたカテゴリは、各オブジェクトを 4 つの要素を含むグループに分類します。明らかに、セグメンテーションや分類などのタスクは、このような単純なオブジェクトでは表現できません。 系1は少し直感に反する。なぜなら、元の論文[4]では、この方法を使用して得られたモデルは、分類やセグメンテーションなどの下流のタスクを部分的に解決できると述べられているからである。ただし、私たちの定義では、タスクを解決するということは、モデルが各入力に対して正しい出力を生成することを意味するため、部分的に正しいことは成功とは見なされません。これは、この記事の冒頭で尋ねた質問と一致しています。無制限のリソースがあれば、画像の回転角度を予測する事前トレーニング タスクを使用して、複雑な下流タスクを解決できるでしょうか?系 1 は否定的な答えを与えます。 微調整: 情報を失うことなく表現するヒント: チューニング機能は限られているので、アルゴリズムを微調整するにはどうすればよいでしょうか?米田関数拡張定理([5]の命題2.7.1を参照)に基づいて、次の定理を得ることができます。 定理 2 で考慮される下流タスクは、データセット内のデータ コンテンツではなく、C の構造に基づいています。したがって、前述の画像の回転角度を予測する事前トレーニングタスクによって定義されたカテゴリは、依然として非常に単純なグループ構造を持ちます。しかし、定理 2 によれば、これを使用してより多様なタスクを解決することができます。たとえば、すべてのオブジェクトを同じ出力にマップできますが、これはヒント チューニングでは不可能です。定理 2 は、事前トレーニング タスクの重要性を明確に示しています。事前トレーニング タスクが優れていると、カテゴリ C がより強力になり、モデルの微調整の可能性がさらに向上します。 定理 2 についてはよくある誤解が 2 つあります。まず、カテゴリCには多くの情報が含まれているにもかかわらず、定理2は大まかな上限しか提供していない。 C のすべての情報は記録されており、あらゆるタスクを解決できる可能性がありますが、微調整されたアルゴリズムでこの目標を達成できるとは限りません。第二に、定理 2 は一見すると過剰パラメータ化された理論のように見えます。しかし、彼らは自己教師学習の異なるステップを分析します。過剰パラメータ化は事前トレーニングのステップに関するもので、特定の仮定の下では、モデルが十分に大きく、学習率が十分に小さい限り、事前トレーニング タスクの最適化および一般化エラーは非常に小さくなることを意味します。定理 2 は、事前トレーニング後の微調整ステップを分析し、このステップには大きな可能性があると述べています。 議論と結論教師あり学習と自己教師あり学習。機械学習の観点から見ると、自己教師あり学習は依然として教師あり学習の一形態ですが、ラベルを取得する方法はより巧妙です。しかし、カテゴリー理論の観点から見ると、自己教師あり学習はカテゴリー内の構造を定義し、教師あり学習はカテゴリー間の関係を定義します。つまり、彼らは AI マップの異なる部分にいて、まったく異なることを行っています。 適用可能なシナリオこの記事の冒頭で無限の資源の仮定が検討されたため、多くの友人はこれらの理論が真に有効なのは虚空においてのみであると考えるかもしれません。実際にはそうではありません。実際の導出では、理想的なモデルのみを考慮し、 これは定義済みの関数です。実際、 一度決定すれば、事前学習済みのモデルfは(ランダムに初期化された段階であっても)入力XCに対してf(X)を計算でき、 2 つのオブジェクト間の関係を計算します。言い換えれば、 一度決定されると、事前トレーニング済みの各モデルはカテゴリに対応し、事前トレーニングの目標は、このカテゴリを事前トレーニング タスクによって定義されたカテゴリに継続的に合わせることだけになります。したがって、私たちの理論はすべての事前トレーニング済みモデルに当てはまります。 コアフォーミュラ。 AI に実際に一連の理論的裏付けがあるのなら、その背後には 1 つまたは複数のシンプルでエレガントな数式があるはずだと多くの人が言います。大規模モデルの能力を説明するためにカテゴリー理論の式を使用する必要がある場合、それは前に述べたとおりであるべきだと思います。 ビッグモデルに精通している人にとっては、この数式の意味を深く理解した後、この数式はナンセンスだと感じるかもしれません。これは、現在のビッグモデルの動作モードをより複雑な数式で記述しただけです。 しかし、そうではありません。現代科学は数学に基づいており、現代数学は圏論に基づいており、圏論における最も重要な定理は米田の補題です。私が書いた式は、米田補題の同型性を非対称バージョンに分解したもので、これは大規模モデルを開く方法とまったく同じです。 これは偶然ではないはずだと私は思います。圏論が現代数学のすべての分野を明らかにすることができるのであれば、汎用人工知能の今後の道筋も明らかにすることができるはずです。 この記事は、北京人工知能アカデミーの Qianfang チームとの長期にわたる緊密な協力からインスピレーションを得たものです。 オリジナルリンク: https://mp.weixin.qq.com/s/bKf3JADjAveeJDjFzcDbkw |
>>: バーチャルシンガー、AIの背後にある見えざる手が音楽の未来を握っているのか?
人工知能 (AI) は、面倒で時間のかかるすべての手動プロセスを置き換え、人間が価値の高いタスクに集...
[[439436]] 1フェーズまたは2フェーズのアルゴリズム2 段階アルゴリズムには、候補ボック...
IDC は、2024 年以降の世界の情報技術 (IT) 業界予測レポートを発表しました。 IDC は...
顔認識監視会社Clearview AIは、裁判所との和解により、ほとんどの民間企業による同社のサービ...
人工知能 (AI) システムは人間に似た方法でやり取りするため、一部の人は不安に思うかもしれませんが...
AI ガバナンスは、データ プライバシー、アルゴリズムのバイアス、コンプライアンス、倫理など、企業内...
近年、ロボット産業は急速に発展し、特に産業分野ではロボットがさまざまな分野で広く使用されるようになり...
ChatGPTなどのツールのリリース後、生成型人工知能(GenAI)が人工知能技術における注目の的...
ここ2年間、RPA+AI(インテリジェント自動化プロセス)が頻繁に言及されています。企業/機関のデジ...
清華大学とカリフォルニア大学バークレー校の共同研究により、アルゴリズムやネットワークアーキテクチャに...
C# DES アルゴリズムの復号化を実装する前に、DES の基本原理を見てみましょう。その入力パラメ...
本日、OpenAI は立て続けにツイートを数回送信し、「準備フレームワーク」を大々的に発表しました。...