最近、Google は強力なコンピューティング リソースで再び大きな話題を呼び、Meta AI の友人も連れてきました。 これら二つの「敵」の間の協力は稀であると言わざるを得ません。 論文リンク: https://arxiv.org/abs/2203.05482 研究チームは、「モデルスープ」と呼ばれる概念を提案しました。これは、大規模な事前トレーニング済みモデルの下でさまざまなハイパーパラメータ構成を微調整し、重みを平均化するというものです。 実験結果によると、この単純なアプローチにより、通常はモデルの精度と堅牢性が向上することが示されています。 一般的に、最高のパフォーマンスを持つモデルを取得するには、次の 2 つの手順が必要です。 1. 異なるハイパーパラメータを持つ複数のモデルをトレーニングする 2. 検証セットで最もパフォーマンスのよいモデルを選択する しかし、この方法で生成された単一のモデルには致命的な欠陥があります。それは、主に運に左右され、局所最適に陥りやすく、結果としてグローバルに最適ではないパフォーマンスになってしまうことです。 したがって、もう 1 つのよく使用される戦略はモデル統合 (アンサンブル) ですが、統合モデルは本質的には複数のモデルであるため、同じ入力を複数回推論する必要があり、推論コストが高くなります。 Model Soup はモデルの重みを平均化して単一のモデルを生成するため、追加の推論やメモリのコストをかけずにパフォーマンスを向上させることができます。 もちろん、モデル方法は非常に単純なので、Google がどうしてこの論文を出版できたのかと疑問に思うかもしれません。 方法セクションは半ページしか占めず、記事全体は基本的に実験です。つまり、Google は、大量のコンピューティング リソースを使用して多数の実験を実施し、この単純な方法が有効であることを証明するという、他の誰もやったことのないことを行いました。 このモデルは、ImageNet 1K でも 90.94% という新記録を樹立しました。 したがって、大学の研究者にとって、この論文は学術的な価値があまりなく、純粋に実験的な科学である可能性があります。しかし、資金とリソースのある大企業にとっては、強力なパフォーマンスで十分です。 モデルスープという名前は、昨日のスープと一昨日の残りのスープを温めて混ぜ合わせ、今日できたての「フィボナッチスープ」を作るという「フィボナッチスープ」にヒントを得たものかもしれません。 Model Soup は、昨日の複数のモデルを加熱し、今日の新鮮な SOTA モデルに変えます。 新しいボトルに入った古いワインCV モデルの一般的な開発モデルは、コンピューティング リソースを持つ大企業がモデルを事前トレーニングし、他の研究者がこのモデルを使用して、特定の下流タスクに合わせてモデルを微調整するというものです。 単一モデルの場合、パフォーマンスが最適ではない可能性があるため、パフォーマンスを向上させるためによく使用される別の方法は、アンサンブルです。アンサンブルでは、異なるハイパーパラメータを使用して複数のモデルをトレーニングし、投票などによってこれらのモデルの出力結果を組み合わせて、複数のモデルの予測と一致する結果を最終出力として選択します。 統合モデルはモデルのパフォーマンスを向上させることができますが、同じ入力を複数回予測する必要があり、推論パフォーマンスが大幅に低下し、ビデオメモリを増やしたり、グラフィック カードを追加したり、より長い推論時間を待ったりする必要があるなど、欠点も明らかです。 Google は、検証セットで最高の精度を達成する単一のモデルを選択するのではなく、微調整された複数のモデルの重みを平均化することを提案しました。結果として得られる新しいモデルは、モデル スープと呼ばれます。 通常のトレーニングでは複数のモデルをトレーニングする必要があるため、Model Soup ではトレーニング コストが増加しません。また、モデルスープも単一のモデルなので、推論コストは増加しません。 実際、以前の研究結果では、単一のトレーニング軌跡に沿った重み平均化により、ランダムに初期化されたトレーニング モデルのパフォーマンスが向上することが示されています。 Model Soup は、重み平均化の有効性を微調整のコンテキストに拡張します。 重み平均化には多くの戦略があります。この論文では、均一スープ、貪欲スープ、学習スープという、一般的に使用される 3 つの方法が紹介されています。 均一スープは最も単純で、異なるモデルの重みを単純に平均化するものです。 貪欲スープは、モデルをスープの潜在的な材料として順番に追加し、予約された検証セットでのパフォーマンスが向上した場合にのみモデルをスープに保持することによって構築されます。 アルゴリズムを実行する前に、モデルは検証セットの精度の降順で並べ替えられるため、貪欲スープ モデルは検証セットの最良の単一モデルよりも劣ることはありません。 学習スープは、モデルスープ内の各モデルの重みを学習可能なパラメータとして取得することによって実現されます。 強力なパフォーマンスこそが王様モデルスープのアイデアは単純ですが、この論文の焦点は方法ではなく実験にあります。 実験セクションでは、研究者らはさまざまなモデルを微調整する際のモデルスープの応用を検討しました。微調整された主なモデルは、画像とテキストのペアの対照的な監督で事前トレーニングされた CLIP モデルと ALIGN モデル、JFT-3B で事前トレーニングされた ViT-G/14 モデル、およびテキスト分類用の Transformer モデルです。実験では主にCLIP ViT-B/32モデルを使用します。 微調整はエンドツーエンドで行われます。つまり、すべてのパラメータが変更可能であり、最終的な線形レイヤーのみをトレーニングするよりも精度が高くなることがよくあります。 微調整の前に、実験では 2 つの異なる方法を使用して最終的な線形層を初期化します。最初のアプローチは、線形プローブ (LP) からモデルを初期化することです。 2 番目のアプローチでは、ゼロショット初期化を使用します。たとえば、CLIP または ALIGN のテキスト タワーによって生成された分類子を初期化として使用します。 微調整に使用されるデータセットは ImageNet です。実験では、ImageNetV2、ImageNet-R、ImageNet-Sketch、ObjectNet、ImageNet-A の 5 つの自然な分布シフトも評価します。 公式の ImageNet 検証セットがテスト セットとして使用されるため、実験では、貪欲スープを構築するための予約済み検証セットとして、ImageNet トレーニング セットの約 2% が使用されます。 実験結果では、スープ戦略を比較し、Greedy Soup では、予約された検証セットで最適な個別のモデルを選択する場合と同じ精度を達成するために必要なモデルの数が少なくなることを示しています。 X 軸はハイパーパラメータのランダム検索で考慮されるモデルの数であり、Y 軸はさまざまなモデル選択方法の精度です。すべての方法では、推論中に同じ量のトレーニングと計算コストが必要です。 モデルの数に関係なく、Greedy Soup は ImageNet と分布外テスト セットの両方で最高の単一モデルよりも優れています。また、Greedy Soup は ImageNet で Uniform Soup よりも優れており、分布外でもそれに匹敵します。 Logit アンサンブルは ImageNet では Greedy Soup よりもパフォーマンスが優れていますが、分布外ではパフォーマンスが低下します。 GreedyTom は、JFT-3B で事前トレーニングされ、分布内および分布外の両方のケースで ImageNet で微調整された最良の単一モデル ViT-G/14 のパフォーマンスを向上させます。 モデルスープを通じて得られたモデルパフォーマンスの向上が画像分類以外の分野にも拡張できるかどうかをテストするために、研究者らは NLP タスクに関する実験も実施しました。研究者らは、GLUE ベンチマークの 4 つのテキスト分類タスク (MRPC、RTE、CoLA、SST-2) で BERT モデルと T5 モデルを微調整しました。画像分類ほど改善は明らかではありませんが、Greedy Soup は多くの場合、最良の単一モデルよりも優れたパフォーマンスを発揮します。 それは意味がありますか? AI モデルに取り組んでいる研究者のほとんどは、この論文を読んだ後、「それだけ?」と思うはずです。 論文が発表されるとすぐに、知乎上でも論文に関する関連する議論が行われました。 一部のネットユーザーは、この種の論文は意味がなく、小さなアイデアを検証するためにリソースを積み重ねることだけに頼っていると述べた。以前のモデルにも同様のアイデアがあり、論文にはニューラルネットワークの理論的分析も欠けていました。 しかし、何事にも二面性があります。ネットユーザー @昭昭不坏坏 は、sota は論文のパフォーマンスを反映しただけのものだと述べています。論文の多数の実験から導き出された結論は、依然として非常に刺激的です。シンプルで効果的なのは良いアイデアです! ネットユーザーの@战系王子的父子は、これはまさにGoogle風の作品であり、アイデアを考えるのは難しくないが、Googleの優位性は変わらない推論速度、問題の徹底した説明、十分な実験(下手な研究者には再現できないかもしれない)にあると述べた。確かに学ぶべきことはたくさんあります。 Model Soup は環境にも優しいです。学習したモデルを直接廃棄するのではなく、電気の無駄を省くために使われます。 ネットユーザー@西红柿牛肉は分析した。「現在ImageNetランキングで上位を占めているモデルの場合、10億のパラメータは少なすぎるわけではなく、100億のパラメータは多すぎるわけでもない。さらに、GoogleやFacebookのような裕福な企業は、1,000枚のグラフィックカードから始めることが多く、Conv+Transformerを使用するだけでなく、JFT-3Bでごまかしている。しかし、1,000層のResNetがトップ1の91%を達成できるのであれば、それは時代の進歩だ。」 最後に彼は冗談を言った。「トップ 1 の 92% を獲得できれば、夜中に笑いながら目が覚めるでしょう。そして、年間 KPI を達成したことになります。」 |
>>: このCVデータセットジェネレーターは人気があり、DeepMindなどが作成した13種類のCVタスクをサポートしています。
12月2日、国家工業情報セキュリティ発展研究センターは「中国人工知能特許技術分析報告書」を発表し、百...
ハルビンで開催された2019年中国科学技術協会年次大会において、情報技術分野のハイエンドシンクタンク...
AI の成熟度が増すということは、あらゆる規模の組織が AI をより簡単に使用して、重大で複雑な問題...
翻訳者 | 朱 仙中レビュー | Chonglou導入この記事は、ユーザーの好みに合わせてシンプルで...
編集者注: Tomasz Tunguz 氏は RedPoint のパートナーであり、スタートアップが...
モデル| https://huggingface.co/ByteDance/SDXL-Lightni...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
[[431306]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
10月24日、DeePhi Technologyの2017年新製品発表会が北京の朗園にあるVinta...
[[314175]] 2019-nCoVの最も危険な特徴は人から人へと感染する能力であり、中国では...
これまで多くの技術進歩の基盤となってきたデータセンターは、現在、インフラストラクチャ プロバイダーだ...
日本経済新聞は8日、中国が人工知能の分野で米国を追い越しつつあるとする記事を掲載した。データによれば...