Google: パフォーマンスの低い微調整モデルを捨てず、平均重量を計算してパフォーマンスを向上させる

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

モデルの精度を最大化するにはどうすればよいでしょうか?

最近、Google やその他の機関は次のことを発見しました。

パフォーマンスの悪い微調整されたモデルをまだ捨てないで、平均重量を計算してください。

これにより、推論時間とメモリのオーバーヘッドを増やすことなく、モデルの精度と堅牢性を向上させることができます。

たとえば、研究者はこの方法を使用して、ImageNet1K の新しい記録90.94% を作成しました。

これを複数の画像分類および自然言語処理タスクに拡張すると、モデルの分布外パフォーマンスが向上し、新しい下流タスクのゼロショットパフォーマンスも向上します。

このメソッドにはモジュールスープという面白い名前が付けられています。

すぐにフィボナッチスープのジョークを思い出しませんか? （昨日のスープ＋一昨日のスープ＝今日の新しいスープ）

△ Zhihuユーザー@hzwer、承認済み

レシピは全部で3つあります

これまでのことを振り返って、モデルの価値をどのように高めましたか?

まず、さまざまなハイパーパラメータを使用して複数の微調整されたモデルをトレーニングし、検証セットで最高のパフォーマンスを発揮するモデルを選択して、残りを破棄する必要がありますか?

ニューラルネットワークは非線形であるため、さまざまな損失領域に多くのソリューションが存在する可能性があります。そのため、すべての微調整されたモデルの重みを保持して平均化する Module Soup の方法によってパフォーマンスが向上するというのは、少し意外です。

しかし、最近、同じ初期化構成から独立して最適化された微調整モデルは同じ誤差範囲内にあることが判明しました。 (エラーランドスケープの同じ盆地内にあります) 。

これまでの研究では、単一のトレーニング軌跡に沿った重み平均化により、ランダムに初期化されたトレーニングモデルのパフォーマンスが向上することも示されています。

著者はこれらの結論に触発された。

モジュールスープには、均一スープ、貪欲スープ、学習スープという 3 つの「レシピ」 (実装)があります。

貪欲スープは、すべての重みを直接均等に平均化するよりもパフォーマンスが高いため、最も一般的に使用される実装です。

具体的には、Greedy Soup は、各モデルを「スープ」の潜在的成分として順番に追加することで構築され、検証セットでのパフォーマンスが向上した場合にのみ、対応するモデルが「スープ」に保持されます。

ソートは検証セットの精度の降順で行われます。

単一の最も優れた微調整モデルを上回る

著者らは、モジュールスープの効果を判断するために包括的な微調整実験を実施しました。

最初のステップは、画像とテキストのペアのコントラスト損失を使用して事前トレーニングされた CLIP と ALIGN を微調整することです。

モジュールスープ操作後、両方とも、分布内および自然分布シフトテストセットで、最良の単一の微調整モデルよりも優れたパフォーマンスを発揮しました。

△ 左にCLIP、右にALIGN

続いて、 JFT データセットで事前トレーニングされたViT-Gモデルを実行します。

つまり、ImageNet1K データセットで 90.94% の精度を達成し、CoAtNet が以前に保持していた 90.88% を破り、推論フェーズでの FLOP を 25% 削減しました。

著者は、画像分類タスクに加えて、 NLP の分野でもモジュールスープを検証しました。

次の表は、GLUE ベンチマークの 4 つのテキスト分類タスクにおける BERT モデルと T5 モデルの結果を示しています。

画像分類ほど改善は明らかではありませんが、ほとんどのタスクでは、貪欲スープは最良の単一モデルと比較してパフォーマンスを向上できることがわかります。

もちろん、著者はモジュールスープには適用性の面で限界があることも指摘しています。たとえば、現在テストされているモデルは、大規模な異種データセットで事前トレーニングされています。これらのモデル以外では、効果はあまり明白ではありません。

最後に、Zhihu ネットユーザー @宫酱手艺人は、実際にはこのようなモデルパラメータの平均化は古典的なトリックであり、元のトランスフォーマー論文でも使用されていたと述べました。

見つかりましたか？

論文の宛先:
https://arxiv.org/abs/2203.0548

<<: テスラAIディレクター：33年前にルカンのニューラルネットワークを再現したが、今とあまり変わらない

>>: 2022 年の人工知能のトレンド: AI はあなたにどのような影響を与えるでしょうか?

Kingsoft WPS Office 2019 正式リリース: Word、Excel、PPT を 1 つのソフトウェアで操作

ブログ

フロントエンド: JavaScript でのバイナリツリーアルゴリズムの実装

ブログ

Google: パフォーマンスの低い微調整モデルを捨てず、平均重量を計算してパフォーマンスを向上させる

レシピは全部で3つあります

単一の最も優れた微調整モデルを上回る

Kingsoft WPS Office 2019 正式リリース: Word、Excel、PPT を 1 つのソフトウェアで操作

清華大学の博士研究員が、AlphaCode の背後にある技術的原理を 10 分かけて説明しました。プログラマーはそう簡単に置き換えられるものではないことがわかりました。

ビジネスに AI を導入する 3 つのユースケース: CxO 向けチートシート

人間の脳神経の「100万分の1」の3D接続マップを描きます！膨大な量のデータは14億個の1Tハードドライブを埋め尽くす

【慎重に応募】今後10年間で消滅する可能性が最も高く、代替される可能性が最も低い22の職業

人工知能タスクに知っておくべき 11 個の Python ライブラリ

フロントエンド: JavaScript でのバイナリツリーアルゴリズムの実装

推薦する

物体検出のためのディープラーニングアルゴリズムの技術的な詳細を詳しく見てみましょう

「現時点で最高のヴィンセント動画AI」が登場！広告や映画に使っても問題ない。ネットユーザー：とてもスムーズ

エンドツーエンドの自動運転における軌道予測の今後の方向性とは？最新レビューを最前線でお届け！

英国のサイバーセキュリティ機関がAIにおける大規模言語モデルのリスクを警告

連休明けの電力安定供給のため、変電所点検ロボットが活躍中

人工知能の新たな用途：死者の蘇生

AIベースでデータプラットフォームの実装を加速

Google のような大企業を辞めた後、彼らはどうやって次の仕事を見つけるのでしょうか?

業界の洞察 | 世界の人工知能とその産業チェーン

ジャック・マーがまた一人の世界クラスの科学者を採用しました。春節期間中に電車の切符を買うときにシステムクラッシュを心配する必要はもうありません!