4 つの主要な視覚タスクを完了するために必要なデータは 10 分の 1 だけであり、しかもオープン ソースです。

4 つの主要な視覚タスクを完了するために必要なデータは 10 分の 1 だけであり、しかもオープン ソースです。

Github リンク: https://github.com/opengvlab

ご家族の皆さん、このような悩みを抱えていませんか?

引っ越すたびに家具を買い替えなければなりません。高価で重い家具は運ぶのも、全部運び出すのも簡単ではありません。

次に家具を再び購入しなければならないとき、お金を無駄にするだけでなく、同じことを何度も繰り返すことになるという問題があります。家具は数回しか使用されていないため、使用率は高くありません。

このような移行の手間は、AI 分野のようなものであり、複数のタスクで高度にカスタマイズされたモデルを複数開発する必要があります。必要なデータ収集量が非常に多いだけでなく、その都度ゼロからラベル付けする必要もあります。データの学習効率を向上できないだけでなく、膨大なデータ取得コストもかかります。

AI フロントエンドの研究だけでも膨大な量のエネルギーを消費しますが、アプリケーション シナリオにおける数万のロングテール タスクは言うまでもありません。

ではどうすればいいでしょうか?

鍵となるのは、一般的なディープラーニングモデルを作成することです。​

1. 普遍性は技術の基盤である

国内外を問わず、基盤技術に着目する人たちは「普遍的なモデル」の設計に取り組んでいます。ユニバーサル モデルを構築するための 2 つの主な戦場は、ディープラーニングが最も広く使用されている 2 つの領域、つまり言語とビジョンです。

現在、BERT、T5、GPT-3などの一般言語モデル(GLM)は目覚ましい進歩を遂げており、すでに幅広い言語のダウンストリームタスクの処理に優れています。

対照的に、一般視覚モデル (GVM) に関する研究では、まだ満足のいく答えが得られていません。

これまでの GVM 研究のほとんどは、主に 1 つの監視信号ソースを利用しています。たとえば、ViT-G/14 はラベル付けされた監視を使用し、SEER はサンプルの異なる強化間の対照学習を使用し、CLIP は監視に画像とテキストのペアを使用します。単一の監視信号で事前トレーニングすれば、これらのパラダイムは実際に、固定されたシナリオで適切に機能するモデルを生成できます。しかし、これらのモデルを多様なシナリオやタスクを含む下流のシナリオで使用すると、タスクに対応できなくなります。

たとえば、自動運転は現在最も人気のある技術です。自動車が走行しているとき、道路状況を確認するだけでなく、信号を確認し、歩行者にも注意する必要があります。スマートコックピットの台頭にもかかわらず、言語技術やLBSシーンサービスとの連携が必要です。知覚データと連携タスクが膨大で、ランダムな新しいタスクが多数発生するため、ボリュームとディメンションの両面で視覚モデルに対する要件が大幅に増加しています。

現時点では、普遍的な視覚モデルを作成し、R&Dの敷居、特に学術界における時間と金銭的コストを下げることで、下流で究極のシーン体験を楽しむことが可能になります。

昨年11月、上海人工知能研究所はセンスタイム、香港中文大学、上海交通大学と共同で、タスクの普遍性、シーンの一般化、データ効率など、現在の人工知能視覚分野における一連のボトルネック問題を体系的に解決するための継続学習フレームワークであるユニバーサル視覚技術システム「INTERN」を発表しました。

つい最近、上海人工知能研究所とSenseTimeは共同で汎用視覚オープンソースプラットフォームOpenGVLabをリリースし、超効率的な事前トレーニング済みモデル、超大規模公開データセット、業界初の汎用視覚モデルの評価ベンチマークを学界と産業界に公開しました。

これらのオープンソーステクノロジーの魔法とは何でしょうか?

2. 多大な努力で奇跡を起こし、普遍的な視覚モデルを作成する

「Scholar」(INTERN)は、一般的な視覚能力を開発するための基礎技術です。

技術的な実装の面では、「Shusheng」技術システムは、3 つのインフラストラクチャ モジュールと 4 つのトレーニング段階を含む 7 つのモジュールで構成されています。

  • 3 つのインフラストラクチャ モジュールは、General Visual Data System (GV-D)、General Visual Network Architecture (GV-A)、および General Visual Evaluation Benchmark (GV-B) です。
  • トレーニング段階は 4 つあります: 上流基本モデル トレーニング (アマチュア)、上流エキスパート モデル トレーニング (エキスパート)、上流ジェネラリスト モデル トレーニング、下流アプリケーション トレーニング (下流適応)。

インターンシップ構造図

まず、一般的なビジュアルデータシステムです。

これは、100億のサンプルとさまざまな監視信号を備えた、超大規模で正確にラベル付けされたデータセットです。4つの主要な視覚タスクに従って設定された4つのデータサブセットがあります。マルチモーダルデータGV-D-10B、分類注釈GV-Dc-36M、検出注釈GV-Dd-3M、セグメンテーション注釈GV-Ds-143Kです。

さらに、このデータセットには 119,000 個のラベル システムも含まれており、自然界の多くの分野と現在のコンピューター ビジョン研究のほぼすべてのラベルをカバーしているだけでなく、さまざまな画像の属性や状態などをカバーするために多数のきめ細かいラベルを拡張しています。

そしてこれは、学者の「偉大な力は奇跡を起こす」という主張に対する重要な脚注です。

2 番目は、一般的な視覚モデル構造です。

CNN と Transformer による統合検索空間から構築されます。

なぜこのようなハイブリッド構造を構築するのでしょうか?ご存知のとおり、畳み込みニューラル ネットワーク (CNN) は長年にわたり視覚表現の学習を支配し、画像分類、オブジェクト検出、セマンティック セグメンテーションなどの下流タスクにおいて安定した転移性を示してきました。しかし、近年、Vision Transformer (ViT) は、画像エンコードモデルとして通常の Transformer 構造のみを使用して、ImageNet-1k 上で CNN に匹敵するパフォーマンスを実現できるようになりました。大規模なデータセットでは、ViT は CNN よりも大きな可能性を示しています。

ViT はパフォーマンスの面で優れていますが、純粋な Transformer ネットワークは畳み込みニューラル ネットワークと比較して特定の誘導バイアスが欠けているため、より多くのデータとコンピューティング リソースが必要になります。さらに、自己注意の計算コストは​​入力数に対して 2 次であるため、高い入力解像度への適用が制限されます。したがって、 CNN、Transformer、MLP を組み合わせて効率と有効性のバランスをとることが、モデルの普遍性の鍵となります。

より優れた一般化能力とより高いモデル容量を備えたこのモデル構造は、MetaNet と呼ばれます。 MetaNet ネットワーク構造ファミリでネットワーク構造検索を実行し、最適なモデル トレーニング構造を取得します。

統合検索のための MetaNet アーキテクチャ: Conv と Trans はそれぞれ畳み込みとトランスフォーマーを表します。 C と S は、各ステージの出力チャネル数とストライドです。

具体的には、MetaNet は、強化学習の PPO アルゴリズムに基づく統合検索アーキテクチャを提案するだけでなく、ローカル グローバル DSM (LG_DSM) やグローバル DSM (G-DSM) などのコンテキスト認識型ダウンサンプリング モジュール (DSM) を組み合わせて、元のダウンサンプリング モジュールを置き換え、従来のダウンサンプリング モジュールがモデル パフォーマンスのボトルネックになるのを回避します。

したがって、浅いレベルでは、モデルは依然として畳み込みを使用して特徴を抽出しますが、深いレベルでは、モデルは Transformer モジュールと LG-DSM を組み合わせて、より適切にグローバル情報を抽出できます。

同時に、Shusheng は最大の MetaNet-B15 に基づいて最大 13 の異なるモデル構造を抽出し、合計 24 の異なるモデル重みを作成しました。これらはすべて現在オープンソースになっています。

これらのモデル構造は、基本的に現在市場に出回っている主流のバックボーンのほとんどをカバーしています。新しいネットワークの事前トレーニングの初期化として必要なアルゴリズム フレームワークに簡単に移行できるだけでなく、トレーニング時間が短くなるだけで、以前よりも優れたトレーニング結果を達成できます。

MetaNet モデルを他のモデル構造と比較すると、次のようになります。

畳み込み、Transformer、およびこれら 2 つの混合に基づく構造は、それぞれ C、T、および H で表されます。

画像分類性能の面では、MetaNet シリーズの MN-B1、MN-B4、MN-B7 は他の SOTA モデルと比較して、精度が高いだけでなく、FLOPS とパラメータ数も低いことがわかります。

分類タスクに加えて、MetaNet は検出とセグメンテーションのバックボーンとして使用され、Mask R-CNN 構造は COCO データセットでトレーニングされました。結果は次のとおりでした。

モデルパラメータの数が少ないため、MN-B4 は Swin-T よりも 2 ~ 4 ポイント精度が高くなります。さらに、ADE20Kデータセットに対してセマンティックセグメンテーションタスクを実行したところ、MN-B4のmIoU指数はSwin-Tよりも5ポイント高くなりました。

上記の 2 つの実験結果は、MetaNet シリーズのモデル構造が、モデルの精度と計算の複雑さの点で新しい SOTA を達成したことを示しています。

最後に、一般的な視覚評価ベンチマークです。

視覚評価ベンチマークGV-Bは「リング」のようなものです。

下の表に示すように、評価ベンチマークでは、分類、検出、セグメンテーション、深度推定という 4 種類の視覚タスクをカバーする 26 のダウンストリーム タスク データセットが収集されます。

設定に関しては、ベンチマークではパーセンテージショットが導入されており、下流のタスクのトレーニングデータの量を減らした後のモデルのパフォーマンスを比較するために、データセット全体の 10% や 20% などの一部を選択するだけで済みます。

従来の少数ショット設定と比較して、このパーセンテージ サンプル設定では、元のデータセットのロングテール分布などの特性を適切に保持し、サンプル選択に対する感度を軽減できます。一部のデータ セットでは、下の表の VOC07+12 のようにサンプル カテゴリの分布が不均衡であるため、パーセンテージ データ分割方法ではこの分布が継承されます。

右側の 3 つの列 (avg、min、max) は、データの 10% における異なるカテゴリのサンプル数の平均値、最小値、最大値を表します。

上記のデータセットとタスクタイプを組み合わせて、この論文では評価と比較のためにいくつかの代表的なモデルを選択しました。公平な比較のため、この比較ではこれらのモデルの公式の事前トレーニング済みの重みを使用します。これらのモデルには以下が含まれます。

  • RseNet
  • クリップ
  • レスネクスト
  • 少し
  • ヴィト
  • SwAV、DeepClusterV2、MoCo v2
  • デトコ

大規模で正確にラベル付けされたデータセット、モデル構造、評価ベンチマークがあれば、トレーニング以外の準備はすべて完了です。

学者は、古代中国の学者の典型的なイメージとして、基礎的な知識とスキルの習得から始まり、さまざまな専門知識の知識を他の分野に応用し、一般的な知識を備えたジェネラリストに成長するまで、継続的な学習と成長を通じてあらゆる面で才能を獲得する擬人化された役割を表しています。この画像により、INTERN システムは継続的に学習し、あるインスタンスから別のインスタンスへと推論を導き、徐々に一般的な視野を徹底的に理解し、最終的に柔軟で効率的なモデル展開を実現できます。

このシステムがトレーニングを通じて、初心者から専門家、そしてジェネラリストへと徐々に成長し、最終的にさまざまなタスクでその能力を発揮する方法を見てみましょう。

最初の段階では、基礎的な能力を訓練します。これを「基礎モデル」(アマチュア)と呼びます。

近年、CLIP はゼロショット認識機能と下流タスクへの移行能力により大きな注目を集めています。

しかし、CLIP は事前トレーニングに 4 億の画像とテキストのペアを必要とします。データ量が膨大であるため、CLIP をさらに開発することは困難です。しかし、「Shusheng」は、画像とテキスト、画像と画像、テキストとテキストのペアからの監視信号を同時に使用してモデルの事前トレーニングを行う新しいトレーニングパラダイム、DeCLIP(Data efficient CLIP)を提案しました。これにより、より効果的に汎用性を実現できます。

さらに、大規模なマルチモーダルデータの利点を最大限に活用して基本モデルを取得するために、この段階では、イントラモーダルとクロスモーダルの知識を同時にマイニングする Upstream-Amateur (Up-A) ビジュアル言語事前トレーニング フレームワークを提案します。

このトレーニング フレームワークは、Upstream-Amateur for Global Representation (Up-AG) と Upstream-Amateur for Local Representation (Up-AL) の 2 つの事前トレーニング段階に分かれています。

その中で、Up-AG(左)はグループ監督を利用して、より豊富な監督から学習します。 Up-AL (右) は、ローカル自己教師学習法を使用して、トレーニング済みの視覚言語モデルを調整し、高密度予測 CV タスクでのパフォーマンスを向上させます。

アップストリームアマチュアフレームワーク

これらの固有の監視のおかげで、DeCLIP-ResNet50 は ImageNet で 60.4% という第一級のゼロショット精度を達成できます。これは CLIP-ResNet50 よりも 0.8% 高く、使用するデータは 81% 少なくなります。下流のタスクに転送すると、DeCLIP-ResNet50 は 11 個のビジョン データセットのうち 8 個で CLIP よりも優れたパフォーマンスを発揮します。

さらに重要なのは、トレーニングされた Upstream-Amateur が、その後のトレーニング フェーズに高い出発点を提供することです。

第二段階は、専門能力を養成することであり、これを「エキスパートモデル」(Expert)と呼びます。

Up-A ステージで得られた基本モデルは、一般的な視覚認識問題に対して優れたパフォーマンスを示します。ただし、検出やセグメンテーションなどのより具体的なタスクを完全に習得するには、各タスクでより専門的な事前トレーニングが必要となり、第 2 段階であるエキスパート モデルの登場につながります。

ShuSheng は、各エキスパートに対して、シンプルなマルチヘッド設計を採用しています。各ヘッドは、共通の共有「トランク」から分岐するデータセット固有のサブネットワークです。たとえば、Up-E (C)、Up-E (D)、Up-E (S) は、それぞれ画像分類、オブジェクト検出、セマンティックセグメンテーションに使用されます。

3番目の段階は、組み合わせる能力を訓練することであり、「ジェネラリストモデル」と呼ばれます。

上記のマルチタスクは、異なるデータセット(ImageNet や CIFAR など)の視覚的な問題(分類など)、または 1 つのデータセットの複数の視覚的な問題(分類と検出など)を指します。しかし、鍵となるのは、より一般的な視覚モデルを得るために、専門家を統一モデルに統合する方法です。したがって、事前トレーニングの「エキスパート」段階の後、特徴表現をさらに統一するために、「ジェネラリスト」が 3 番目の事前トレーニング段階として使用されます。

「学者」は、「ジェネラリスト」と呼ばれるジェネラリストモデルを開発するために、「ハイブリッドパラメータ共有」と呼ばれる新しいパラダイムを提案しました。

具体的には、専門家が獲得した知識は相互に関連しているため、専門家の特徴を共有表現に融合する際に、ソフト共有に基づくタスク間知識転送とハード共有に基づく普遍的表現学習の方法を使用して、タスクの競合を生じさせることなく専門家間で情報転送(特徴転送)を行い、マルチタスクトレーニングのモデル(専門家)パフォーマンス、つまり「ジェネラリスト」能力をさらに向上させます。

構造的には、ジェネラリスト モデルはすべてのスペシャリストが相互接続されたバージョンであるため、各「スペシャリスト トランク」は「ジェネラリスト ブランチ」と呼ぶことができます。さらに、ジェネラリスト内の各ブランチを、対応するエキスパートをトレーニングするタスクに応じて、画像、パッチ、ピクセルに分割することもできます。しかし、ソフトシェアリングであれハードシェアリングであれ、それはエキスパートモデルからジェネラリストモデルへの飛躍を意味します。

最初の 3 つのトレーニング ステージ モジュールを完了すると、最終的なタスク転送ステージ (適応) に到達します。

この段階はテクノロジー チェーンの下流に属し、さまざまな種類のタスクを解決するために使用されます。これは、「学者」の推論能力が最もテストされる瞬間でもあります。この段階では、以前に学習した一般的な知識を統合し、それをさまざまな特定のタスクに適用する必要があります。

これに先立ち、多くの転移学習法は確かに大きな進歩を遂げてきましたが、問題は、これらの方法が上流の事前トレーニングにおける暗黙的な情報を活用しておらず、また、少数ショットのシナリオにおける下流のデータの不十分さを考慮していないことです。

そこで、「Shusheng」は、データが少ない場合の転送の難しさを軽減するために、多段階微調整(MF)方式を提案しました。上流データを生成モデル、つまりVQ-GANにエンコードすることで、事前トレーニング済みモデルを、上流データを毎回使用せずに複数のタスクや分野に転送することができ、これにより、「Shusheng」の汎用性とスケーラビリティも向上しました。

多段階微調整 (MF) の概要: VQ-GAN モデルは、最初の段階で上流データを使用して最初にトレーニングされ、次に 2 番目の段階で下流データが再構築されます。その後、第 3 段階では、新しく追加されたタスクに固有のパラメータを使用して再表現された画像のみをトレーニングし、第 4 段階では下流のデータを使用してモデル全体を微調整します。

この時点で、継続的な学習機能を備えた汎用ビジュアルモデルがようやく誕生しました。

具体的な改善点については、より直感的な実験データの比較をご覧いただくのがよいでしょう。

3. 視野内の4つの主要なタスクを完了する

視覚の分野には多くのタスクがあり、主流のタスクには分類、物体検出、セマンティックセグメンテーション、深度推定などがあります。

これら 4 つの主要タスクの中で、最も強力な視覚モデルは、依然として OpenAI が昨年リリースした CLIP モデルです。しかし、比較すると、「Shusheng」は精度とデータ利用効率が向上しています。

(1)精度性能

「Shusheng」がトレーニングしたモデルをGV-Bで評価比較したところ、多段階の事前トレーニングを経たMetaNetは優れた精度性能を発揮することがわかりました。

ImageNetなどの最も代表的なダウンストリームシナリオ26件では、分類、オブジェクト検出、セマンティックセグメンテーション、深度推定の4つの主要タスクにおける「Shusheng」の平均エラー率がそれぞれ40.2%、47.3%、34.8%、9.4%減少しました。

異なるサンプルサイズでのINTERNとCLIP-R50x16のパフォーマンス比較、精度表示

(2)データ利用効率

「Shusheng」のデータ効率の向上は特に顕著で、完全なダウンストリーム データに基づいてトレーニングされた CLIP の精度を上回るには、ダウンストリーム データの 1/10 しか必要ありません。

GV-B での CLIP-R50x16 と Up-G MN-B15 の評価比較を例にとると、分類、オブジェクト検出、セマンティックセグメンテーション、深度推定という 4 つの主要タイプの 26 の下流タスクデータセットで評価されました。トレーニングにデータの 10% のみを使用した Up-G MN-B15 モデルは、すべてのトレーニングデータを使用した CLIP-R50 よりも、ほとんどのデータセットで優れた精度パフォーマンスを発揮しました。これは、多段階の事前トレーニングを経たMetaNetが非常に強力な一般化能力を持ち、少数のトレーニングサンプルのみでSOTA精度のパフォーマンスを達成できることを示しています。

下流の視覚シナリオでは、小さなサンプルのトレーニングにより、トレーニング速度が非常に速くなり、トレーニング コストが非常に低くなります。

たとえば、花の種の識別タスクでは、「Scholar」は各種類の花のトレーニング サンプルを 2 つ提供するだけで、99.7% の精度を達成できます。

この花のデータセットは、英国でよく見られる 102 種の花で構成されており、カテゴリごとに 40 ~ 258 枚の画像が含まれています。スケール、ポーズ、照明にはさまざまなバリエーションがあります。

102 種類の花のデータセット: https://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html

4 ユニバーサルビジョンプラットフォーム、オープンソース化

このような強力な一般視覚トレーニング モデルが正式にオープン ソースになりました。

さらに重要なのは、上記のすべてのラベル付きデータセット、ネットワーク構造、評価ベンチマークが OpenGVLab にパッケージ化され、オープンソース化されていることです。

ネットワーク構造には、MetaNet に加えて、一般的に使用される ResNet、MobileNet、ViT、EfficientNet なども含まれており、さまざまなシナリオのアプリケーション ニーズを満たし、コンピューター ビジョンを実現します。

しかし、「Scholar」のレイアウトはそれだけではありません。

OpenGVLabは、上海人工知能研究所が以前にリリースしたOpenMMLabおよびOpenDILabと協力してオープンソースシステムOpenXLabを構築し、汎用人工知能の技術革新とエコシステム構築を継続的に推進していきます。

このオープンソースプラットフォームを使用している自律運転アルゴリズムの研究者は、「Shushengシリーズのモデルは、小型の移動式展開モデルから超大型の自社開発構造まで、あらゆるものを完全にカバーしており、業界に希望をもたらしています。特に、その収束速度はトレーニングコストを大幅に節約し、技術の実装を大きく後押しします」と述べています。

自動運転の分野だけでなく、スマートシティ、スマート医療、スマート交通、その他何千ものインテリジェント分野も、ユニバーサルビジョンモデルがもたらす技術的利益の恩恵を受けるでしょう。

テンセントの研究者は OpenGVLab を称賛し、「このような大規模な作業をオープンソース化するのは、まさに業界の良心です。少し使ってみると、確かに CLIP よりもきめ細かいことがわかります。」と述べました。

学術コミュニティの教師や学生も次のように感想を述べています。「OpenGVLab は、さまざまな規模の最先端のモデルを多数統合しているため、使いやすく、さまざまなコードベースやさまざまなモデルに関する面倒な調査の手間が省けます。」

言い換えれば、それらのコードや公式から退屈な外皮が剥がされると、人々は真の創造性を発見するでしょう。これも技術革新とプラットフォームオープンソースの魅力です。

近い将来、このユニバーサルビジュアルモデルを使ってコンテストに参加すれば、賞金も莫大なものになるでしょう!技術生産性の道で、金持ちになるための新しい小さなトリックが生まれました!

現在、「Shusheng」の技術レポート「INTERN: 一般ビジョンに向けた新しい学習パラダイム」がarXivプラットフォームで公開されています。

論文アドレス: arxiv.org/abs/2111.08687​

<<:  食べられる「論理ゲート」:科学者たちはデザートを「ミニコンピューター」に変えた

>>:  自律飛行ロボットが浙江大学から集団で飛び立ち、サイエンス誌の表紙に登場

ブログ    
ブログ    
ブログ    

推薦する

生成 AI とデータ品質は共存できますか?

このハイテク時代では、生成型人工知能については誰もが知っているか、少なくとも聞いたことがあると思いま...

...

アクセシブルな旅行はより安全です! ByteDanceの研究成果がCVPR2022 AVAコンペティションで優勝

最近、CVPR2022の各競技の結果が次々と発表されました。ByteDanceの知能創造AIプラット...

国宝の旅:人工知能技術が文化遺産の病気を防ぐ方法

一日で世界三大博物館を訪れ、数千年前の国宝を自分の手で触り、さらには1300年前の繁栄した唐王朝にタ...

AIが仕事や生活を奪ったら、人類の未来はどうなるのでしょうか?

AIの発展は、人間の仕事の効率を向上させ、人間の働き方を変え、さらには人類の発展の方向を導く上で大...

AI革命をリードする:企業がAIアプリケーションを推進するためのベストプラクティス

AI がより高度化し、普及するにつれて、多くの企業が最高 AI 責任者 (CAIO) を任命するかど...

顔認証ロック解除を使用するとき、携帯電話はどのようにしてあなたを「認識」するのでしょうか?顔認識について詳しく知る

2020年10月1日、私たちの祖国は71歳の誕生日を迎えました!我が国は、最初の人工衛星の打ち上げか...

AIとローコード/ノーコードのすべきこと、すべきでないこと

ローコードとノーコードは、新しいアプリケーションやサービスを簡単に作成できるようにして、プログラマー...

絵が醜すぎて見せられない?機械学習用の描画テンプレートセットを作った人がいます。ダークモードもあります

機械学習の専門家は、ニューラル ネットワーク図の描き方について心配する必要がなくなりました。論文やブ...

顧客エンゲージメントにおける 5 つの主要な AI トレンド

クラウド通信および顧客エンゲージメント プラットフォームである Twilio が発表した新しい調査レ...

...

コンピュータマスターのジレンマ!試験に合格するのは難しく、仕事を見つけるのも難しい

3年前、ディープラーニングを専攻し、2019年度に入学したばかりのコンピューターマスターが知乎に質問...

超知能オートメーション: タマネギの皮をむく旅

翻訳者 | 李睿校正 | 孫淑娟 良策企業システムのインテリジェント自動化のプロセスでは、各段階の開...