高密度の手動ラベルなしで下流の高密度予測タスクを実行するための自己教師学習法がリリースされました

高密度の手動ラベルなしで下流の高密度予測タスクを実行するための自己教師学習法がリリースされました

[[399115]]

事前トレーニングにより、下流のタスクのパフォーマンスが大幅に向上することが示されています。従来の方法では、モデルの教師あり事前トレーニングに大規模な画像注釈付き分類データセット (ImageNet など) がよく使用されます。近年、自己教師あり学習法の出現により、事前トレーニング タスクで高価な手動ラベル付けが不要になりました。ただし、ほとんどの方法は画像分類用に設計され、最適化されています。ただし、画像レベルの予測と領域レベル/ピクセルレベルの予測には違いがあるため、下流の高密度予測タスクにおけるこれらの事前トレーニング済みモデルのパフォーマンスは最適ではない可能性があります。

これを基に、アデレード大学、同済大学、ByteDance の研究者らは、高価な手動の高密度ラベルを必要とせずに下流の高密度予測タスクで優れたパフォーマンスを達成できる、シンプルで効果的な高密度自己教師学習法を設計しました。この論文はCVPR 2021に採択されました。

論文の宛先:
出典:http://arxiv.org/pdf/2011.09157

コードアドレス:
https://github.com/WXinlong/DenseCL

方法

本研究で提案された新しい手法DenseCL(Dense Contrastive Learning)は、局所特徴間の対応を考慮し、入力画像の2つのビュー間のピクセル(または領域)特徴のペアワイズコントラスト(非類似度)損失を直接最適化することにより、高密度の自己教師あり学習を実現します。

表現学習のための 2 つの対照的な学習パラダイムの概念的描写。

既存の自己教師ありフレームワークでは、同じ画像の異なるデータ拡張を正のサンプルのペアとして使用し、残りの画像のデータ拡張を負のサンプルとして使用して、正のサンプルと負のサンプルのペアを構築し、グローバルな対照学習を実現しますが、多くの場合、ローカルな特徴の接続性と違いは無視されます。これを踏まえて、本研究で提案する方法では、同じ画像内の最も類似した 2 つのピクセル (領域) 特徴を正のサンプルのペアとして、残りのすべてのピクセル (領域) 特徴を負のサンプルとして、高密度コントラスト学習を実現します。

具体的には、この方法では、既存の自己教師学習フレームワークのグローバル プーリング層を削除し、そのグローバル マッピング層を高密度マッピング層の実装に置き換えます。マッチング戦略の選択に関しては、最大類似性マッチングとランダム類似性マッチングは最終的な精度にほとんど影響を与えないことを研究者らは発見しました。ベースライン手法MoCo-v2[1]と比較すると、DenseCLは計算オーバーヘッドがごくわずか(1%未満遅い)ですが、オブジェクト検出やセマンティックセグメンテーションなどの下流の密なタスクに移行するときに優れたパフォーマンスを示します。 DenseCL の全体的な損失関数は次のとおりです。

モデルのパフォーマンス

この研究では、マッチング戦略が下流のタスクのパフォーマンスに与える影響を評価するためにアブレーション実験を実施しました。結果を次の表に示します。

別の一連のアブレーション実験では、事前トレーニング領域の数が下流タスクのパフォーマンスに与える影響を評価しました。結果を次の表に示します。

次の図は、下流の集中タスクに移行する場合のこの方法のパフォーマンス向上を示しています。

この研究ではさらに、トレーニング時間が長くなるにつれてベースラインとの視覚的な比較が提供され、DenseCL が一貫して MoCo-v2 よりも少なくとも 2% 優れていることが示されています。

DenseCL と MoCo-v2 の事前トレーニング時間の消費量の比較は次のとおりです。

次の図は、ローカルな意味的特徴間の対応関係を説明するために、類似度の高い一致を視覚化したものです。

下の図に示すように、ランダム初期化による対応のほとんどは間違っています。図から、トレーニング時間の変化に応じて対応が変化することがわかります。

[1] 運動量対照学習によるベースラインの改善。Chen, Xinlei、Fan, Haoqi、Girshick, Ross、He, Kaiming

<<:  人工知能のこれら 5 つのトレンドは世界にどのような影響を与えるでしょうか?

>>:  自動化プロジェクトの成功は、ビジネスとITの高度な連携にかかっています。

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

AIチップブラックテクノロジーインベントリ

ビッグデータとディープラーニングの利用が増えるにつれて、基盤となるハードウェアとチップに新たな要件が...

AIがデータ分析を拡張し、効率化する方法

今日のデータ主導の世界では、AI が業界全体を変革しています。 AI は大規模なデータ分析を加速し、...

WeChat、サードパーティのエコシステムに統合するインテリジェント会話システム「Xiaowei」を発表

2019年WeChatオープンクラスPROで、WeChat AIチームが開発したインテリジェント対話...

AIは科学者のツールになり得るか? Nature がトップクラスの学者 5 人にインタビュー: コードの書き方を学び、期待を下げよう

[[430245]]人工知能(AI)は、専用の研究分野から他の分野のツールへと徐々に移行しており、学...

ディープラーニングの最適化を理解するにはどうすればよいでしょうか?勾配降下法の軌跡を分析することで

ニューラル ネットワークの最適化は本質的に非凸ですが、単純な勾配ベースの方法は常にこのような問題を解...

...

説明可能な不正防止AIについてお話しましょう

人工知能は近年急速に発展し、さまざまな業界の無数のユースケースで強力なイノベーションツールとして広く...

グラフアルゴリズムシリーズ: 無向グラフのデータ構造

[[393944]]この記事はWeChatの公開アカウント「Beta Learns JAVA」から転...

OpenAI が 10 億ドルで Microsoft に売却された後、汎用人工知能にはまだ希望があるのでしょうか?

[[422423]]お金が手に入ったとき、あなたはまだ当初の意図を貫くことができますか? OpenA...

Chen Danqi 氏のグループによるマスク言語モデルに関する研究: 15% のマスク率は最適ではないが、40% は維持可能か?

少し前に、スローン財団は2022年度スローン研究賞の受賞者を発表しました。Chen Danqi、Fa...

クラウドベースのAIモバイルアプリケーションは今後も成長し、改善され続けるだろう

近年、モバイルラーニングと人工知能は、人々が機械と連携する方法に大きな影響を与えており、個々の顧客に...

携帯電話なら何でもコピー&ペーストできる。このデザイナーはパートタイムでコードを書き、ARを新たなレベルに引き上げた。

見たものを何でもコピーします。これは魔法ですか、それとも孫悟空の魔力ですか?どちらでもない。これが ...

マイクロソフトが新たなAIアクセス原則を発表、同社史上最大の投資計画

IT Homeは2月27日、2024年のモバイル・ワールド・コングレスでマイクロソフトのブラッド・ス...

10回!マイクロソフトは、1000億のパラメータをトレーニングできる史上最大のNLGモデルをオープンソース化しました。

AI の最新の傾向は、自然言語モデルが大きくなるほど精度が向上するということですが、コスト、時間、...

人工知能:現在も将来も有望

最近、2020年世界人工知能会議が中国上海で開催されました。各国の専門家らがオンラインで議論し、人工...