転移学習に関する最先端の研究：低リソース、ドメイン一般化、安全な転移

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

転移学習は機械学習の重要な研究分野であり、学習した知識を新しい問題に適用して、新しい問題を解決する能力を高め、新しい問題を解決する速度を上げることに重点を置いています。

4月8日、AI TIME Young Scientists - AI 2000 Scholars Forumで、Microsoft Research Asiaの研究員である王金東氏が「転移学習の最前線探究：低リソース、ドメインの一般化、安全な転移」と題する報告を行った。王氏は、転移学習はドメイン適応の分野で多くの研究が行われており、比較的成熟していると述べた。しかし、低リソース学習、安全な転送、ドメインの一般化など、解決すべき問題はまだ多く残っています。

こうした3つの仕事の側面に対して、王金東氏は3つのシンプルで新しい拡張アイデアを提示した。以下はスピーチの全文であり、AI Technology Reviewは原文の意味を変えずに編集した。

すべてのコンテンツは、Github で最も人気のある転移学習リポジトリである transferlearning.xyz にあります。

今日は、転移学習の 3 つの領域、つまり低リソース、ドメインの一般化、安全な転送に関する取り組みについて紹介します。転移学習の英語名は Transfer learning です。基本的なパラダイムは、事前トレーニング済みのモデルを微調整して「再利用」することです。機械学習アプリケーションの大部分を見ると、コストを節約するためにこの事前トレーニング + 微調整パラダイムが採用されています。

上の図は転移学習パラダイムの例を示しています。教師ネットワークモデルでは、入力プロセスと出力プロセスのトレーニング一式を完了すると、比較的良好なパフォーマンスが達成されています。生徒モデルをトレーニングする場合は、教師ネットワークの Tk レイヤーを修正または借用し、タスクのみに基づいてモデルを微調整することで、パフォーマンスを向上させることができます。

現在、CV分野ではResNetがすでに存在し、NLP分野ではBERT、RoBERTなどのモデルが利用可能です。上記のように、2016 年の GitHub には転移学習に関連するリポジトリが合計 2,220 個あるという統計があり、現在はさらに増えている可能性があります。

上の図は、過去 5 年間にトップカンファレンスで転移学習の分野で達成された進歩を示しています。 NIPS16で転移学習が将来非常に重要になると最初に述べたのはAndrew Ng氏でした。その後、CVPR2018で最も優れた論文の1つが転移学習に関するものでした。同じ年のIJCAI18では、チームが転移学習技術を使用してADsコンペティションで優勝しました。2019年のACLカンファレンスでは、一部の学者が転移学習のパラダイムがNLP分野で非常に重要であると強調し、1年後には転移学習の論文がカンファレンスの最優秀論文にノミネートされました。

昨年まで、ディープラーニングの三大巨頭は、現実世界ではデータの分布が不安定であり、小さなデータセットの変化に迅速に適応できる移行モデルの開発が必要であると述べていました。

実際、学習を進めていくと、転移学習には解決すべき問題が多くあり、新しい手法を継続的に開発する必要があることに徐々に気付くでしょう。

転移学習パラダイムでは、トレーニングデータと事前トレーニング済みモデルが完全に一致する場合、優れたパフォーマンスを持つアプリケーションを開発できます。大きな差がある場合は、「外部補助データ」の助けを借りて修正し、ターゲットモデルを取得して、テスト (未知) データでより優れたパフォーマンスを実現できます。

実際には、トレーニングデータからテストデータまでのプロセス全体には、次のような多くの問題があります。

低リソース学習、つまり、データが少ない場合に移行モデルを設定する方法。
ドメイン適応、つまり、トレーニングセットとテストセットのデータ分布に偏差がある場合に問題をどのように解決するか。
ドメイン一般化: データ分布が異なる複数のデータセット (ドメイン) から、強力な一般化能力を持つモデルを学習する方法。
同時に、プライバシーが漏洩したり、モデルが「汚染」されたりしないように、プロセス全体で常に安全な移行に注意を払う必要があります。

現在、ドメイン適応については多くの研究成果が出ており、この分野は比較的成熟しています。しかし、低リソース学習、安全な転送、ドメインの一般化など、解決すべき問題はまだ多く残っています。

1 低リソース学習

低リソース学習の本質は、少数のラベル付きサンプルに依存して、強力な一般化能力を持つモデルを学習し、未知のデータに対して優れたパフォーマンスを発揮することを期待することです。しかし問題は、少量データのラベルにさまざまなシナリオの知識が依然として含まれていること、そしてこの知識を大量のラベルなしデータに転送できることをどのように保証するかということです。

この古典的な研究は NeurIPS 2020 に由来しており、Google は論文で FixMatch アルゴリズムを提案しました。このアルゴリズムは、一貫性の正則化としきい値ベースの信頼度を通じて半教師あり学習を簡素化し、固定しきい値を設定して転移学習の知識を調整します。

式は上記の通りです。モデル学習の信頼度はしきい値によって決まります。特定のドメイン値より大きい場合、これらのデータはトレーニングと予測に使用されます。そうでない場合、これらのデータは次回のトレーニングには参加しません。

では、半教師あり学習の場合、閾値のみを考慮してモデルを事前トレーニングするだけで十分でしょうか?論文では、Google は閾値を 0.95 に設定しました。明らかに、この数値は Google の実験から得られたものです。実際のところ、現実世界での値が何であるかは決してわかりません。

これを踏まえて、より現実的な閾値を学習すること、つまり、データに基づいてモデルが柔軟に値を決定できるような適応型学習手法を開発する必要がある。この考えを検証するために、まず「固定しきい値と柔軟なしきい値のどちらを選択するか」という質問に答えます。

上の図 (左) に示すように、固定しきい値の損失は非常にゆっくりと減少します。同時に、2 つのオプションの ACC 指標を比較すると、上の図 (中央) に示すように、カテゴリごとに異なるしきい値を設定する必要があることも証明されます。

「動的調整」というアイデアに基づいて、NeurIPS 2021で以下の特徴を持つFlexMatchアルゴリズムを提案しました。

異なるカテゴリーに対して、異なる程度の閾値適応を実行できます。
異なるサンプルには異なるしきい値を設定します。
テスト段階では、閾値を平等に扱う必要がある
プロセス全体に人間の介入がなく、完全に自動学習しきい値

実験結果によると、上図（右）に示すように、同じデータセットでは、この方法は正の曲線を示し、効果は比較的安定しています。 FlexMatch の設計コンセプトは「カリキュラム学習」から借用したものです。半教師あり学習では、不確実なサンプルに疑似ラベルを付ける戦略がよく使用されます。疑似ラベルの学習は、簡単なものから難しいものへと段階的に移行していくプロセスである必要があり、カテゴリの学習も簡単なものから難しいものへと移行していくプロセスです。同時に、FlexMatch はクラスタリング仮定を採用しており、カテゴリとしきい値は密接に関連しています。

上記はこのアイデアのフローチャートであり、FixMatch に似ています。違いは、さまざまなカテゴリでの学習難易度を推定し、しきい値を適応的に調整することに重点を置いていることです。

上記の実験は、CIFAR10/100、SVHN、STL-10、ImageNet などの一般的に使用されるデータセットで実施され、FixMatch、UDA、ReMixmatch などの最新かつ最も強力な SSL アルゴリズムを比較しました。実験結果は上の表に示されています。ラベルが制限されている場合、FlexMatch によってパフォーマンスが大幅に向上することがわかります。新しいハイパーパラメータや追加の計算を導入することなく、複雑なタスクが大幅に改善され、収束速度が大幅に向上します。

この分野では、半教師ありアルゴリズムライブラリ TorchSSL をオープンソース化しており、現在、Pi-Model、MeanTeacher、Pseudo-Label、VAT、MixMatch、UDA、ReMixMatch、FixMatch のアルゴリズムをサポートしています。

リンク: https://github.com/TorchSSL/TorchSSL

2 低リソースアプリケーション

現実世界には膨大な数の言語が存在しますが、ラベル付けされたデータは非常に少ないです。世界には 7,000 の言語がありますが、一般的に使用されているのはそのうち数十言語のみで、残りの大部分はリソースの少ない言語です。モデルの過剰適合を避けながら、少量のデータでモデルをトレーニングする必要があります。そのため、リソースの少ない言語の自動音声認識 (ASR) は、エンドツーエンド (E2E) モデルにとって依然として課題となっています。

転移学習の解決策は、リソースが豊富な言語で事前トレーニングし、リソースが乏しい言語で微調整し、リソースが豊富な言語とリソースが乏しい言語の両方でマルチタスク学習を実行し、リソースが豊富な言語でメタ学習してリソースが乏しい言語に素早く適応することです。

具体的には、言語間のつながりを発見する必要があります。たとえば、上の図は、異なる言語間および異なる言語ファミリー間に類似点と相関関係があることを示しています。これらの言語はどのように分布しており、どのような類似点がありますか?私たちの目標は、この関係を適応的に学習することです。

現在、暗黙的と明示的という 2 つの主な方法があります。このうち、暗黙的とは、言語間の関係について何の仮定も立てず、ネットワークを通じて直接学習することを意味し、明示的とは、アルゴリズムを簡素化するために言語間に線形関係があると仮定することを意味します。

上記の 2 つの点に基づいて、MetaAdapter と SimAdapter という 2 つのシンプルなアルゴリズムを設計しました。前者は異なる言語間の関係を直接学習できますが、後者は言語間に線形関係があると仮定し、学習に注意メカニズムを使用します。同時に、MetaAdapter と SimAdapter を組み合わせて、より良い結果を実現するために SimAdapter+ を設計しました。具体的なモデル構造は以下のとおりです。データ内のパラメータを微調整するだけでネットワークのトレーニングが完了します。

3 ドメインの一般化

ドメイン一般化の目的は、複数のトレーニング分布を活用して、未知のドメインで一般的なモデルを学習することです。データ属性が時間の経過とともに動的に変化し、動的な分布の変化につながるなどの問題があります。そのため、時系列でのデータ分布をいかに定量化するかなど、データの動的な分布変化を捉えることが必要になります。

上記の課題に対処するために、AdaRNN を提案します。まず、時系列における動的な分布変化の現象を、時間的共変量シフト（TCS）問題として定義します。上図に示すように、ある期間のデータは、A、B、C、および未知のデータに分割されています。AとBの間、BとCの間、AとCの間のデータ分布がかなり異なっていることがわかります。どのように解決しますか？ 2 つのステップがあります。まず、データの最悪の分布を学習し、次に最悪の分布のギャップを一致させます。

具体的には、クラスタリング手法を使用して問題を最適化し、次に貪欲アルゴリズムを使用してシーケンス分布を解決し、データを複数のセグメントに分割します。最後に、分布に一致するようにドメイン一般化を設計します。

私たちは、1 つの分類タスク (行動認識) と 3 つの回帰タスク (空気質予測、電力消費予測、株価予測) を含む 4 つの実際のデータセットでアルゴリズムの有効性をテストしました。実験結果によると、モデルのパフォーマンスはある程度向上しました。さらに、Adaptive メソッドは RNN だけでなく、Transformer 構造にも効果的であることがわかりました。

4. 安全な移行

安全な転送は、転送学習のあらゆる側面に反映されます。たとえば、転送学習モデルが悪用されないようにするにはどうすればよいでしょうか。効果を確保しながら移行モデルの複雑さを軽減するにはどうすればよいでしょうか?安全な転移学習を実施し、モデルが悪意を持って攻撃され、ユーザーに影響を与えるのを防ぐにはどうすればよいでしょうか?

たとえば、ソフトウェアエンジニアリングの分野では、ソフトウェアに悪意のあるバグがある場合、オープンソースコミュニティからソフトウェアをダウンロードすると、ソフトウェアの優れた機能だけでなく、攻撃に対して脆弱な脆弱性も継承することになります。さらに、ハッカーがソフトウェアがどのオープンソースコードを使用しているかを知っている場合、アプリケーションソフトウェアに対して対応する攻撃を仕掛けることができます。

教師から生徒への微調整パラダイムでは、生徒が教師から脆弱な脆弱性を継承する確率は 50% ～ 90% であると計算しました。言い換えれば、最悪のシナリオは、教師が攻撃されるのと同じ方法で生徒が攻撃される可能性があるということです。教師モデルは公開されているからです。

したがって、安全な移行研究の目的は、パフォーマンスを維持しながら、事前トレーニング済みモデルへの攻撃の数を減らすことです。これにより、未知の攻撃や DNN モデルの説明可能性の欠如などの問題が解決されます。

私たちは、パンダの写真にノイズを追加して AI がテナガザルであると認識するなどの敵対的攻撃と、数字の 7 を入力して数字の 8 を出力するなど、ニューラルネットワーク構造自体に悪用される可能性のあるものがあるバックドア攻撃の 2 種類の攻撃を検討しています。

安全な移行の問題に対処するために、私たちは ReMoS アルゴリズムを提案しました。その主なアイデアは、ネットワーク内の有用な重みを見つけて、無駄な重みを排除することです。最初のステップはニューロンを計算することです。2 番目のステップは、教師モデルの生徒モデルに対する重要度を評価し、2 つの差を計算することです。上記の 2 つのステップに基づいて、不要な重みを簡単に削除できます。

実験結果によると、ReMoS 法では計算量がほとんど増加せず、収束速度は基本的に微調整モデルと一致しており、ゼロからトレーニングするよりも大幅に優れています。

上の図（右）は、プルーニング後の重みとネットワーク層の関係を示しています。この結果は、ネットワーク層のデータが深くなるにつれて、ネットワークが学生のタスクにますます関連し、したがって、深い層の重みのほとんどが再初期化されることを示しています。この発見は、深層ネットワークは移転可能であるという結論とも一致しています。

まとめると、今日は主に、低リソース学習、ドメイン一般化、安全な移行という 3 つの側面を紹介しました。私は、これら 3 つの領域について、3 つのシンプルで新しい拡張アイデアを提案します。将来の研究者がより優れたフレームワークと新しい理論を設計し、転移学習のセキュリティを探求できるようになることを願っています。

<<: マイクロソフト、精度を80%以上に向上させるAIコードレビューツールを発表

>>: 人工知能は人間に取って代わるでしょうか？