研究のアイデアがない場合は、信頼できる機械学習のための革新的なアイデア1,000個をご紹介します。

I. はじめに

1. まず話をしましょう

約4〜5年前、私はカーネギーメロン大学（CMU）の博士課程の学生でした。私は名門校の指導を受け、一流の指導者のサポートを受けながら、科学研究とイノベーションに対して常に非常に高い基準を維持してきました。私たちが時間を費やすことに決めたことは、単純なものであってはなりません。そして長い間、ほとんどの人がこのように考えていると思っていました。

あるとき、会議中に、LSTM を用いた遺伝子発現の予測効果が前時代の SVM などよりも優れていると大まかに書かれたポスターを見せている女の子を見ました。これはまったく驚くべきことではありません。結局のところ、RNN ファミリー (LSTM など) がシーケンスデータの絶対的な王者であることは誰もがすでに知っていたからです。私はためらわずに直接尋ねました。

「しばらく使うだけなら大したことないよ？」

彼女の答えは謙虚でも傲慢でもありませんでした。

「大したことはない。本当のイノベーションはCMUで学んだ君たちがやるべきことだ。私にはそれができない。ただ論文を発表して、早く卒業して、仕事を見つけたいだけだ。」

みんなの追求の差を感じたのはこれが初めてです。結局、学校では誰かが本当にスパムをしていていても、それを認めません。

これからは、他人の仕事が水増しかどうかなんて、もう問いたくない。結局のところ、出発点も、経験も、現実的な要求も、人生ビジョンも、みんな違うんだから。

2. この記事の背景を簡単に説明してください

卒業後、私はイリノイ大学アーバナ・シャンペーン校 (UIUC) に入学し、1 年間教員として働きました。私の研究室は非常に初歩的なものでしたが、私たちが人生の追求に値すると信じる研究を続けるよう最善を尽くしました。学術会議の締め切りに間に合わせようと努力する中で、私たちは最近、傑出した最初の研究を発表しました[1]。

Liu、Haoyang、Maheep Chaudhary、Haohan Wang。「信頼性が高く整合された機械学習に向けて：因果関係の観点からのデータ中心の調査」arXivプレプリントarXiv：2307.16851（2023）。

私たちは、「堅牢性」、「敵対的耐性」、「解釈可能性」、「公平性」など、信頼できる機械学習のさまざまな分野から数学的なアイデアを収集します。この記事の概要は、数年前の単一モデルの時代から現在の大規模モデルの時代までを網羅しており、機械学習の研究は時代を超えて行われてきたにもかかわらず、これらの数学的な考え方はほとんど変わっていないことが指摘されています。

こうしたものを整理することの最も明らかな利点の 1 つは、誰もがこの分野をよりよく理解できるようになることです。近年、信頼できる AI に触れる人は多くなりましたが、このことを本当に理解している人は非常に少ないと思います。たとえば、ドメインの一般化とは、新しい一連のベンチマークでパフォーマンスを向上させることだけだと多くの人は考えています。私たちがまとめたこの作業によって、誰もがこれらの分野についてより包括的な理解を得られるようになることを願っています。

しかし、さらに重要なのは、分類作業によって、信頼できる機械学習に関連する問題を誰もがより高レベルの観点から検討できるようになることです。この作業を整理しているとき、私はクラスメートの二人に、作業が終わる頃には、記事の出版を続けるためのアイデアが簡単に 1,000 個以上あるはずだとよく言っていましたが、彼らも大いに同意してくれました。

しかし、本当の問題は、これらのアイデア、いわゆる「革新的な点」があるかどうかではありませんでした。しかし、これらのアイデアがすべての人の時間を費やす価値があるかどうかは疑問です。私は自分の博士号取得者に、このような簡単な論文を書かせません。それはゆっくりと私自身を堕落させるプロセスです。マヒープのようなインターンの場合は、彼が望むならやらせてあげてください。結局のところ、彼は将来の博士号申請のために経験を積む必要があるのです。

では、私たちが整理したたくさんのアイデアは何の役に立つのでしょうか? それを書き留めて、必要としている教師や生徒に渡すほうがよいでしょう。

しかし、これらのアイデアは、おそらく、上記の少女と同じ目標を持ち、卒業後に論文を発表したり就職したりする学生にしか役立たないでしょう。本格的に学問を学んでいる学生は向いていないかもしれません。結局のところ、時代を創る可能性のあるアイデアを誰もたくさん持っているわけではありません。むしろ、自分の研究室がそのような潜在的なアイデアを推進していく姿を見たいのです。

3. 信頼性を信じることがなぜ重要なのかについて話しましょう

ResNet 100 層が 2016-17 年に初めて登場したとき、私は、このような巨大な構造は精度だけで評価することはできないと述べました。なぜなら、SOTA 精度が、データセット内の交絡因子ではなく、モデルが本当に有用な何かを学習したことから実際に得られることを証明する証拠がないためです。結局のところ、このような巨大なモデルの場合、ImageNet のサイズは小さく、交絡因子の可能性ははるかに高くなります。しかし、当時の私はあまりにも世間知らずで、これらのアイデアが実際に論文の出版に使用できるとは知りませんでした...

最近まで、Dall-E、ChatGPT、Stable Diffusion、SAM など、私は学生たちに、これらのモデルを魔法のように見る必要はないと常に言ってきました。実際、それは主に、ユーザーがこれらのモデルの使用に慣れていないためです。100 層の ResNet が最初に登場したときと同じように、新しい時代が到来し、コンピュータービジョンが解決されるというニュースがありました。ResNet は確かに新しい時代をもたらしましたが、コンピュータービジョンを解決するのではなく、信頼関係に基づくさまざまなサブ問題など、これまであまり注目されていなかったコンピュータービジョンの問題をさらに多く見ることを可能にしました。これは、ResNet の大成功により、日常生活においてコンピュータービジョンを大規模に活用できる可能性が示されたことと、実際に使用する際には信頼性に関するさまざまな問題が発生するためだと考えています。

ChatGPT など、時代をはるかに先取りしているサービスでも同様です。しかし、時代の流れに適応して長期間使用すると、信頼性の問題がすべて再発していることに気付くでしょう。

II. 背景

1. 信頼できる機械学習とは何ですか?

信頼できる機械学習は、一般的にいくつかのサブフィールドの総称であると考えられています。サブフィールドの範囲は正確には決まっていないようですが、一般的に重要なサブフィールドは以下のとおりであると考えられています。

堅牢性: たとえば、ドメイン適応やドメイン一般化などの分野では、機械学習が適用 (テスト) 中に直面するデータは、通常、トレーニング中のデータとは異なります。これらの違いがモデルのパフォーマンスに影響を与えないようにする方法が、これらの分野のテーマです。
敵対的堅牢性 (セキュリティ): 最も有名なのは、おそらくパンダの写真でしょう。一般的に言えば、これは、わずかに乱されたデータに対してモデルが元のパフォーマンスを維持できるかどうかを研究するものです。これらの小さな乱れは意図的に加えられるものではなく、特に生成するには高度なアルゴリズムが必要です。
説明可能性: 名前の通り、簡単に言えば、モデルの動作プロセスの仕組みをユーザーが理解できるように説明できるかどうかを意味します。具体的な定義はさまざまです。
公平性: 一方で、過度に機密性の高い情報 (性別、年齢、家族背景など) は、モデルの作業プロセスでは使用すべきではありません。一方、一部の少数民族は統計処理の過程で自然に除外されることになるが、それはあってはならないことだ。

私たちの仕事は、おおよそ上記の 4 つのサブ領域をカバーしています。プライバシー保護などの他の領域も、通常は信頼とその学習の範囲内で考慮されます。

多くの人が見落としている問題があると思います。信頼できる機械学習は、その定義の元からすると、単純な統計問題ではありません。信頼できる機械学習、それを信じるのは誰ですか? そして、それが信頼できるかどうかを誰が決めるのでしょうか?解釈可能なモデルは人間には理解できますが、ペットには理解できません。解釈可能なのでしょうか? 逆の場合はどうでしょうか?地域によって教育レベルは異なります。一流大学の入学率を同じに維持したり、全国で同じ試験問題を用意したりするのは公平でしょうか?これらの質問に対する明確な答えはなく、機械学習の研究自体がそれらの答えを出す必要もありません。私たちがすべきことは、意思決定者が「信頼性」の概念を定義するときに適切な方法を考え出すことです。しかし、これを行うための前提は、「信頼性」（および「堅牢性」、「説明可能性」、「公平性」）などが主観的であることを認めることです。

本稿では、以下の図を用いて「堅牢性」が主観的な概念である理由を説明しました。「意味論」や「優越性」（または「近道」など）の定義も主観的な概念です。

図 1. 信頼できる機械学習の数学は普遍的ですが、「信頼できる」ものとは何かは実は非常に主観的な問題です。たとえば、カメと海は通常は強く相関していると予測したい場合、動物を予測するか環境を予測するかによって、どの信号が「セマンティクス」で、どの信号が「偽」であるかが決まります。

この図は、私の以前の論文[2]に掲載されたより単純な図から派生したものです。

2. 「信頼性」の課題はどこから来るのでしょうか?

「信頼できる」機械学習モデルをトレーニングするのは簡単な作業ではありません。これには多くの理由が考えられますが、最も重要なのはデータ自体がもたらす課題であると考えています。これが、近年データセントリック AI (DCAI) がますます重要になっている理由の 1 つでもあると考えています。下の図は、私が長年説明しようとしてきた現代の機械学習の中心的な課題の 1 つです。

図 2. 現代の機械学習の中心的な課題の 1 つは、データに歴史的な理由から誤った相関関係や偏りがたくさんあることだと私は考えています。これは、大量のデータに依存して奇跡を起こす手法であるディープラーニングが、実際のアプリケーションのあらゆる場所で確実に問題を抱えているという事実に直接つながります。

この図も私の以前の論文[3]から発展したものです。

3. 「信頼できる」問題解決フレームワーク（パラダイム）

信頼性の高い機械学習手法の多くは、すべて 3 つの主要なフレームワーク (またはパラダイム) から派生していることがわかりました。

3.1. DANNのような手法

おそらく、これが最も単純かつ直接的な解決策でしょう。ドメイン適応が解決しようとする主な問題は、機械学習モデルのトレーニングデータセットが 1 つのドメイン (写真など) から取得され、テストデータセットが別のドメイン (スケッチなど) から取得されることです。優れたモデルが写真に写っている猫、犬、キリン、ゾウなどの動物を認識できるのであれば、スケッチに描かれた動物も認識できるはずだと私たちは主観的に信じています（この仮説の数学的モデルについては、2022 UAIでの私たちの研究を参照してください。[2]）

では、モデルがドメイン適応を実現できることをどのように保証するのでしょうか?

最も直感的なアプローチは、おそらくモデルをトレーニングし、モデルがドメイン自体に関連する特徴を学習しないようにすることです（つまり、モデルは画像が写真なのかスケッチなのかを区別できません）。

では、モデルが画像が写真なのかスケッチなのかを区別できないようにするにはどうすればよいでしょうか?

まず、非常に単純な質問に答えましょう。モデルが画像が写真なのかスケッチなのかを区別できるようにするにはどうすればよいのでしょうか。答えは簡単です。データに対応するドメイン情報を対応するラベルとして使用して、効果的なドメイン分類器をトレーニングします。

このドメイン分類器では、次のステップを説明する前に、まず、（再帰構造のない）あらゆるディープラーニングモデルについて、任意のレイヤーを指定して切り開き、このレイヤーの前のレイヤーをエンコーダー、このレイヤーの後のレイヤーをデコーダーと呼び、このレイヤーの情報を表現と呼ぶことができるという事実を説明します。

ここで、このドメイン分類器をデコーダーとして考えてみましょう。現在、このドメイン分類器がドメインを認識できないようにしようとしていますが、このドメイン分類器はトレーニング済みであるため、変更できません。唯一の方法は、エンコーダーを使用してこのドメイン分類器の入力を変更し、対応する表現がドメイン分類器によって認識されないようにすることです。

次に、最終的な目標は、モデルが猫、犬、キリン、ゾウなどの動物を区別できるようにすることです。そのため、デコーダーとして通常の分類器も必要であることを忘れないでください。

これらを組み合わせたものがドメイン敵対的ニューラルネットワーク（DANN）[4]です。

上記の紹介は、堅牢性における最も単純なドメイン適応に基づいていますが、同じ方法は多くの信頼できる分野に適用できます。たとえば、ほぼ同じ方法を使用して公平性の問題を解決できます。ドメイン分類器を2つの分野から複数の分野に拡張するフィールド一般化論文がいくつかあります。私たちの調査には多くの作業が含まれており、表面的には多様であるように見えるかもしれませんが、実際には数学的な核心はすべて同じです。興味のある教師と学生は、私たちの調査を詳しく読むことができます。

DANN システムに基づく別の方法ファミリーもあります。わずかな違いは、ドメイン分類器がドメイン ID などのラベルを通じてトレーニングされなくなり、特定の種類の機能のみを学習できる特別なアーキテクチャを通じて取得されることです。たとえば、テクスチャ機能のみとパッチのみを学習することに取り組んできました。より一般的なアプローチは、この役割を果たすために弱い分類器を使用することです。しかし、個人的には、このファミリーのメソッドは、独自のベンチマークでは問題ありませんが、より広範囲のタスクでは一般的にそれほど良くないと考えています。詳しい議論は当社の調査でご覧いただけます。

3.2. 最悪のケースのデータ拡張とそれに関連する正規化

データ拡張は、おそらくモデルのパフォーマンスを向上させる最もシンプルで直感的な方法の 1 つです。データ拡張は、信頼できる機械学習においても大きな役割を果たします。最悪のケースのデータ強化がより代表的であるというだけです。通常のデータ拡張（データをランダムに変換する）と比較すると、最悪ケースのデータ拡張の最大の特徴は、これらの変換がランダムに選択されるのではなく、損失が最大になる変換が選択されることです。

この一連の方法の最も重要な効果は、敵対的堅牢性の研究にあります。最も単純かつ効果的な方法は、攻撃方法を直接使用してデータを生成し、このデータをトレーニングに使用することであり、優れた結果が得られています[5]。

一般的な堅牢性研究において、回転、反転、またはミックスアップファミリの強化の場合、このランダム強化を最悪のケースに置き換えても、通常、メリットはほとんどありません。さらに、ランダムではなく最悪のケースであるため、計算の複雑さがはるかに高くなります (勾配を使用して支援するか、強化ごとに 1 つずつ選択する)。そのため、おそらく価値はありません。

もう 1 つの方法は、GAN、VAE、または新しい AIGC シリーズモデルを使用してデータの生成を支援することです。 GAN または VAE の計算グラフをトレーニング対象のモデルに接続すると、通常は最悪のケースの強化を簡単に実現できます (モデルの勾配情報を直接使用できます)。ただし、これらのモデルをメインモデル自体に追加すると、計算の複雑さが増します。

ここで非常に興味深い質問があります。GAN または VAE を使用してデータを生成する場合、生成されたデータが元のデータと大きく異なり、ラベルが異なる場合はどうすればよいでしょうか。したがって、生成されたデータが元のデータから大きく離れないようにするために、誰かが定義した標準が存在する必要があります。

実際、すべてのデータ拡張には、データを拡張するためにどの変換を使用するか、敵対的堅牢性においてどの程度の違いが許容されるかなど、この問題があり、これらはこの一連の方法における「主観的な」要素です。

次に、一般的な堅牢性シリーズでは、比較的隠れた最悪のケースの強化があります。私たちが行うRSCは、モデルをエンコーダーとデコーダーに分割し、中間表現に対して最悪のケースの強化を実行することと同等です[6]。この単純な方法は非常にうまく機能したようです。当時のこの分野の一般リーダーボードで簡単に SOTA に到達しただけでなく、その後いくつかの生物学的データで試したところ、結果も良好でした。

データを拡張し、各データに少なくとも 2 つのコピーが含まれるようになったので、各グループに 2 つのデータがあるというこのパターンをより有効に活用できる正規化はあるでしょうか。下の図ほどこのことをうまく説明できるものはないと思います。

図 3. データ拡張とシームレスに連携する正規化。この絵は私の別の作品[7]からの引用です。たとえば、猫と犬の分類器を例に挙げてみましょう。猫と犬を分類するモデルを作りたいのですが、猫はたいてい屋内にいるのに対し、犬は屋外にいるのを好むことが通常です。このようにトレーニングされたモデルは明らかに十分ではありません。猫と犬ではなく、屋内と屋外の情報しか学習しない可能性があるからです。この問題を克服する最も簡単な方法は、データ拡張を使用して、室内犬と屋外猫をいくつか描くことです。しかし、これだけでは十分ではありません。なぜなら、いつか犬が泳いだり、猫が宇宙に行ったりするかもしれないからです。したがって、1 つの戦略は、モデルがすべての背景を無視する方法を見つけることです。上の図のように、一対のデータを入力し、背景のように見えるものはすべて無視して、モデルにこの一対のデータの共通点を見つけさせます。

これはおそらく、正規化を使用して、モデルがデータセットの一貫した部分のみを学習するように要求できるようになったことを意味します。

正規化と強化の組み合わせも無数にあります。結局のところ、あらゆる距離メトリックでメソッドを作成できます。昨年の研究[7]では、この種の研究の概要を提供しようと試みました。当時私が取り組んだ関連作業の部分がとても気に入っています。そこには、現在存在しない方法もあるが、いずれにせよ将来発明されるだろうから、今から議論しておいた方がよいと書かれています。しかし、話し合った結果、これらの方法を発明する必要はないかもしれないということが分かりました。

さらに、私がこの一連のアイデアを提案したとき、よく次のような質問を受けました。「これは対照学習と非常に似ていますか？」「はい、ただし監督損失が追加されます。」「それは対照学習をここに持ち込んだだけではないでしょうか？」「それは結構ですが、この研究は対照学習よりずっと前に行われました。」

3.3. サンプル再重み付け法

このメソッドファミリは、前の 2 つのファミリに比べると比較的小規模ですが、それでも非常に大規模です。

この方法は直感的で理解しやすいです。多くの堅牢性と公平性のタスクでは、ある意味で少数派グループに属するデータポイントがいくつかあるため、モデルはこれらのデータを簡単に無視できます。モデルがこれらのデータにもっと注意を払うようにする最も直感的な方法は、これらの方法に重みを追加することです。したがって、これらのサンプルをどのように見つけ、重みをどのように増やすかがイノベーションの余地です。

これら 3 つのファミリのメソッドを下の図に整理しました。

図 4. 私たちの調査でまとめた、信頼できる機械学習の 3 つの主要なフレームワーク (パラダイム)。堅牢性、公平性、敵対的耐性、さらには解釈可能性など、この基本的なフレームワークに従う論文は数百、数千に上ります。 (a) 基本的なERMベースライン。（b）DANNパラダイムへの拡張。 (c) データ拡張パラダイムの拡張。c.1は正規化を追加した後の効果です。 (d)はサンプル再加重の観点の拡張です。

図 5. 3 つのパラダイム (赤) と ERM ベースライン (オレンジ) およびさまざまなドメイン (青) の間の数学的な接続。この記事では、さまざまな方法を簡単にまとめるだけです。より深い数学的つながりについては、当社の調査をお読みください。

また、2番目と3番目の方法の組み合わせも試しました[8]。私は個人的にこの方法がとても気に入っており、クラスメートに薬物検査用のOODデータセットで試してみるように頼んだことがあります。パフォーマンスは瞬時に向上し、コードにバグがあるのではないかと疑うほどでした。

私はこれまで、統計的観点からこれら3つのパラダイムの大統一理論を追求し、いくつかの試みを行ってきました[2]。しかし、この論文は難解すぎると批判されることが多く、この論文を説明するブログを書くことも検討しています。

III. タイトルに戻る - 1000イノベーションポイント

まずいくつかの質問に答えてください:

本当に1,000個あるんですか？ --- 似ていると思いますが、重要なのは数字ではなく原則です。実際、私と同じくらい私たちの調査に精通している人なら、1,000 というのは本当に控えめすぎると思うのですが、ここで調査全体を説明するエネルギーは本当にありません。

それらはすべてトップに投稿するために使用できますか? --- 何とも言えませんが、トップカンファレンスでは毎年同様の論文が発表されていることは確かですが、投稿数がどれくらいあるかはわかりません。
それを自分のために取っておいて、論文として出版してみてはいかがでしょうか? --- これらのアイデアは私の学問の追求を反映するには十分ではなく、今ではまったく使い切れないほどの野心的なアイデアが溢れています。

いよいよ本文に入ります。より良い導入部とするために、まず、以下の導入部が次の 4 つのセクションに分かれていることを明確にしておきます。

各タイプの信頼できる機械学習手法のいくつかを紹介するには、依然として最も伝統的な ERM 構造を使用する必要があります。学生とのコミュニケーションから判断すると、これらの手法は若い学生の「イノベーション」という言葉の理解に最も合致しているようです。
次に、重要なのは常に方法の本質であり、ERM 構造またはビッグモデルはこれらの方法の本質を具体化するための媒体にすぎないことを証明するトレンドに従います。したがって、基本的に同じパラダイムが大規模モデルにも適用されます。
さらに一歩進むと、これらの方法は互いに学習し、より良い結果をもたらすことができます。
最後に、うまくいかなかった場合は、申請してください。多くのアプリケーションの問題では、当然のことながら、モデルが少なくとも堅牢である必要があります。結局のところ、アプリケーションであれば、モデルは本当に有用でなければなりません。

4.1 ERMからの発展

4.1.1 ERMからの拡張 - DANNとその拡張

前述のように、最も古典的な手法の 1 つである DANN は、あまりにも何度も再利用されてきました。たとえば、最も単純なのは、ドメイン不変量を感度共変量不変量に直接マッピングすることですが、これは新しい方法です。2 つのドメインの不変量を複数のドメインの不変量に直接変換する (ドメイン適応からドメイン一般化へ) のも別の方法です。ただし、私の印象では、これら 2 つは同様の結果であまりにも多く公開されています。

これまで公表されていなかった（と感じている）ことについてお話ししたいと思います。まず、DANN の最も顕著な特徴は、ドメイン不変条件に使用される分類器です。このような分類器が存在する今、この分類器がより良くなれば、DANN 自体とそのアーキテクチャに基づく方法もより良くなるだろうと人々が考えるのは当然です。すると、最も単純なアイデアは、この分類器 (現在の分類器は通常の MLP) に、基本的なドロップアウトから、もう少し複雑な正規化システム (バッチ正規化、レイヤー正規化、およびさまざまな後続の変形)、さらに体系的な注意ファミリ、さらには敵対的トレーニングのセットまで装備して、この小さな分類器を小さな摂動に対してより堅牢にすることです。テクニックは無限大です。しかし、興味深いのは、このようなシステムとルールを備えたこの視点が、これまで慎重に検討されたことがないようだということです。

それに比べると、みんなもっと具体的で気軽な方法にこだわっているようです。本質はこの小さな分類器をより良くすることですが、ケースバイケースでさらに多くの技術が設計されます。たとえば、調査で言及した方法のいくつかは、ここでは繰り返さないことにします。この方法の設計には、問題自体の理解と優れた直感が必要となるため、体系的に 100 個のアイデアを生成するのは難しいかもしれません。ただし、バッチで試してみたい場合は、ドメイン適応またはドメイン一般化を検討するのが簡単な方法です。これらの手法は、大規模な実験で公平性関連の問題に役立つことが証明されています。もちろん、逆の場合も同様ですが、ドメイン適応とドメイン一般化の方が先に開発されたため、効果的である可能性は少し低くなります。

4.1.2. ERMからの拡張 - データ拡張の拡張

データ拡張手法全体は、多くの場合、人々に単純な印象を与え、それらの革新は実際には難しくありません。

ここでは、データを強化する方法については説明しません。回転、反転、周波数領域での作業など、少し考えれば、役立つデータ強化方法を必ず見つけることができます。ここでは主に、データ強化を行った後、または簡単な強化が役立つことが確認された後に、パフォーマンスをさらに向上させる方法について説明します。

最悪のケースの方法に直接切り替えます。どのような強化がパフォーマンスの向上に役立つかがわかったら、最も簡単で直接的な方法は、元の IID 強化 (各サンプルの強化方法をランダムにサンプリングする) を最悪の強化 (各サンプルのトレーニング損失が最大になる強化方法を選択する) に直接変更することです。この方法の最悪のケースは元の強化効果と同じであり、効率が向上すること、つまりより少ないエポックでパフォーマンスが向上することがほぼ 100% 保証されます。しかし、このように単純なものにも欠点があります。結局のところ、最悪のケースの強化を選択するには、より多くの計算が必要になります。強化自体が勾配の一部であれば、より良いでしょう。そうでない場合、損失を計算するために繰り返されるフォワードパスは、量が多いだけでなく、面倒でもあります。これらの計算の利点は、エポック数が少ないことの利点を上回らない可能性があります。さらに、この方法はドロップアウトなどのデータ摂動法にも非常に適しています。私たちはRSC [6]と呼ばれる非常に良い結果をもたらす方法を開発しました。

データ拡張 + 正規化。ほぼ 100% の確率でメリットをもたらすもう 1 つのアプローチは、正規化子を追加することです。特に堅牢性に関する評価において。ほぼあらゆる距離メトリックは新しい方法を生み出します。前回の記事[7]で述べたように、（データ強化方法 X さまざまな距離メトリック X アプリケーション）はほぼ無限の利点をもたらします。唯一のことは、私の経験では、この利点は iid 精度評価ではなく、堅牢性関連の評価から得られることが多いということです。また、この角度は以前のものと互換性があり、効果がありそうな強化があれば、すぐにこのタイプの方法にアップグレードできます。

使用できるデータ拡張方法が見つからない場合はどうすればよいでしょうか?最もシンプルで直感的な方法の 1 つは、GAN などの生成モデルをモデルに直接バインドし、このモデルを使用してモデルをトレーニングしながらデータを生成することです。この種の方法の自然な利点は、GAN などのモデルが接続されると、勾配がすでに接続されていることが多いため、通常のデータ強化を最悪のケースのバージョンに自然にアップグレードできることです。もちろん、機能強化があれば正規版に直接アップグレードすることも可能です。最後に、この方法のもう 1 つの利点は、GAN から VAE、拡散まで、生成モデルのアップグレードによって無限にアップグレードできることです。より優れた生成モデルがある限り、このアイデアは発展し続けることができます。

4.1.3 ERMからの拡張 - サンプル再重み付けの拡張

データ拡張と同様に、この一連の方法はすでに機械学習の世界で実りある成果を達成しています。現在でも、基本的な機械学習コースでは、加重最小二乗法が線形回帰の自然な拡張として教えられることが多いです。ただ、ディープラーニングが最初に登場したときは、この手法が自然だとみんな思っていたんです。この手法は精度を上げることはできるものの、本格的な手法として考える必要はないようです。その後、ディープラーニングが実践でますます重要になるにつれ、十分に表現されていない問題がたくさんあることに気づき、サンプルに重みを追加する自然な方法が非常に重要であることがわかりました。

最も初期の方法は、損失が大きいほど重みが大きくなり、モデルがこのサンプルにさらに注意を払うようになるというものです。その後、重量を推定するためのさまざまな方法が考案されました。この種のアプローチの究極の形は、別のディープラーニングモデルを使用して重みを推定することだと思います。本当にそんな日が来れば、それはパフォーマンスを向上させるためにあらゆる手段を講じる典型的な例となるだろう。方法がこの段階に達すると、実用的な意義はほとんどなくなるため、論文を発表する必要がある学生にのみ適していると思います。

4.2 ビッグモデルの時代

この調査を行っていたとき、最も興奮したのは、そこに含まれる体系的な思考の多くが、ビッグモデル時代の方法論に直接結びつく可能性があることでした。このつながりを作るために、まず、大規模モデル時代の典型的なプロンプト構造をより一般的な形式に変換します。

まず、ビッグモデルの時代以前は、ほとんどすべてのモデルが ERM フレームワーク上に構築されていました。つまり、ほとんどすべてのモデルは、図 5 に示すように、次の式の何らかの拡張でした。

しかし、大規模モデルの時代では、多くの手法がERMの拡張ではなくなりました。結局、モデルを再学習することは非現実的になったため、すでに学習済みのパラメータを使用するさまざまな手法が生まれてきました。最初は最も単純な微調整であり、次にプロンプトとアダプターがあります。これらの方法はすべて、同じ方法で ERM システムに書き込むことができると考えています。

たとえば、微調整は最も単純で、実際にはトレーニング済みのモデルを一種の初期化と見なすものです。

式では初期化がどこから来るのか指定されていないため、これら 2 つはすべて同じであるように見えます。

アダプターは実際には扱いが簡単です。新しいウェイトの一部を挿入するだけで、そのウェイトの部分だけをトレーニングします。

ここでの主な焦点は、手動で設計されたプロンプトではなく、自動的に生成されたプロンプトです。この場合、プロンプトを生成する部分はモデルと見なすことができ、モデル全体はエンコーダーとデコーダーの構造になります。

この観点から見ると、物事は非常にシンプルになります。大きなモデルの世界では、信頼できる特性を追求したいのであれば、ERM でうまく機能した方法を試してみるだけでよいのです。特に、古典的な方法は、必要に応じて確実に位置を占めることになります。

この調査をまとめているときに、多くの例が見つかりました。調査でさらに詳しく見ることができます。次の 2 つは、関連するプレゼンテーションで私がよく取り上げる例です。この 2 つの方法を私たちのパラダイムに組み込むと、いかに一般的であるかがわかります。

例 1 は、この論文「クロスドメイン感情分析のための敵対的ソフトプロンプトチューニング」からの引用です。この図、特にドメイン敵対的トレーニングは、問題を説明するのに十分だと思います。

図6。左の写真は、「ドメインのセンチメント分析のための敵対的なソフトプロンプトチューニング」に由来しています。これは、大規模なモデルでのDannパラダイムの適用に相当します。

例2は、「自動化されたバイアス化されたプロンプトを使用して、自動脱bias：マスクされた言語モデルを削除する」という紙から、この方法のコアはバイアスプロンプトを見つけて、何らかの一貫性の損失でそれらを削除することもわかります。

図7。左の写真は、「自動化されたバイアスプロンプトを備えた自動デビアス：マスクされた言語モデルの削除」に由来しています。これは、大規模モデルのデータ強化と正則化パラダイムの適用に相当します。

もちろん、これらの2つの例は、これらの2つの論文に独自の特徴を軽視することを意図していません。ここでは、これら2つのマクロメソッドを使用して、この信頼できる機械学習パラダイムの力を確認します。

4.3メソッドの混合

別の観点から、特に効果的なアイデアは、これらの方法を混合して一致させることです。

たとえば、ここに3つのコアパラダイムを紹介し、各パラダイムの下に数十の方法があります。非常に簡単なアイデアは、異なるパラダイムの下で異なる方法を組み合わせることができるということです。

コア理論[2]を提案した論文では、たとえば、最も単純な「ドメイン分類器」と最も単純な「データ強化」を一緒に配置し、パフォーマンスも少し改善する方法を提案しました。ただし、このペーパーの焦点は理論的な部分にあるため、この方法を詳細に磨くことはないため、その可能性は比較的小さい可能性があります。ただし、これも1つのポイントを確認する必要があります。各パラダイムの下で最も単純な方法が組み合わされたときに効果的である場合、2つのパラダイムの下のより複雑な方法の組み合わせも効果的ではないでしょうか？

私が本当に気に入っている別の作業では、2つの最悪の概念を組み合わせようとしました。この組み合わせは、最悪のシナリオを2次元でもたらすため、W2Dと名付けました。この方法は非常に自然で、独創的で、非常に理解しやすく、非常に効果的だと思います（詳細については以下を参照）。次に、この観点からの自然な考え方は、2つのパラダイムで単純な方法を使用していることです。しかし、実際にはまだ多くの改善の余地があります。私がこの論文をやっていたときの私の後悔の1つは、この最も効果的な方法を直接使用していませんでした。

もちろん、これらの2つの考え方に従って、非常に自然な角度は、各パラダイムの下でさまざまな方法を組み合わせることです。

4.4最後に、新しいアプリケーションがあります

一部の学生にとって新しい方法を開発することが大したことである場合、新しいアプリケーションでこれらの方法に小規模な革新をする必要はありません。

これが、私がW2D方法が特に気に入っているもう1つの理由です。多くの場合、テクノロジーの最前線で実際に戦いたくない学生のために、私は通常、特定のデータセットでW2Dメソッドを試すことをお勧めし、通常は1回の試行でSOTAを直接改善することをお勧めします。私たちが試したいくつかの薬物関連のデータセットはすべてこの効果です。これには2つの理由があると思います。 1つは、W2D自体のパワーは、主観的な正則化ではなく、ほぼ完全に純粋な統計に由来することです。これにより、この方法の適応性が大幅に向上します。もう1つの意欲は、W2Dにはモデルの要件がないことであり、エントロピーの損失である限りほとんど使用できるため、ほぼすべてのSOTAモデルに直接プラグインしてさらに送信できます。

ただし、セルラー画像セグメンテーションも試しましたが、おそらくW2Dが従来の交差エントロピー損失により適しており、セグメンテーションの損失関数があまり適していないため、苦労しているようです。

私が特に簡単だと思うもう1つのパフォーマンスブースターは、通常、高校生がこれをプレイするように頼むことです。それから彼らは私のところに来て、「機械学習はとても簡単だと判明しました。

もちろん、上記は2つの例であり、さまざまな方法でさまざまな方法があります。しかし、実際、方法と問題の適応は非常に重要であり、さりげなく一緒に試してみると機能しない場合があります。たとえば、W2Dアプリケーションでの成果は、データ自体がドメイン適応、ドメイン一般化、またはいくつかの新しい設定であろうと、ドメインクロスドメインの問題でもあるためです。 Alignregの例も単純ですが、一般的には、高校生がメソッドと問題が一貫していると判断した場合、自分でできることではありません。

IV

これを書いて、私はこれらの1,000の革新的なポイントの約束を果たしてきたことを願っています。このように感じない場合は、完全な調査をチェックすることもお勧めします。これははるかに豊かです。

ちなみに、私はこのような単純な意見によると、あなたは自分のアイデアを書くなら、あなたは自分の論文を少なくしますか？しかし、私は今でも若すぎます。これらの理解は、年をとるにつれて将来的に変わるかもしれません。

最後に、私は長い間書いてきたので、ちなみに自己紹介をします。

私は現在、イリノイ大学アーバナシャンペーン校（UIUC）の情報科学部の助教授であり、信頼できる機械学習と計算生物学に焦点を当てています。現在、ラボはDream（医学の信頼性が高く効率的なアルゴリズムの開発）と名付けられています。私の研究室は、1年以上設立されたばかりで、あらゆる種類の志を同じくする友人が非常に必要です。今年のPhDアプリケーションでは、インターンでそれを認めるために最善を尽くします。私は個人的には素晴らしい人々と遊ぶのが好きです。なぜなら、それは相互の改善のプロセスだと思うからです。さらに、この種の卓越性は、履歴書の卓越性に限定されませんが、栽培と追求の卓越性についてよりも限定されます。

<<: 130億バイトのモデルを訓練するのにたった3日しかかからなかった。北京大学は画像と動画の理解を統合するChat-UniViを提案した。

>>: Transformerが3Dモデリングに革命を起こし、MeshGPT生成結果がプロのモデラーやネットユーザーに衝撃を与える：革命的なアイデア