グラフネットワークをより堅牢にします。 Googleは、データのラベル付けバイアスやドメイン転送を恐れないSR-GNNを提案

グラフニューラルネットワーク (GNN) は、機械学習でグラフ構造データを活用するための強力なツールです。グラフは、さまざまな種類の関係をモデル化できる柔軟なデータ構造であり、交通予測、噂やフェイクニュースの検出、病気の拡散モデル化など、さまざまなアプリケーションで使用されてきました。

機械学習の標準の 1 つとして、GNN ではトレーニングサンプルが均一にランダムに選択される (つまり、独立した同一に分布したサンプル) と想定されます。この仮定は、研究分析用に特別に作成され、各データノードがすでにラベル付けされている標準的な学術データセットでは簡単に満たすことができます。

しかし、現実世界の多くのシナリオでは、データにラベルが付けられていません。実際、データのラベル付けは、熟練した人間によるレビューと制御を必要とする面倒なプロセスであることがよくあります。そのため、すべてのデータノードにラベルを付けるのは非常に困難な作業です。

さらに、データのラベル付けのためのノードを選択する行為は、通常、前述の「均一なランダム選択」ではないため、トレーニングデータの偏りも一般的な問題です。

たとえば、注釈付けの対象となるデータのサブセット（サブセット内のデータには共通の特性がある）を選択するために固定ヒューリスティックが使用される場合もあれば、人間のアナリストが複雑なドメイン知識を使用して注釈付けの対象となる特定のデータ項目を選択する場合もあります。

トレーニングセット内のバイアスの量を定量化するには、2 つの異なる確率分布間のシフトの大きさを測定する方法を使用できます。シフトのサイズは、バイアスの量と考えることができます。

このバイアスの量が大きいほど、機械学習モデルがバイアスのあるトレーニングセットから一般化することが難しくなります。これにより、モデルの一般化能力が著しく損なわれる可能性があります。学術データセットでは、ドメインシフトによってモデルのパフォーマンスが 15～20% 低下する可能性があります (F1 スコアで測定)。

論文リンク: https://proceedings.neurips.cc/paper/2021/file/eb55e369affa90f77dd7dc9e2cd33b16-Paper.pdf

この問題に対処するため、Google は NeurIPS 2021 で偏ったデータに対して GNN を使用するソリューションを発表しました。

この方法は、Shift-Robust GNN (SR-GNN) と呼ばれます。名前が示すように、この方法の目的は、問題領域が変更および移行されたときに、モデルが非常に堅牢な状態を維持し、パフォーマンスの低下を軽減することです。

研究者らは、半教師あり学習用の一般的な GNN ベンチマークデータセットで偏りのあるトレーニングデータセットを使用したさまざまな実験で SR-GNN の有効性を検証しました。実験では、SR-GNN が他の GNN ベンチマークよりも精度が高く、偏りのあるトレーニングデータの悪影響を 30～40% 削減することが示されました。

データ分布の偏差がGNNのパフォーマンスに与える影響

データ分布の変化が GNN のパフォーマンスにどのように影響するかを示すために、まず既知の学術データセットに対してバイアスのかかったトレーニングセットをいくつか生成します。次に、この効果を理解するために、一般化（テスト精度）を分布シフトの尺度（CMD）と比較しました。

たとえば、有名な PubMed 引用データセットを例にとると、これはグラフとして考えることができ、グラフのノードは医学研究論文であり、グラフの「エッジ」はこれらの論文間の引用です。 PubMed に対して偏りのあるトレーニングデータが生成される場合、このプロットは次のようになります。

データセットの分布シフトと分類精度の間には強い負の相関関係があることがわかります。CMD が増加すると、パフォーマンス (F1) が大幅に低下します。つまり、トレーニングデータがテストデータセットとあまり似ていないため、GNN の一般化が困難になる可能性があります。

この問題に対処するため、研究者らは、一般化に対して非常に堅牢で、トレーニングデータとラベルなしデータからのランダムな均一サンプル間の分布シフトを最小限に抑える正則化子を提案しました。

これを実現するために、研究者らはモデルのトレーニング中にドメインシフトをリアルタイムで測定し、これに基づいて直接ペナルティ戦略を使用して、モデルがトレーニングバイアスを可能な限り無視するように強制します。これにより、トレーニングデータ用にモデルが学習した特徴エンコーダーは、異なる分布から来る可能性のあるラベルなしデータに対しても効果的に機能できるようになります。

下の図は、SR-GNN モデルと従来の GNN モデルの比較を示しています。どちらも入力は同じで、レイヤーの数も同じです。 GNN の k 番目の層の最終的な埋め込み Zk をラベルなしデータポイントからの埋め込みと比較し、モデルが正しくエンコードされているかどうかを確認します。

この正規化は、トレーニングデータの表現と実際のデータの分布の間の距離に基づくモデル損失式の追加項として記述されます。

実験では、SR-GNN 正則化を追加した後、偏ったトレーニングデータラベルを使用した分類タスクで分類モデルのパフォーマンスが 30 ～ 40% 向上することが示されました。

さらに、この論文では、偏ったトレーニングデータがある場合にモデルの信頼性を高める方法についても研究しています。

構造上の違いにより、同じ正規化メカニズムを異なるモデルに直接適用することはできませんが、近似的な真の分布からの距離に応じてトレーニングインスタンスに再重み付けすることで、トレーニングバイアスを「修正」できます。これにより、モデル全体に勾配を伝播させることなく、トレーニングデータの偏った分布を修正できます。

これら 2 つの正則化を組み合わせると、ドメイン正則化とインスタンスの重み付けを組み合わせた一般化された損失正則化を形成できます (損失の式を含む詳細については、論文を参照してください)。