グラフ ニューラル ネットワーク (GNN) は、機械学習でグラフ構造データを活用するための強力なツールです。グラフは、さまざまな種類の関係をモデル化できる柔軟なデータ構造であり、交通予測、噂やフェイクニュースの検出、病気の拡散モデル化など、さまざまなアプリケーションで使用されてきました。 機械学習の標準の 1 つとして、GNN ではトレーニング サンプルが均一にランダムに選択される (つまり、独立した同一に分布したサンプル) と想定されます。この仮定は、研究分析用に特別に作成され、各データ ノードがすでにラベル付けされている標準的な学術データセットでは簡単に満たすことができます。 しかし、現実世界の多くのシナリオでは、データにラベルが付けられていません。実際、データのラベル付けは、熟練した人間によるレビューと制御を必要とする面倒なプロセスであることがよくあります。そのため、すべてのデータ ノードにラベルを付けるのは非常に困難な作業です。 さらに、データのラベル付けのためのノードを選択する行為は、通常、前述の「均一なランダム選択」ではないため、トレーニング データの偏りも一般的な問題です。 たとえば、注釈付けの対象となるデータのサブセット(サブセット内のデータには共通の特性がある)を選択するために固定ヒューリスティックが使用される場合もあれば、人間のアナリストが複雑なドメイン知識を使用して注釈付けの対象となる特定のデータ項目を選択する場合もあります。 トレーニング セット内のバイアスの量を定量化するには、2 つの異なる確率分布間のシフトの大きさを測定する方法を使用できます。シフトのサイズは、バイアスの量と考えることができます。 このバイアスの量が大きいほど、機械学習モデルがバイアスのあるトレーニング セットから一般化することが難しくなります。これにより、モデルの一般化能力が著しく損なわれる可能性があります。学術データセットでは、ドメインシフトによってモデルのパフォーマンスが 15~20% 低下する可能性があります (F1 スコアで測定)。 論文リンク: https://proceedings.neurips.cc/paper/2021/file/eb55e369affa90f77dd7dc9e2cd33b16-Paper.pdf この問題に対処するため、Google は NeurIPS 2021 で偏ったデータに対して GNN を使用するソリューションを発表しました。 この方法は、Shift-Robust GNN (SR-GNN) と呼ばれます。名前が示すように、この方法の目的は、問題領域が変更および移行されたときに、モデルが非常に堅牢な状態を維持し、パフォーマンスの低下を軽減することです。 研究者らは、半教師あり学習用の一般的な GNN ベンチマーク データセットで偏りのあるトレーニング データセットを使用したさまざまな実験で SR-GNN の有効性を検証しました。実験では、SR-GNN が他の GNN ベンチマークよりも精度が高く、偏りのあるトレーニング データの悪影響を 30~40% 削減することが示されました。 データ分布の偏差がGNNのパフォーマンスに与える影響データ分布の変化が GNN のパフォーマンスにどのように影響するかを示すために、まず既知の学術データセットに対してバイアスのかかったトレーニング セットをいくつか生成します。次に、この効果を理解するために、一般化(テスト精度)を分布シフトの尺度(CMD)と比較しました。 たとえば、有名な PubMed 引用データセットを例にとると、これはグラフとして考えることができ、グラフのノードは医学研究論文であり、グラフの「エッジ」はこれらの論文間の引用です。 PubMed に対して偏りのあるトレーニング データが生成される場合、このプロットは次のようになります。 データセットの分布シフトと分類精度の間には強い負の相関関係があることがわかります。CMD が増加すると、パフォーマンス (F1) が大幅に低下します。つまり、トレーニング データがテスト データセットとあまり似ていないため、GNN の一般化が困難になる可能性があります。 この問題に対処するため、研究者らは、一般化に対して非常に堅牢で、トレーニング データとラベルなしデータからのランダムな均一サンプル間の分布シフトを最小限に抑える正則化子を提案しました。 これを実現するために、研究者らはモデルのトレーニング中にドメインシフトをリアルタイムで測定し、これに基づいて直接ペナルティ戦略を使用して、モデルがトレーニングバイアスを可能な限り無視するように強制します。これにより、トレーニングデータ用にモデルが学習した特徴エンコーダーは、異なる分布から来る可能性のあるラベルなしデータに対しても効果的に機能できるようになります。 下の図は、SR-GNN モデルと従来の GNN モデルの比較を示しています。どちらも入力は同じで、レイヤーの数も同じです。 GNN の k 番目の層の最終的な埋め込み Zk をラベルなしデータ ポイントからの埋め込みと比較し、モデルが正しくエンコードされているかどうかを確認します。 この正規化は、トレーニング データの表現と実際のデータの分布の間の距離に基づくモデル損失式の追加項として記述されます。 実験では、SR-GNN 正則化を追加した後、偏ったトレーニング データ ラベルを使用した分類タスクで分類モデルのパフォーマンスが 30 ~ 40% 向上することが示されました。 さらに、この論文では、偏ったトレーニング データがある場合にモデルの信頼性を高める方法についても研究しています。 構造上の違いにより、同じ正規化メカニズムを異なるモデルに直接適用することはできませんが、近似的な真の分布からの距離に応じてトレーニングインスタンスに再重み付けすることで、トレーニングバイアスを「修正」できます。これにより、モデル全体に勾配を伝播させることなく、トレーニング データの偏った分布を修正できます。 これら 2 つの正則化を組み合わせると、ドメイン正則化とインスタンスの重み付けを組み合わせた一般化された損失正則化を形成できます (損失の式を含む詳細については、論文を参照してください)。 結論は現実のシナリオでは、偏ったトレーニング データはよく見られます。これらの偏りは、大量のデータに注釈を付ける難しさ、注釈付きノードを選択するためのさまざまなヒューリスティックまたは一貫性のない手法、データ ラベルの配布の遅延など、さまざまな理由によって発生する可能性があります。 この一般的なフレームワーク (SR-GNN) は、偏ったトレーニング データの影響を軽減でき、これらのモデルの線形化された浅い GNN だけでなく、より深い GNN を含むさまざまな種類の GNN に適用できます。 |
>>: Meta、Xiaoice、NVIDIA が協力して何かを行っています!アジア初のメタバースエコロジー連盟が誕生
1. 世界モデル「世界モデル」という用語は認知科学に由来しており、認知科学ではメンタルモデルと呼ばれ...
エンタープライズ グレードのインテリジェント オートメーションとは何ですか?エンタープライズ レベル...
AI が行き詰まった場合、サイバーセキュリティ業界は従来の方法、特に人間主導の方法に大きく依存し続...
[[416631]]現在、NLP分野ではTransformerベースのモデルが人気を博しており、大規...
クラウド コンピューティング サービス チームに機械学習機能を備えたシステムを提供することは間違いで...
このシリーズの前回の記事では、まず TensorFlow の使い方を紹介しました。これは、人工知能お...
AI は、自動運転車、より優れたルートマッピング、より正確な予測を通じて、輸送と物流をよりスマートか...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
現代では、意図的か否かに関わらず、私たちは皆、人工知能に触れたり、人工知能を使用したりしています。私...
[[263815]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
近年、人工知能技術は、医療、金融、小売、教育、その他のサブ産業を含む多くの垂直分野に応用されています...
前回の記事「自動運転車に「道路を認識」させる方法」では、主に自動運転車における高精度地図の重要性につ...