グラフ ネットワークをより堅牢にします。 Googleは、データのラベル付けバイアスやドメイン転送を恐れないSR-GNNを提案

グラフ ネットワークをより堅牢にします。 Googleは、データのラベル付けバイアスやドメイン転送を恐れないSR-GNNを提案

グラフ ニューラル ネットワーク (GNN) は、機械学習でグラフ構造データを活用するための強力なツールです。グラフは、さまざまな種類の関係をモデル化できる柔軟なデータ構造であり、交通予測、噂やフェイクニュースの検出、病気の拡散モデル化など、さまざまなアプリケーションで使用されてきました。

機械学習の標準の 1 つとして、GNN ではトレーニング サンプルが均一にランダムに選択される (つまり、独立した同一に分布したサンプル) と想定されます。この仮定は、研究分析用に特別に作成され、各データ ノードがすでにラベル付けされている標準的な学術データセットでは簡単に満たすことができます。

しかし、現実世界の多くのシナリオでは、データにラベルが付けられていません。実際、データのラベル付けは、熟練した人間によるレビューと制御を必要とする面倒なプロセスであることがよくあります。そのため、すべてのデータ ノードにラベルを付けるのは非常に困難な作業です。

さらに、データのラベル付けのためのノードを選択する行為は、通常、前述の「均一なランダム選択」ではないため、トレーニング データの偏りも一般的な問題です。

たとえば、注釈付けの対象となるデータのサブセット(サブセット内のデータには共通の特性がある)を選択するために固定ヒューリスティックが使用される場合もあれば、人間のアナリストが複雑なドメイン知識を使用して注釈付けの対象となる特定のデータ項目を選択する場合もあります。

トレーニング セット内のバイアスの量を定量化するには、2 つの異なる確率分布間のシフトの大きさを測定する方法を使用できます。シフトのサイズは、バイアスの量と考えることができます。

このバイアスの量が大きいほど、機械学習モデルがバイアスのあるトレーニング セットから一般化することが難しくなります。これにより、モデルの一般化能力が著しく損なわれる可能性があります。学術データセットでは、ドメインシフトによってモデルのパフォーマンスが 15~20% 低下する可能性があります (F1 スコアで測定)。

論文リンク: https://proceedings.neurips.cc/paper/2021/file/eb55e369affa90f77dd7dc9e2cd33b16-Paper.pdf

この問題に対処するため、Google は NeurIPS 2021 で偏ったデータに対して GNN を使用するソリューションを発表しました。

この方法は、Shift-Robust GNN (SR-GNN) と呼ばれます。名前が示すように、この方法の目的は、問題領域が変更および移行されたときに、モデルが非常に堅牢な状態を維持し、パフォーマンスの低下を軽減することです。

研究者らは、半教師あり学習用の一般的な GNN ベンチマーク データセットで偏りのあるトレーニング データセットを使用したさまざまな実験で SR-GNN の有効性を検証しました。実験では、SR-GNN が他の GNN ベンチマークよりも精度が高く、偏りのあるトレーニング データの悪影響を 30~40% 削減することが示されました。

データ分布の偏差がGNNのパフォーマンスに与える影響

データ分布の変化が GNN のパフォーマンスにどのように影響するかを示すために、まず既知の学術データセットに対してバイアスのかかったトレーニング セットをいくつか生成します。次に、この効果を理解するために、一般化(テスト精度)を分布シフトの尺度(CMD)と比較しました。

たとえば、有名な PubMed 引用データセットを例にとると、これはグラフとして考えることができ、グラフのノードは医学研究論文であり、グラフの「エッジ」はこれらの論文間の引用です。 PubMed に対して偏りのあるトレーニング データが生成される場合、このプロットは次のようになります。

データセットの分布シフトと分類精度の間には強い負の相関関係があることがわかります。CMD が増加すると、パフォーマンス (F1) が大幅に低下します。つまり、トレーニング データがテスト データセットとあまり似ていないため、GNN の一般化が困難になる可能性があります。

この問題に対処するため、研究者らは、一般化に対して非常に堅牢で、トレーニング データとラベルなしデータからのランダムな均一サンプル間の分布シフトを最小限に抑える正則化子を提案しました。

これを実現するために、研究者らはモデルのトレーニング中にドメインシフトをリアルタイムで測定し、これに基づいて直接ペナルティ戦略を使用して、モデルがトレーニングバイアスを可能な限り無視するように強制します。これにより、トレーニングデータ用にモデルが学習した特徴エンコーダーは、異なる分布から来る可能性のあるラベルなしデータに対しても効果的に機能できるようになります。

下の図は、SR-GNN モデルと従来の GNN モデルの比較を示しています。どちらも入力は同じで、レイヤーの数も同じです。 GNN の k 番目の層の最終的な埋め込み Zk をラベルなしデータ ポイントからの埋め込みと比較し、モデルが正しくエンコードされているかどうかを確認します。

この正規化は、トレーニング データの表現と実際のデータの分布の間の距離に基づくモデル損失式の追加項として記述されます。

実験では、SR-GNN 正則化を追加した後、偏ったトレーニング データ ラベルを使用した分類タスクで分類モデルのパフォーマンスが 30 ~ 40% 向上することが示されました。

さらに、この論文では、偏ったトレーニング データがある場合にモデルの信頼性を高める方法についても研究しています。

構造上の違いにより、同じ正規化メカニズムを異なるモデルに直接適用することはできませんが、近似的な真の分布からの距離に応じてトレーニングインスタンスに再重み付けすることで、トレーニングバイアスを「修正」できます。これにより、モデル全体に​​勾配を伝播させることなく、トレーニング データの偏った分布を修正できます。

これら 2 つの正則化を組み合わせると、ドメイン正則化とインスタンスの重み付けを組み合わせた一般化された損失正則化を形成できます (損失の式を含む詳細については、論文を参照してください)。

結論は

現実のシナリオでは、偏ったトレーニング データはよく見られます。これらの偏りは、大量のデータに注釈を付ける難しさ、注釈付きノードを選択するためのさまざまなヒューリスティックまたは一貫性のない手法、データ ラベルの配布の遅延など、さまざまな理由によって発生する可能性があります。

この一般的なフレームワーク (SR-GNN) は、偏ったトレーニング データの影響を軽減でき、これらのモデルの線形化された浅い GNN だけでなく、より深い GNN を含むさまざまな種類の GNN に適用できます。

<<:  AI消費動向予測について

>>:  Meta、Xiaoice、NVIDIA が協力して何かを行っています!アジア初のメタバースエコロジー連盟が誕生

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

...

...

...

「人工知能+ヘルスケア」は有望な未来を秘めている

現在、医療分野における人工知能の応用には、医用画像診断、健康管理、医療研究が含まれます。最近、国立神...

米軍はドローンに対処するための新たな方法を考案した。ドローンの群れを破壊するマイクロ波兵器を開発するのだ。

【環球時報記者 徐陸明】6月17日、「国防ニュース」ウェブサイトの報道によると、最新の軍事予算文書...

研究に特化したChatGPTプラットフォーム:回答は完全に論文から取得され、無料で使用できます

より専門的な情報を入手する必要がある場合、文献を調べることはしばしば「頭痛の種」となる作業です。結局...

アダプティブコンピューティングがAI製品化の課題にどのように対処するか

[[389356]]今日、人工知能技術は急速に発展しており、イノベーションのペースは加速しています。...

米連邦取引委員会は、ChatGPTによるデータ漏洩と回答の捏造を含むOpenAIに対する徹底的な調査を開始した。

ワシントンポスト紙によると、7月13日、米国連邦取引委員会(FTC)はサンフランシスコに拠点を置くO...

...

海外メディア:アップルは2025年までに完全自動運転車を発売する可能性

アップル社が2025年までに完全自動運転車を発売する計画だとブルームバーグが報じたことを受け、同社の...

...

TensorFlow を使用した ML モデルの実装と最適化: 1 秒あたり 3 億回の予測

[[425184]] TensorFlow は最も広く使用されている機械学習フレームワークの 1 つ...

人工知能の時代に教育はどのように変化するのでしょうか?

「教育は人材を育成する長期的な取り組みなので、将来を見据えたものであるべきだ。」先日開催された人工...