グラフ ネットワークをより堅牢にします。 Googleは、データのラベル付けバイアスやドメイン転送を恐れないSR-GNNを提案

グラフ ネットワークをより堅牢にします。 Googleは、データのラベル付けバイアスやドメイン転送を恐れないSR-GNNを提案

グラフ ニューラル ネットワーク (GNN) は、機械学習でグラフ構造データを活用するための強力なツールです。グラフは、さまざまな種類の関係をモデル化できる柔軟なデータ構造であり、交通予測、噂やフェイクニュースの検出、病気の拡散モデル化など、さまざまなアプリケーションで使用されてきました。

機械学習の標準の 1 つとして、GNN ではトレーニング サンプルが均一にランダムに選択される (つまり、独立した同一に分布したサンプル) と想定されます。この仮定は、研究分析用に特別に作成され、各データ ノードがすでにラベル付けされている標準的な学術データセットでは簡単に満たすことができます。

しかし、現実世界の多くのシナリオでは、データにラベルが付けられていません。実際、データのラベル付けは、熟練した人間によるレビューと制御を必要とする面倒なプロセスであることがよくあります。そのため、すべてのデータ ノードにラベルを付けるのは非常に困難な作業です。

さらに、データのラベル付けのためのノードを選択する行為は、通常、前述の「均一なランダム選択」ではないため、トレーニング データの偏りも一般的な問題です。

たとえば、注釈付けの対象となるデータのサブセット(サブセット内のデータには共通の特性がある)を選択するために固定ヒューリスティックが使用される場合もあれば、人間のアナリストが複雑なドメイン知識を使用して注釈付けの対象となる特定のデータ項目を選択する場合もあります。

トレーニング セット内のバイアスの量を定量化するには、2 つの異なる確率分布間のシフトの大きさを測定する方法を使用できます。シフトのサイズは、バイアスの量と考えることができます。

このバイアスの量が大きいほど、機械学習モデルがバイアスのあるトレーニング セットから一般化することが難しくなります。これにより、モデルの一般化能力が著しく損なわれる可能性があります。学術データセットでは、ドメインシフトによってモデルのパフォーマンスが 15~20% 低下する可能性があります (F1 スコアで測定)。

論文リンク: https://proceedings.neurips.cc/paper/2021/file/eb55e369affa90f77dd7dc9e2cd33b16-Paper.pdf

この問題に対処するため、Google は NeurIPS 2021 で偏ったデータに対して GNN を使用するソリューションを発表しました。

この方法は、Shift-Robust GNN (SR-GNN) と呼ばれます。名前が示すように、この方法の目的は、問題領域が変更および移行されたときに、モデルが非常に堅牢な状態を維持し、パフォーマンスの低下を軽減することです。

研究者らは、半教師あり学習用の一般的な GNN ベンチマーク データセットで偏りのあるトレーニング データセットを使用したさまざまな実験で SR-GNN の有効性を検証しました。実験では、SR-GNN が他の GNN ベンチマークよりも精度が高く、偏りのあるトレーニング データの悪影響を 30~40% 削減することが示されました。

データ分布の偏差がGNNのパフォーマンスに与える影響

データ分布の変化が GNN のパフォーマンスにどのように影響するかを示すために、まず既知の学術データセットに対してバイアスのかかったトレーニング セットをいくつか生成します。次に、この効果を理解するために、一般化(テスト精度)を分布シフトの尺度(CMD)と比較しました。

たとえば、有名な PubMed 引用データセットを例にとると、これはグラフとして考えることができ、グラフのノードは医学研究論文であり、グラフの「エッジ」はこれらの論文間の引用です。 PubMed に対して偏りのあるトレーニング データが生成される場合、このプロットは次のようになります。

データセットの分布シフトと分類精度の間には強い負の相関関係があることがわかります。CMD が増加すると、パフォーマンス (F1) が大幅に低下します。つまり、トレーニング データがテスト データセットとあまり似ていないため、GNN の一般化が困難になる可能性があります。

この問題に対処するため、研究者らは、一般化に対して非常に堅牢で、トレーニング データとラベルなしデータからのランダムな均一サンプル間の分布シフトを最小限に抑える正則化子を提案しました。

これを実現するために、研究者らはモデルのトレーニング中にドメインシフトをリアルタイムで測定し、これに基づいて直接ペナルティ戦略を使用して、モデルがトレーニングバイアスを可能な限り無視するように強制します。これにより、トレーニングデータ用にモデルが学習した特徴エンコーダーは、異なる分布から来る可能性のあるラベルなしデータに対しても効果的に機能できるようになります。

下の図は、SR-GNN モデルと従来の GNN モデルの比較を示しています。どちらも入力は同じで、レイヤーの数も同じです。 GNN の k 番目の層の最終的な埋め込み Zk をラベルなしデータ ポイントからの埋め込みと比較し、モデルが正しくエンコードされているかどうかを確認します。

この正規化は、トレーニング データの表現と実際のデータの分布の間の距離に基づくモデル損失式の追加項として記述されます。

実験では、SR-GNN 正則化を追加した後、偏ったトレーニング データ ラベルを使用した分類タスクで分類モデルのパフォーマンスが 30 ~ 40% 向上することが示されました。

さらに、この論文では、偏ったトレーニング データがある場合にモデルの信頼性を高める方法についても研究しています。

構造上の違いにより、同じ正規化メカニズムを異なるモデルに直接適用することはできませんが、近似的な真の分布からの距離に応じてトレーニングインスタンスに再重み付けすることで、トレーニングバイアスを「修正」できます。これにより、モデル全体に​​勾配を伝播させることなく、トレーニング データの偏った分布を修正できます。

これら 2 つの正則化を組み合わせると、ドメイン正則化とインスタンスの重み付けを組み合わせた一般化された損失正則化を形成できます (損失の式を含む詳細については、論文を参照してください)。

結論は

現実のシナリオでは、偏ったトレーニング データはよく見られます。これらの偏りは、大量のデータに注釈を付ける難しさ、注釈付きノードを選択するためのさまざまなヒューリスティックまたは一貫性のない手法、データ ラベルの配布の遅延など、さまざまな理由によって発生する可能性があります。

この一般的なフレームワーク (SR-GNN) は、偏ったトレーニング データの影響を軽減でき、これらのモデルの線形化された浅い GNN だけでなく、より深い GNN を含むさまざまな種類の GNN に適用できます。

<<:  AI消費動向予測について

>>:  Meta、Xiaoice、NVIDIA が協力して何かを行っています!アジア初のメタバースエコロジー連盟が誕生

ブログ    
ブログ    

推薦する

2018 年最も注目された AI および機械学習のスタートアップ 10 社

PwCとCB Insightsによるマネーツリーのレポートによると、人工知能のスタートアップへの投資...

[オピニオン] アルゴリズムとテクノロジーが成熟すれば、新しい小売業は本当に素晴らしい時代を迎えることになる

2007年、サンフランシスコのモスコーニセンターで開催されたMacWorldカンファレンスで、スティ...

ロボットが石油・ガス生産をより安全にする方法

石油とガスの生産は世界で最も危険な仕事の一つです。石油掘削、掘削作業、保守テストなどの作業により、毎...

かつて人類を滅ぼす恐れがあったロボットは、商業的なパフォーマンスツールになりました。人工知能は結局のところまだ高価すぎます。

人類文明の継続的な発展に伴い、社会の分業は大きな変化を遂げ、さまざまな産業の置き換えと反復において、...

データ構造とアルゴリズム、グラフをトラバースする2つの方法を理解する

[[331362]] 1 はじめにトラバーサルとは、特定のノードから開始し、特定の検索ルートに従って...

世界のAI支出は2024年に1100億ドルに達すると予想

人工知能(AI)への世界的な支出は、今後4年間で2020年の501億ドルから2024年には1100億...

広告および推奨システムに機械学習モデルを導入するための 2 つのアーキテクチャ

広告および推奨システムは、機械学習の最も成熟した応用分野です。では、広告システムや推奨システムでは、...

インテリジェント製造の波に乗って、マシンビジョン業界は新たな時代を迎えているのでしょうか?

[[345085]]人工知能技術の台頭とエッジデバイスのコンピューティング能力の向上により、マシン...

ステッカーでAIから見えなくなったら、AIにとんでもないバグが発生した

研究により、印刷されたステッカーだけで AI システムを「騙す」ことができ、検出システムが目の前にい...

オープンソースAIとプロプライエタリAIの戦い

IBM と Meta のパートナーおよび協力者には、AMD、Intel、NASA、CERN、Hugg...

汎用人工知能の時代が到来

さまざまな状況情報を記憶し、推論できるパーソナル AI アシスタントは、常にすぐそこまで来ているよう...

モデルのボトルネックを「ルート」から見つけよう!第一原理からディープラーニングを分析する

モデルのパフォーマンスを向上させたい場合、まず検索エンジンに問い合わせるのが本能でしょうか?通常、表...

チャットボットは過去のもの:避けられない運命…

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

AIは奥が深いので、早く田舎へ行きましょう

昨年末、「運命を変えるスクリーン」が話題になった。当時、賛成派も反対派もそれぞれ多くの見解を述べてい...