グラフニューラルネットワークが深くなるほど、パフォーマンスは向上しますか?

数十または数百の層を持つニューラルネットワークの応用は、ディープラーニングの重要な機能の 1 つです。しかし、現実はこれとは程遠いものです。たとえば、今年の機械学習分野で最も注目されている研究分野の 1 つと考えられているグラフニューラルネットワークでは、ほとんどの場合、数層のネットワークしか使用されていません。

[[336725]]

一般的に、グラフニューラルネットワークが深くなるほど、効果は高くなると考えられます。しかし、インペリアル・カレッジ・ロンドンの教授であるマイケル・ブロンスタイン氏は最近、次のような自問自答を投げかけました。「グラフ・ニューラル・ネットワークの深さは本当に利点をもたらすのか？」

「ディープグラフニューラルネットワーク」という用語は誤用されているのでしょうか？それとも、「グラフニューラルネットワークが深ければ深いほど効果は高まる」という従来の考えを再検討すべきでしょうか？グラフベースのディープラーニングでは「深さ」はよくないのでしょうか？

ディープグラフニューラルネットワークのトレーニングプロセスが非常に難しいことはよく知られています。研究者がディープニューラルアーキテクチャで観察できる一般的な困難 (多数のパラメータによりバックプロパゲーション勾配が消失したり、過剰適合が生じたりするなど) に加えて、グラフ特有の困難もいくつかあります。たとえば、「過剰平滑化」です。複数のグラフ畳み込み層を適用すると、ノードの特徴が同じベクトルに収束する傾向があり、徐々に区別がつかなくなります。この現象は、ローパスフィルターのように動作する GCN モデルで初めて観察されました。グラフに特有のもう 1 つの現象は、「情報ボトルネック」です。これは、指数関数的に多数の近傍からの情報を固定サイズのベクトルに「過剰に圧縮」する現象です。

最近では、グラフニューラルネットワークのパフォーマンスが向上するか、少なくとも「名前はディープラーニングだが、実際には 2 層のグラフニューラルネットワークのみを適用している」という恥ずかしい状況を回避するために、グラフニューラルネットワークの深さの問題を解決することに取り組んでいる人々がいます。

解決策には 2 つの種類があります。1 つ目は、DropEdge メソッド、ノード機能間のペアワイズ距離正規化 (PairNorm)、ノード平均および分散正規化 (NodeNorm) などの正規化手法です。2 つ目は、知識スキップやアフィン残差接続などのさまざまな種類の残差接続を含むアーキテクチャ調整です。

これらのアプローチでは、数十の層を持つディープグラフニューラルネットワークをトレーニングできますが (達成不可能ではない)、満足のいく結果は得られていません。さらに悪いことに、ディープアーキテクチャを使用すると、パフォーマンスが低下することがよくあります。以下の表は、ノード単位の分類タスクにおける異なる深さのグラフニューラルネットワークのパフォーマンスを比較した、典型的な実験評価結果を示しています。

この表は、CoauthorsCS 引用ネットワーク上のノード分類タスクにおけるディープグラフニューラルネットワークアーキテクチャの一般的な結果を示しています。深度が深くなるほど、ベースライン (残余接続のある GCN) のパフォーマンスは低下し、パフォーマンスは 88.18% から 39.71% に急激に低下します。 NodeNorm を使用したニューラルネットワークアーキテクチャは、深度が増すにつれて改善されますが、パフォーマンスは低下し始めます (ただし、89.53% から 87.40% までのみです)。全体的に、64 層のディープアーキテクチャによって得られた最良の結果 (87.40%) は、単純なベースライン (88.18%) よりも劣っています。さらに、NodeNorm 正規化により、浅い 2 層アーキテクチャのパフォーマンスが向上することがわかります (88.18% から 89.53%)。上記の表は、「ディープグラフニューラルネットワークの効果的なトレーニング戦略」という論文からの抜粋です。

上記の表から、ニューラルネットワークの「利点」がディープネットワークアーキテクチャから来るのか、それともそのようなニューラルネットワークをトレーニングする「トリック」から来るのかを区別することは難しいことがわかります。上記の例の NodeNorm は、2 層のみの浅いアーキテクチャも改善し、最高のパフォーマンスを実現します。したがって、他の条件が同じであれば、より深いグラフニューラルネットワークの方がパフォーマンスが向上するかどうかはわかりません。

これらの結果は、グリッド構造データに基づく従来のディープラーニングとはまったく対照的です。従来のディープラーニングでは、「ウルトラディープ」アーキテクチャがパフォーマンスに飛躍的な進歩をもたらす可能性があり、現在では広く使用されています。

次に、著者は、記事の冒頭で提起された疑問を、次の側面から探究しようとします。グラフニューラルネットワークが深くなるほど、利点は大きくなりますか？ただし、著者は現時点では明確な答えはないと述べ、以下の議論が皆様の思考を刺激することを期待しています。

1. グラフ構造

グリッドは特殊なグラフであるため、現在、このタイプのグラフでは深さが有益であることを示す事例がいくつかあります。研究により、グリッドグラフに加えて、構造を表すいくつかの幾何学的グラフ (分子、ポイントクラウド、グリッドなど) にも深層構造が有益であることがわかっています。これらのグラフは、グラフニューラルネットワーク (Cora、PubMed、CoauthorsCS など) を評価するために一般的に使用される引用ネットワークとなぜ大きく異なるのでしょうか。 1 つの違いは、引用ネットワークが小さな直径を持つ「小さな世界」のようなもので、どのノードもわずか数ステップで他のノードにジャンプできることです。したがって、受容野では、画像全体をカバーするためにいくつかの畳み込み層のみが必要であり、層を追加してもあまり役に立ちません。一方、コンピュータービジョンでは、受容野が指数関数的に拡大し、画像内のオブジェクトの背景を捉える受容野を構築するには、より多くのレイヤーが必要になります。

上の図の上部にある「スモールワールド」グラフでは、1 つのノードから他の任意のノードにジャンプするのに数ステップしかかからないため、近傍の数とグラフ畳み込みフィルターの対応する受容野は指数関数的に急速に増加します。赤いノードから任意のノードまで 2 ホップしかかからないことがわかります (異なる色は、赤いノードから各ノードに到達するまでのレイヤーを表します)。一方、上の図の下部にあるグリッドプロットでは、受容野が多項式的に拡大しており、同じサイズの受容野を形成するにはより多くのレイヤーが必要であることがわかります。

上の図に示すように、近傍が指数関数的に増加し、「情報ボトルネック」現象が発生します。つまり、多くのフィールドからの大量の情報を 1 つのノード特徴ベクトルに詰め込む必要があり、その結果、情報を伝播できなくなり、モデルのパフォーマンスが低下します。

2. 長期的問題と短期的問題

著者は、深さとグラフ深層学習の関係についての議論には、長距離情報と短距離情報の処理が含まれると考えています。たとえば、ソーシャルネットワーク上の予測は、ローカルノードからの短距離情報のみに依存しており、長距離情報を追加しても改善できません。そのため、予測には浅い GNN がよく使用されます。一方、分子の化学的性質は原子の反発の組み合わせによって決まる場合があるため、分子グラフでは長距離の情報が必要になることがよくあります。ディープ GNN は長距離情報の処理に使用できますが、グラフ構造によって受容野が指数関数的に拡大すると、情報ボトルネック現象によって長距離情報の効果的な伝播が妨げられます。これが、ディープモデルのパフォーマンスを向上できない理由です。

3. 理論上の限界

受容野を広くするだけでなく、深層構造により、コンピュータービジョンで単純な特徴に基づいて複雑な特徴を合成することも可能になります。研究者たちは、畳み込みニューラルネットワークが顔画像から学習した特徴を視覚化することで、単純な幾何学的プリミティブが徐々に複雑になり、最終的に完全な顔の構造を形成することを発見しました。この現象は、伝説の「おばあちゃんニューロン」が実際に存在する可能性があることを示唆しています。

単純な特徴を複雑な特徴に合成するこれらの方法は、グラフでは不可能と思われます。たとえば、ニューラルネットワークがどれだけ深くても、エッジの角度/線に基づいて三角形を合成することは不可能です。一方、研究によると、ネットワークを通過するメッセージを使用してグラフのプロパティを計算する前に、最小の深さを設定する必要があることが示されています。現在、どのグラフプロパティが浅い GNN で計算可能で、どのグラフプロパティが深いモデルで計算する必要があるか、どのタイプの GNN でもまったく計算できないかを判断することはできません。

以下は、顔画像に基づいて畳み込みニューラルネットワークによって学習された顔の特徴の例です。レイヤーが深くなるにつれて、画像の特徴がより複雑になり、顔の構造がより完成度が高くなることがわかります。

この画像はマシュー・スチュワートのブログ記事から引用したものです: https://towardsdatascience.com/advanced-topics-in-deep-convolutional-neural-networks-71ef1190522d

4. 深みと豊かさ

コンピュータービジョンと対照的な点の 1 つは、コンピュータービジョンでは基礎となるグリッドが固定されているのに対し、グラフディープラーニングではグラフ構造が非常に重要な考慮事項であることです。標準的なグラフニューラルネットワークでは見つけられない複雑な高次情報 (モチーフやサブ構造の数など) に対処するために、より洗練された情報伝達メカニズムを設計できる可能性があります。たとえば、単純な 1 ホップ畳み込みを備えた深い構造を使用する代わりに、研究者はマルチホップフィルターを備えた浅いネットワークを選択できます。

マイケル・ブロンスタインは、スケーラブルなインセプションのようなグラフニュートラルネットワーク (SIGN) に関する最近の論文で、複数の事前計算済みフィルターを備えた単層線形グラフ畳み込み構造の使用方法を詳しく説明し、そのネットワークのパフォーマンスが数十倍複雑なモデルに匹敵することを示しています。興味深いことに、コンピュータービジョンが採用するアプローチは、グラフディープラーニングのアプローチとは正反対です。大規模なフィルター (最大 11×11) を使用する初期の浅い畳み込みニューラルネットワーク (CNN) 構造 (AlexNet など) は、後に小さなフィルター (通常 3×3) を使用する深い構造に置き換えられました。

5. 評価

グラフニューラルネットワークを評価するための現在の一般的なアプローチは、Oleksandr Shchur グループと Stephan Günnemann グループのメンバーによって深刻な疑問視されてきました。彼らは一般的なベンチマークの欠陥に焦点を当て、単純なモデルと複雑なモデルが同じ条件下で同様に機能することを示しています。

ディープアーキテクチャで観察される現象の一部 (深度の増加に伴うパフォーマンスの低下など) は、単に小さなデータセットへの過剰適合が原因である可能性があります。新しい Open Graph ベンチマークは、大規模な画像に対して厳密なトレーニングおよびテストデータ分割方法を提供できるため、上記の問題のいくつかをある程度解決できます。著者は、深さがグラフディープラーニングに役立つかどうか、またそれがどのような役割を果たすことができるかをよりよく理解するために、研究者は実験プロセスを慎重に設計する必要があると考えています。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

<<: 新世代の人工知能標準システムを構築するには？ガイドが来ます →

>>: 5分で初めてのPythonチャットボットを構築