数十または数百の層を持つニューラル ネットワークの応用は、ディープラーニングの重要な機能の 1 つです。しかし、現実はこれとは程遠いものです。たとえば、今年の機械学習分野で最も注目されている研究分野の 1 つと考えられているグラフ ニューラル ネットワークでは、ほとんどの場合、数層のネットワークしか使用されていません。
一般的に、グラフニューラルネットワークが深くなるほど、効果は高くなると考えられます。しかし、インペリアル・カレッジ・ロンドンの教授であるマイケル・ブロンスタイン氏は最近、次のような自問自答を投げかけました。「グラフ・ニューラル・ネットワークの深さは本当に利点をもたらすのか?」 「ディープグラフニューラルネットワーク」という用語は誤用されているのでしょうか?それとも、「グラフニューラルネットワークが深ければ深いほど効果は高まる」という従来の考えを再検討すべきでしょうか?グラフベースのディープラーニングでは「深さ」はよくないのでしょうか? ディープグラフニューラルネットワークのトレーニングプロセスが非常に難しいことはよく知られています。研究者がディープ ニューラル アーキテクチャで観察できる一般的な困難 (多数のパラメータによりバックプロパゲーション勾配が消失したり、過剰適合が生じたりするなど) に加えて、グラフ特有の困難もいくつかあります。たとえば、「過剰平滑化」です。複数のグラフ畳み込み層を適用すると、ノードの特徴が同じベクトルに収束する傾向があり、徐々に区別がつかなくなります。この現象は、ローパス フィルターのように動作する GCN モデルで初めて観察されました。グラフに特有のもう 1 つの現象は、「情報ボトルネック」です。これは、指数関数的に多数の近傍からの情報を固定サイズのベクトルに「過剰に圧縮」する現象です。 最近では、グラフ ニューラル ネットワークのパフォーマンスが向上するか、少なくとも「名前はディープラーニングだが、実際には 2 層のグラフ ニューラル ネットワークのみを適用している」という恥ずかしい状況を回避するために、グラフ ニューラル ネットワークの深さの問題を解決することに取り組んでいる人々がいます。 解決策には 2 つの種類があります。1 つ目は、DropEdge メソッド、ノード機能間のペアワイズ距離正規化 (PairNorm)、ノード平均および分散正規化 (NodeNorm) などの正規化手法です。2 つ目は、知識スキップやアフィン残差接続などのさまざまな種類の残差接続を含むアーキテクチャ調整です。 これらのアプローチでは、数十の層を持つディープ グラフ ニューラル ネットワークをトレーニングできますが (達成不可能ではない)、満足のいく結果は得られていません。さらに悪いことに、ディープアーキテクチャを使用すると、パフォーマンスが低下することがよくあります。以下の表は、ノード単位の分類タスクにおける異なる深さのグラフ ニューラル ネットワークのパフォーマンスを比較した、典型的な実験評価結果を示しています。 この表は、CoauthorsCS 引用ネットワーク上のノード分類タスクにおけるディープ グラフ ニューラル ネットワーク アーキテクチャの一般的な結果を示しています。深度が深くなるほど、ベースライン (残余接続のある GCN) のパフォーマンスは低下し、パフォーマンスは 88.18% から 39.71% に急激に低下します。 NodeNorm を使用したニューラル ネットワーク アーキテクチャは、深度が増すにつれて改善されますが、パフォーマンスは低下し始めます (ただし、89.53% から 87.40% までのみです)。全体的に、64 層のディープ アーキテクチャによって得られた最良の結果 (87.40%) は、単純なベースライン (88.18%) よりも劣っています。さらに、NodeNorm 正規化により、浅い 2 層アーキテクチャのパフォーマンスが向上することがわかります (88.18% から 89.53%)。上記の表は、「ディープ グラフ ニューラル ネットワークの効果的なトレーニング戦略」という論文からの抜粋です。 上記の表から、ニューラル ネットワークの「利点」がディープ ネットワーク アーキテクチャから来るのか、それともそのようなニューラル ネットワークをトレーニングする「トリック」から来るのかを区別することは難しいことがわかります。上記の例の NodeNorm は、2 層のみの浅いアーキテクチャも改善し、最高のパフォーマンスを実現します。したがって、他の条件が同じであれば、より深いグラフ ニューラル ネットワークの方がパフォーマンスが向上するかどうかはわかりません。 これらの結果は、グリッド構造データに基づく従来のディープラーニングとはまったく対照的です。従来のディープラーニングでは、「ウルトラディープ」アーキテクチャがパフォーマンスに飛躍的な進歩をもたらす可能性があり、現在では広く使用されています。 次に、著者は、記事の冒頭で提起された疑問を、次の側面から探究しようとします。グラフニューラルネットワークが深くなるほど、利点は大きくなりますか?ただし、著者は現時点では明確な答えはないと述べ、以下の議論が皆様の思考を刺激することを期待しています。 1. グラフ構造 グリッドは特殊なグラフであるため、現在、このタイプのグラフでは深さが有益であることを示す事例がいくつかあります。研究により、グリッド グラフに加えて、構造を表すいくつかの幾何学的グラフ (分子、ポイント クラウド、グリッドなど) にも深層構造が有益であることがわかっています。これらのグラフは、グラフ ニューラル ネットワーク (Cora、PubMed、CoauthorsCS など) を評価するために一般的に使用される引用ネットワークとなぜ大きく異なるのでしょうか。 1 つの違いは、引用ネットワークが小さな直径を持つ「小さな世界」のようなもので、どのノードもわずか数ステップで他のノードにジャンプできることです。したがって、受容野では、画像全体をカバーするためにいくつかの畳み込み層のみが必要であり、層を追加してもあまり役に立ちません。一方、コンピューター ビジョンでは、受容野が指数関数的に拡大し、画像内のオブジェクトの背景を捉える受容野を構築するには、より多くのレイヤーが必要になります。 上の図の上部にある「スモール ワールド」グラフでは、1 つのノードから他の任意のノードにジャンプするのに数ステップしかかからないため、近傍の数とグラフ畳み込みフィルターの対応する受容野は指数関数的に急速に増加します。赤いノードから任意のノードまで 2 ホップしかかからないことがわかります (異なる色は、赤いノードから各ノードに到達するまでのレイヤーを表します)。一方、上の図の下部にあるグリッド プロットでは、受容野が多項式的に拡大しており、同じサイズの受容野を形成するにはより多くのレイヤーが必要であることがわかります。 上の図に示すように、近傍が指数関数的に増加し、「情報ボトルネック」現象が発生します。つまり、多くのフィールドからの大量の情報を 1 つのノード特徴ベクトルに詰め込む必要があり、その結果、情報を伝播できなくなり、モデルのパフォーマンスが低下します。 2. 長期的問題と短期的問題 著者は、深さとグラフ深層学習の関係についての議論には、長距離情報と短距離情報の処理が含まれると考えています。たとえば、ソーシャル ネットワーク上の予測は、ローカル ノードからの短距離情報のみに依存しており、長距離情報を追加しても改善できません。そのため、予測には浅い GNN がよく使用されます。一方、分子の化学的性質は原子の反発の組み合わせによって決まる場合があるため、分子グラフでは長距離の情報が必要になることがよくあります。ディープ GNN は長距離情報の処理に使用できますが、グラフ構造によって受容野が指数関数的に拡大すると、情報ボトルネック現象によって長距離情報の効果的な伝播が妨げられます。これが、ディープモデルのパフォーマンスを向上できない理由です。 3. 理論上の限界 受容野を広くするだけでなく、深層構造により、コンピューター ビジョンで単純な特徴に基づいて複雑な特徴を合成することも可能になります。研究者たちは、畳み込みニューラルネットワークが顔画像から学習した特徴を視覚化することで、単純な幾何学的プリミティブが徐々に複雑になり、最終的に完全な顔の構造を形成することを発見しました。この現象は、伝説の「おばあちゃんニューロン」が実際に存在する可能性があることを示唆しています。 単純な特徴を複雑な特徴に合成するこれらの方法は、グラフでは不可能と思われます。たとえば、ニューラル ネットワークがどれだけ深くても、エッジの角度/線に基づいて三角形を合成することは不可能です。一方、研究によると、ネットワークを通過するメッセージを使用してグラフのプロパティを計算する前に、最小の深さを設定する必要があることが示されています。現在、どのグラフ プロパティが浅い GNN で計算可能で、どのグラフ プロパティが深いモデルで計算する必要があるか、どのタイプの GNN でもまったく計算できないかを判断することはできません。 以下は、顔画像に基づいて畳み込みニューラル ネットワークによって学習された顔の特徴の例です。レイヤーが深くなるにつれて、画像の特徴がより複雑になり、顔の構造がより完成度が高くなることがわかります。 この画像はマシュー・スチュワートのブログ記事から引用したものです: https://towardsdatascience.com/advanced-topics-in-deep-convolutional-neural-networks-71ef1190522d 4. 深みと豊かさ コンピューター ビジョンと対照的な点の 1 つは、コンピューター ビジョンでは基礎となるグリッドが固定されているのに対し、グラフ ディープラーニングではグラフ構造が非常に重要な考慮事項であることです。標準的なグラフ ニューラル ネットワークでは見つけられない複雑な高次情報 (モチーフやサブ構造の数など) に対処するために、より洗練された情報伝達メカニズムを設計できる可能性があります。たとえば、単純な 1 ホップ畳み込みを備えた深い構造を使用する代わりに、研究者はマルチホップ フィルターを備えた浅いネットワークを選択できます。 マイケル・ブロンスタインは、スケーラブルなインセプションのようなグラフ ニュートラル ネットワーク (SIGN) に関する最近の論文で、複数の事前計算済みフィルターを備えた単層線形グラフ畳み込み構造の使用方法を詳しく説明し、そのネットワークのパフォーマンスが数十倍複雑なモデルに匹敵することを示しています。興味深いことに、コンピューター ビジョンが採用するアプローチは、グラフ ディープラーニングのアプローチとは正反対です。大規模なフィルター (最大 11×11) を使用する初期の浅い畳み込みニューラル ネットワーク (CNN) 構造 (AlexNet など) は、後に小さなフィルター (通常 3×3) を使用する深い構造に置き換えられました。 5. 評価 グラフ ニューラル ネットワークを評価するための現在の一般的なアプローチは、Oleksandr Shchur グループと Stephan Günnemann グループのメンバーによって深刻な疑問視されてきました。彼らは一般的なベンチマークの欠陥に焦点を当て、単純なモデルと複雑なモデルが同じ条件下で同様に機能することを示しています。 ディープ アーキテクチャで観察される現象の一部 (深度の増加に伴うパフォーマンスの低下など) は、単に小さなデータセットへの過剰適合が原因である可能性があります。新しい Open Graph ベンチマークは、大規模な画像に対して厳密なトレーニングおよびテスト データ分割方法を提供できるため、上記の問題のいくつかをある程度解決できます。著者は、深さがグラフディープラーニングに役立つかどうか、またそれがどのような役割を果たすことができるかをよりよく理解するために、研究者は実験プロセスを慎重に設計する必要があると考えています。 この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 |
<<: 新世代の人工知能標準システムを構築するには?ガイドが来ます →
AIは2016年以来最もホットなキーワードであり、それについてはさまざまな意見があります。バブルがは...
無向グラフの連結成分を見つける深さ優先探索を使用すると、グラフのすべての接続コンポーネントを簡単に見...
[[341199]]何かを学べない限り、車輪の再発明をしないでください。 TensorFlow、Py...
電子商取引業界では、ユーザーに対する商品の推奨は常に非常にホットで重要なトピックです。比較的成熟した...
[[429309]]分散機械学習が登場した理由は非常に単純です。一方では、トレーニングに利用できるデ...
これらの技術の応用により、長期的にはドローンが開発され、橋梁点検の分野で応用されるでしょう。では、橋...
序文チーム内でクリック率に関する記事をいくつか共有した際に、広告のクリック率の推定値を計算する一般的...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
ビッグデータや人工知能の広範な導入を通じて、これらの新興技術の大きな影響が世界経済に浸透するにつれ、...