従来のグラフエンジンから GNN へ: 計算グラフと機械学習の進化

この記事は公開アカウント「Reading Core Technique」（ID: AI_Discovery）から転載したものです。

なぜ私の重点はディープラーニングからグラフニューラルネットワークに移ったのでしょうか? 「それはデータ構造のためでしょうか、それとも効率的な計算のためでしょうか? すべてはグラフの構造と、グラフがリレーショナル問題を解決し、分散コンピューティングをサポートする方法から始まります。」

同じ構造を最先端の機械学習アルゴリズムに適用すると、実際に進化が起こります。単純な行列分解や線形回帰アルゴリズムからグラフニューラルネットワーク (GNN) の実装に至るまで、テクノロジーの発展を見ることができます。

この記事では、グラフ、その利点、機械学習フレームワークでの実装方法について詳しく説明します。また、グラフの互換性とそれが時間の経過とともにどのように進化するかについても説明します。

写真

グラフは、情報を集合的に定義できるリレーショナルデータ構造です。非線形のノードとリンクの集合です。 LinkedIn や Facebook のソーシャルネットワーク、Netflix の映画構造、Google マップ、ルート最適化などの実際の情報は、グラフでのみ表現できます。家系図を例に挙げてみましょう。

各家族メンバーは家系図グラフ (G) の頂点 (V) であり、その関係は辺 (E) によって定義されます。特定の家族メンバーに関する情報を抽出したい場合は、その人の関係も知っておく必要があります。そうでないと、データが不完全なものになります。各ノードとリンクには独自の意味とデータがあります。同様に、同じグラフをさまざまな方法で表現することができ、祖先グラフはさまざまなリンク値を使用してボトムアップで描画できます。

計算グラフ

計算グラフは方程式データを含むグラフです。数式を表現する有向グラフの一種です。非常に一般的な例としては、接尾辞、中辞、接頭辞の計算があります。グラフ内の各ノードには、演算、変数、または方程式自体を含めることができます。これらのグラフは、コンピューターで実行されるほとんどの計算に表示されます。

グラフの利点

グラフは、現実世界の多くの問題を表現するための独自の構造を提供します。一般的な表やマトリックスとは異なり、順序は優先されません。各要素は相互に依存して関係を形成します。この関係は、それに基づくすべての仮定と予測の中心となります。その利点は次のとおりです。

ノードリンク構造 - グラフの独自のノードリンク構造には、大量の情報を保存できます。ネットワークと関係に基づく質問は、この形式でのみ表現できます。グラフを表現するためにマトリックスやツリー図などの他の構造もありますが、主な構成が優先されます。
分散コンピューティング - 単一のコアまたはシステムでは、数十億のノード/要素を含む巨大な問題を処理することはできません。分散コンピューティングをグラフ内に直接実装できるため、計算量が大幅に削減され、時間の複雑さが軽減されます。
リレーショナル問題 - 通常、独立した入力値とそれぞれの出力ラベルを含むデータセットを使用します。最近見た映画、好きな俳優、音楽などに基づいて、自分で映画を予測したい場合はどうすればよいでしょうか?

これは、グラフでのみ解決できる関係の問題です。教師なし学習で試行した場合でも、クラスターは予測できますが、正確なラベルや接続は予測できません。ここでは、Netflix の映画予測における問題の 1 つを簡単に理解してみたいと思います。

ジャンル、俳優、言語、公開日をグラフの主なノードとして想像してください。多くの映画は、ラベルに従って上記のノードにリンクされています。ムービーに応じて、優先する属性ノードを保存します。 Netflix は、保存されたグラフデータに基づいてジャンルとタイトル別に映画を予測する、パーソナライズされたビデオランキング (PVR) アルゴリズムを使用します。

各ジャンルやタイトル内で、人気の選択肢と個人的な選択を組み合わせて映画を予測する Top-N Video Ranker アルゴリズムを再度適用しました。

機械学習におけるグラフ

すべてのニューラルネットワークは計算グラフです。これらだけでなく、線形回帰のようなアルゴリズムもグラフの形で表現できます。従来のグラフとニューラルネットワークの主な違いは実装です。ニューラルネットワークはトレーニングのために計算グラフを模倣する傾向がありますが、グラフのようなデータを処理することはできません。適切に機能するには構造化されたデータが必要です。ニューラルネットワークにおける順方向伝播の観点から理解してみましょう。

これは 8 つのノードと 16 のリンクのグラフであると仮定します。 x1 および x2 入力ニューロン (ノード) は、非表示層ノードに密に接続されています。これらのノードは同様に出力層に接続されます。 x1、x2の値は隠れ層に転送されます。隠れ層はA=WX+Bを実装します。隠し層と出力層を接続するリンクがこれらの値をアクティブにします。それらの方程式は H = function(A) です。出力層でも同様のプロセスが実行されます。

全体として、この図はニューラルネットワークにおける順方向伝播の方程式を表しています。

進化

基礎を終えたら、グラフニューラルネットワーク (GNN) の起源と、人工ニューラルネットワーク (ANN) との違いについて説明します。

現在、機械学習は多くの自動化産業に導入されており、多くの組織や研究に最先端の結果をもたらしています。分散グラフコンピューティングは、効率的な並列コンピューティング、安定したグラフ構造、ソーシャルネットワーク、ナレッジグラフなどの多くの実際のアプリケーションの実装から生まれました。これら 2 つのテクノロジーを組み合わせることで、大きなメリットがもたらされ、より優れた開発と効率化のための新たな研究分野が開拓されます。

グラフエンジンフレームワーク

グラフと機械学習アルゴリズムの間のギャップを埋めるための多くの試みがなされてきました。グラフには、これらのアルゴリズムをトレーニングするために不可欠なプロパティが欠けています。ループ、異種性、データの一貫性、およびデータ抽象化のサポートの欠如は、グラフコンピューティングと機械学習を組み合わせる際に懸念される主要なトピックです。

TUX2 や GraphLab などのグラフエンジンフレームワークは、これらの問題の一部を解決するモデルを提案しています。彼らは分散グラフコンピューティングを行列分解および潜在ディリクレ割り当てアルゴリズムとうまく組み合わせましたが、ニューラルネットワークを実装することはできませんでした。計算に GPU を使用できるディープラーニングフレームワークとは異なり、これらのエンジンは分散コンピューティングのみを利用します。

GNN 入門 (ANN と GNN)

ニューラルネットワークは多くの静的アルゴリズムに取って代わり、現在の機械学習業界をリードしています。市場には、ディープラーニングに直接関連するグラフベースのテクノロジーが必要です。グラフニューラルネットワークは、従来のエンジンの障害と GPU サポートの欠如のために導入されました。

グラフニューラルネットワークは、グラフデータから学習するディープラーニングの新しい分野です。グラフ畳み込みネットワーク、LSTM ネットワークなどの導入により、この分野は大きな可能性を示しています。これらのネットワーク自体はグラフ構造であり、同様のデータを使用してトレーニングされます。ベンチマークには、CORA や SNAP などのグラフデータセットが使用されます。

人工ニューラルネットワークが計算グラフである場合、なぜ GNN が必要なのでしょうか。答えは時々わかりにくいかもしれませんが、まずは基本から始めましょう。

人工ニューラルネットワークは、多かれ少なかれ順序付けられたデータであるマトリックス形式で入力を受け取りますが、ソーシャルネットワークなどの問題では順序よりもリンクが優先されます。技術的には、グラフでは、ルートノードとそれを通る特定のリンクを選択することで順序を推測できます。
計算グラフとしての人工ニューラルネットワークは、単に相互にリンクされたフィードフォワードの数式であることを意味します。ネットワークの依存関係グラフとそれが使用するデータは異なります。
レイヤーと機能の面では、両方のネットワークにdense、softmax、ReLUなどが含まれていますが、それぞれの計算と処理は異なります。通常の密なレイヤーは完全な相互接続を意味しますが、GNN ではそうではない場合があります。
従来のニューラルネットワークは、分類と回帰という 2 種類の問題を解決できます。ソーシャルネットワークやナレッジグラフに関しては、失敗します。これらは直接的なグラフィカル入力を必要とする関係問題です。
人工ニューラルネットワークでは、モデルアーキテクチャが定義され、その入力とそれぞれの出力がモデルに入力されます。グラフベースのネットワークのトレーニングと予測は、ある程度は教師なしで行われます。したがって、特定の LinkedIn メンバーの名前を予測したい場合、実際のラベルを知らなくても、1 次、2 次関係、会社、機関の所属を使用して予測できるはずです。

今日のグラフニューラルネットワークの開発は非常に直感的であり、上記の知識を習得する必要があります。

<<: 「ロボット排除の3原則」を破る方法

>>: RPAにより業務効率が大幅に向上、40％の企業が効果を確認