グラフディープラーニングで複雑な研究タイプのタスクを実装するのは、あまりにも面倒ですか?この新しいツールキットは、

ディープラーニングは、AI分野で最も注目されている分野の1つです。現在、PyGやDGLなどの主流のグラフディープラーニングフレームワークは、主にグラフディープラーニングの基本的な操作とモデルを実装しており、複雑なグラフディープラーニングの研究課題に対処するのは困難です。最近、テキサス A&M 大学の Shuiwang Ji 教授のチームは、グラフ生成、グラフ自己教師学習、グラフニューラルネットワークの解釈可能性、3D グラフディープラーニングタスクなど、複雑な研究タスク向けの初のスケーラブルなグラフディープラーニングツールキットを開発しました。このツールキットの目的は、研究者が複雑なグラフディープラーニングタスクのアルゴリズム開発において、共通のデータセットと評価指標を使用して共通のベンチマークと比較しやすくすることです。

グラフディープラーニングは、豊富なグラフ構造データからの学習においてその有効性を実証しています。また、新薬の発見、ソーシャルネットワーク、物理シミュレーションなど、多くの問題において大きな進歩が遂げられています。多くのグラフディープラーニングフレームワーク (PyG、DGL など) は、主に基本的なグラフディープラーニングモジュールと、ノード分類やグラフ分類などの基本タスクの実装に重点を置いています。しかし、グラフ生成やグラフニューラルネットワークの解釈可能性などの複雑なタスクの場合、研究者はアルゴリズムを実装し、それをベンチマークモデルと比較するために依然として多大な労力を費やす必要があります。

この問題を解決するために、テキサス A&M 大学の Shuiwang Ji 教授が率いる DIVE (データ統合、視覚化、探索) 研究所は、複雑な研究タスク向けの初のグラフディープラーニングツールキット DIG (Dive into Graphs) をオープンソース化しました。ツールキットは、研究室の 16 人のチーム (博士課程の学生 14 人、学部生 1 人、指導者 1 人) によって 1 年かけて完成されました。 PyG や DGL などのグラフニューラルネットワークフレームワークとは異なり、DIG は、現在人気の高い複雑なグラフディープラーニング研究タスク向けに、より使いやすく、より高速で、よりスケーラブルなアルゴリズム開発および比較研究プラットフォームを提供することに重点を置いています。

現在、DIG ツールキットは、グラフ生成、グラフ自己教師学習、グラフニューラルネットワークの解釈可能性、3D グラフディープラーニングの 4 つの研究方向をサポートしています。 DIG は、各分野に対して、共通かつ拡張可能なデータインターフェイス、共通アルゴリズム、評価標準の実装を提供します。

要約すると、DIG は研究者のアルゴリズム開発とベンチマークモデルとの実験比較を大幅に促進します。

論文アドレス: https://arxiv.org/abs/2103.12608
プロジェクトアドレス: https://github.com/divelab/DIG

現在、DIG は 4 つの研究方向で 18 のアルゴリズム、33 のデータセット、7 種類の評価指標をカバーしています。汎用的で拡張可能な実装に基づいて、将来的にはさらに多くの指示とアルゴリズムを DIG に統合できます。ツールキットの全体的な構造を下図に示します。

DIG は 4 つの主要な方向をカバーします。

グラフ生成: グラフ生成アルゴリズムは、指定されたグラフデータセットに基づいて新しいグラフを生成する方法を研究します。グラフ生成タスクは、医薬品や材料の開発において潜在的に重要な用途を持っています。そのため、DIG では分子グラフを生成できるディープラーニングアルゴリズムを主に検討します。同時に、DIG は、ランダム生成、分子特性の最適化、制約付き分子特性の最適化を評価するための関連指標も実装します。

グラフ上の自己教師学習: 自己教師学習の研究は最近、グラフデータにまで拡張され、特定の自己教師タスクを使用することで、モデルがより効果的なグラフ機能表現を取得できるようになりました。現在、DIG は主に対照学習に基づく共通グラフ自己監督アルゴリズムを実装し、ノード分類とグラフ分類のデータインターフェースと評価指標を提供しています。

グラフニューラルネットワークの解釈可能性: グラフニューラルネットワークが実際のアプリケーションに導入されるケースが増えるにつれて、モデルをより深く理解するために、グラフニューラルネットワークの解釈可能性に関する研究が重要になってきました。一般的なグラフニューラルネットワーク解釈アルゴリズムが DIG に実装されています。 DIG 開発者は、一般的に使用されるベンチマークデータセットと評価メトリックに加えて、解釈可能性タスク用のテキストデータから人間が理解できるグラフデータセットも構築し、グラフニューラルネットワークの解釈可能性に関するその後の研究を大幅に促進しました。

3D グラフディープラーニング: 3D グラフネットワークとは、ノードが 3 次元の位置情報を持つグラフネットワーク構造を指します。たとえば、分子内の各原子には相対的な 3D 位置があります。グラフ構造における3D位置情報は、グラフネットワークの表現能力を向上させる上で重要な役割を果たすと考えられます。 DIG は、3 つの最新の 3D グラフディープラーニングアルゴリズムを 3DGN フレームワークに統合し、統一された実装を提供します。また、一般的な 3D 分子データセット用の統一されたインターフェースと評価メトリックも実装します。

主要な設計ガイドライン

共通実装: DIG には、各研究方向のデータインターフェイスと評価方法の共通実装があります。これにより、DIG は標準化されたテストプラットフォームとして機能できるようになります。さらに、ある観点から統一できるアルゴリズムについては、DIG は一般的なアルゴリズム実装も提供します。たとえば、3D グラフのディープラーニング用の 3DGN フレームワークや、グラフの自己教師学習用の比較モデルフレームワークなどです。

スケーラビリティとカスタマイズ性: 共通の実装により、研究者は新しいデータセット、アルゴリズム、評価基準を簡単に統合できます。さらに、ユーザーはデータインターフェースと評価方法を柔軟に選択して実験をカスタマイズできます。したがって、DIG は、研究者が新しいアルゴリズムを実装し、ベンチマークアルゴリズムとの実験的な比較を実行するためのプラットフォームとして使用できます。

<<: 練習問題をやるのが苦痛すぎる場合はどうすればいいですか?このアルゴリズムベースは初心者向けにカスタマイズされており、アニメーションが付属しています

>>: Pytorch モデルのトレーニングを最適化するためのヒント