オイラー誕生!中国初の産業グレードのグラフディープラーニングオープンソースフレームワーク

オイラー誕生!中国初の産業グレードのグラフディープラーニングオープンソースフレームワーク

[[255980]]

ついに待望の登場です! Alibaba は、主要なオープンソース プロジェクトであるグラフ ディープラーニング フレームワーク Euler を正式に発表しました。これは、中国でコアビジネスに大規模に適用された最初のオープンソースのグラフディープラーニングフレームワークです。このオープンソースリリースでは、Euler はユーザーが直接使用できる多数のアルゴリズムを組み込んでおり、関連するコードはすでに GitHub からダウンロードできます。

グラフ学習とディープラーニングはどちらも人工知能の分野です。アリババのビッグデータマーケティングプラットフォームであるAlimamaは、グラフ学習とディープラーニングを革新的に組み合わせてEulerを立ち上げ、マーケティング効率を大幅に向上させることができます。オイラーは、アリババママのコアビジネスシナリオで改良され、検証されています。また、金融、通信、ヘルスケアなど、複雑なネットワーク分析を伴うシナリオでも高い応用価値を持っています。たとえば、ユーザーはオイラーを使用して、ユーザー取引などの金融データに基づいて構築された複雑な異種グラフを学習および推論し、それを金融詐欺防止などのシナリオに適用できます。

さあ、オイラーの世界に入りましょう。

オイラーオープンソースアドレス

https://github.com/alibaba/euler

1. 概要

過去数年間、データ規模とハードウェアの計算能力の急速な成長に伴い、ディープラーニング技術は産業界で広く使用されるようになり、莫大な技術的利益を生み出してきました。現在のアプリケーションは比較的成熟しており、私たちは次の技術的利益がどこにあるのかを積極的に模索しています。グラフニューラルネットワークは、エンドツーエンドの学習と帰納的推論を組み合わせたもので、関係推論や説明可能性など、ディープラーニングでは処理できない一連の問題を解決することが期待されています。構造的知識の表現、計算、組み合わせ一般化は、人間のような AI を実現するための鍵です。グラフ ニューラル ネットワークはこれらの分野でブレークスルーを達成し、マシンの能力をさらに強化することが期待されています。したがって、グラフ ニューラル ネットワークの徹底的な応用は、次の技術的利益の波を形成することが期待されています。

グラフは、強力な表現力を持つ一般的なデータ構造として、ソーシャル シナリオのユーザー ネットワーク、電子商取引シナリオのユーザーおよび製品ネットワーク、電気通信シナリオの通信ネットワーク、金融シナリオのトランザクション ネットワーク、医療シナリオの薬物分子ネットワークなど、現実世界の多くの問題を記述するために使用できます。テキスト、音声、画像などの分野のデータは、ユークリッド空間のグリッド型に処理しやすく、既存のディープラーニングモデルによる処理に適していますが、グラフは非ユークリッド空間のデータであり、既存の方法で直接適用することはできず、特別に設計されたグラフニューラルネットワークシステムが必要です。

1.1 オイラーのコア機能

1) 大規模グラフ上の分散学習

産業界のグラフには、数十億のノードと数百億のエッジが含まれることがよくあります。シナリオによっては、その数は数百億のノードと数千億のエッジに達することもあります。このサイズのグラフに対して、単一マシンでトレーニングを行うことは現実的ではありません。 Euler はグラフのセグメンテーションと効率的で安定した分散トレーニングをサポートし、数十億のポイントと数百億のエッジの計算スケールを簡単にサポートできます。

2) 複雑な異種グラフの表現をサポート

産業界のグラフ関係は大抵複雑で、ノードとエッジの関係の異質性に反映されています。さらに、ノードとエッジには非常に豊富な属性がある場合があり、一部の一般的なグラフ ニューラル ネットワークでは効果的な表現を学習することが困難です。オイラーは、グラフ構造のストレージとグラフ コンピューティングの抽象化の観点から異種のポイントとエッジに対する操作をサポートし、豊富な異種属性セットをサポートしているため、グラフ学習アルゴリズムで異種グラフの表現を簡単に学習できます。

3) グラフ学習とディープラーニングの組み合わせ

業界には、検索/推奨/広告シナリオなど、多くの古典的なシナリオがあります。従来のディープラーニング手法は優れた結果をもたらします。グラフ学習と従来の手法を組み合わせてモデル機能をさらに向上させる方法を検討する価値があります。 Euler は、ディープラーニング サンプルに基づくミニバッチ トレーニングをサポートし、グラフ表現をディープラーニング ネットワークに直接入力して共同トレーニングを行います。

4) 階層的抽象化と柔軟な拡張

オイラーシステムは、グラフエンジン層、グラフ演算オペレータ層、アルゴリズム実装層の 3 つの層に抽象化されており、高レベルのグラフ学習アルゴリズムを迅速に拡張できます。実際、オイラーには、誰でも直接使用できる組み込みアルゴリズム実装も多数あります。

1.2 オイラー組み込みアルゴリズムの実装

フレームワークの使いやすさを考慮して、複数のよく知られたアルゴリズムと、独自の革新的なアルゴリズムをいくつか組み込みました。アルゴリズムの効率性とアルゴリズムの結果が元の論文と一致していることを確認するために、すべての実装を慎重にテストしました。ユーザーは開発を行う必要がなく、プラットフォームにデータを注入した後、すぐに使用できます。組み込みアルゴリズムのリストを以下の表に示します。内部アルゴリズムの詳細については、セクション 2.3 を参照してください。

アルゴリズムの種類

自社開発かどうか

特徴

ディープウォーク

ランダムウォーク

いいえ

古典的な不偏ランダムウォークの教師なしアルゴリズム。

ノード2ベクトル

ランダムウォーク

いいえ

設定可能なパラメータを使用して、歩行時にBFSまたはDFSを優先する

ライン

他の

いいえ

1次および2次の近傍情報を柔軟に活用する教師なしアルゴリズム

ジーシーエヌ

近所の集まり

いいえ

CNN操作は非ユークリッド空間に一般化されたアルゴリズムに似ている

グラフSAGE

近所の集まり

いいえ

GCN の改善、近傍サンプリング、複数の集約関数など。

ガット

近所の集まり

いいえ

近隣集約のためのアテンション技術の使用

スケーラブル-GCN

近所の集まり

はい

GCNトレーニングをスピードアップする方法

LqCy

ランダムウォーク

はい

ディープネットワークコーディングを使用した異種グラフのランダムウォーク

ラスGNN

近所の集まり

はい

大規模異種グラフ畳み込みネットワークのための半教師あり学習法

2. システム設計

オイラー システム全体は、最下位レベルの分散グラフ エンジン、中位レベルのグラフ セマンティクス オペレーター、および高位レベルのグラフ表現学習アルゴリズムの 3 つのレイヤーに分けられます。

以下では、各レベルの主要な機能について個別に説明します。

図1 オイラーアーキテクチャの概要

2.1 分散グラフエンジン

当社のビジネスをサポートするには、超大規模なグラフのストレージとコンピューティングの課題に直面するだけでなく、さまざまな種類のポイント、エッジ、およびその属性で構成される異種グラフの複雑さにも対処する必要があります。当社の分散グラフ エンジンは、大規模なグラフ ストレージ、分散並列グラフ コンピューティング、異種グラフ向けに最適化されており、産業シナリオでの効果的なアプリケーションを保証します。

  • まず、超大規模グラフ(数十億のポイント、数百億のエッジ)を格納するために、オイラーは単一マシンの限界を打ち破り、分散ストレージ アーキテクチャを採用する必要があります。グラフをロードすると、エンジン内でグラフ全体が複数のサブグラフに分割され、各コンピューティング ノードに 1 つまたは複数のサブグラフが割り当てられてロードされます。

  • 各コンピューティング ノードの能力を最大限に活用するために、グラフ操作を実行するときに、トップレベルの操作がサブグラフ上の複数の操作に分解され、各ノードによって並列に実行されます。このように、ノードが追加されるにつれて、より優れたサービス機能が得られます。次に、複数のレプリカのサポートを導入しました。これにより、ユーザーはシャードとレプリカの数を柔軟にバランスさせ、より優れたサービス機能を実現できます。最後に、グラフ表現学習の基礎となるグラフストレージデータ構造と操作アルゴリズムを最適化し、単一マシンのグラフ操作パフォーマンスが数倍向上しました。

  • さまざまな種類のエッジ、ポイント、属性で構成される異種グラフは、多くの複雑なビジネス シナリオに不可欠です。異種グラフ コンピューティング機能をサポートするために、基盤となるストレージはさまざまなノードとエッジの種類に応じて編成されます。このようにして、異種グラフ操作を効率的にサポートできます。

2.2 中間グラフ演算演算子

グラフ学習アルゴリズムの多様性とビジネスの複雑さにより、数個または数十個の固定アルゴリズム実装ではすべての顧客ニーズを満たすことはできません。したがって、Euler の設計では、基盤となるシステムのコア機能を中心に柔軟で強力なグラフ操作演算子を設計することに重点を置き、すべての演算子が異種グラフ操作セマンティクスをサポートしています。ユーザーはこれを使用して、独自のビジネス ニーズを満たす独自のアルゴリズム バリアントを迅速に構築できます。

まず、オイラー分散グラフ エンジンは、すべてのグラフ操作を提供する C++ API を提供します。この API に基づいて、ディープラーニング フレームワークに基づくグラフ操作演算子を簡単に追加し、Euler C++ インターフェイスを使用して基盤となるグラフ エンジンの機能にアクセスできるようになります。 Alibaba の X-DeepLearning や人気の TensorFlow など、広く使用されているディープラーニング フレームワークをサポートしています。将来的には、PyTorch などの他のディープラーニング フレームワークのサポートも検討する予定です。

柔軟なグラフ演算演算子を使用することで、機械学習フレームワークは各ミニバッチでオイラーと対話し、トレーニング サンプルを動的に拡張および整理できます。このように、オイラーは従来のグラフ中心の学習モデルをサポートするだけでなく、従来の学習タスクにグラフ学習機能を注入してエンドツーエンドのトレーニングを実現することもできます。

機能分類によると、コアシステムで提供される API は次のように分類できます。

  • 重みを使用してポイントとエッジをグローバルにサンプリングする機能。主にミニバッチサンプルのランダム生成とネガティブサンプリングに使用されます。

  • 特定のノードに基づく近隣操作。これは、近傍の加重サンプリングや、最も重み付けされた近傍の取得など、グラフ コンピューティングのコア機能です。

  • 頂点/エッジ属性の検索。この機能により、アルゴリズムは頂点/エッジ ID 機能だけでなく、より豊富な機能を使用できるようになります。

2.3 高レベルアルゴリズムの実装

セクション 1.2 で述べたように、LINE アルゴリズムを除いて、実装したアルゴリズムはランダム ウォークと近傍集約の 2 つのカテゴリに分けられます。外部アルゴリズムの詳細については、セクション 1.2 に記載されている論文リンクを参照してください。以下では、3 つの革新的なアルゴリズムを詳しく紹介し、github 上の関連論文へのリンクを提供します。

  • スケーラブル-GCN

これは効率的な GCN トレーニング アルゴリズムです。 GCN およびより一般的なグラフ ニューラル ネットワーク (GNN) 方式は、グラフ構造情報を効果的に抽出できるため、多くのタスクで以前の方法よりも優れた結果を達成しています。しかし、GCN モデルでは膨大な量の計算が必要になるため、モデルのトレーニングに許容できない時間が発生します。 Scalable-GCN は、優れた結果を確保しながら、ミニバッチ GCN の計算の複雑さをレイヤー数の指数関数から線形関数に削減します。これにより、Alibaba Mamaの膨大なデータに3層GCNを適用することが可能となり、広告マッチングの効果が大幅に向上します。

  • LqCy

LsHNE は、Alibaba Mama 検索広告シナリオに基づいて私たちが提案した革新的な教師なし大規模異種ネットワーク埋め込み学習方法です。 DeepWalk アルゴリズムとは異なり、LsHNE には次の機能があります。a) ディープ ニューラル ネットワーク学習表現を使用して、属性情報を効果的に統合します。b) 埋め込み表現の距離に敏感な要件を考慮し、分布一貫性原理と弱相関原理という 2 つの負のサンプリング原理を提案します。c) 異種ネットワークをサポートします。

  • ラスGNN

LasGNN は、半教師ありの大規模異種グラフ畳み込みニューラル ネットワーク学習法です。グラフ構造の知識情報と大量のユーザー行動情報を効果的に統合し、モデルの精度を大幅に向上させます。これは、産業広告のシナリオにおける半教師ありグラフ手法の初めての応用です。この手法には、メタパスの考え方をグラフ畳み込みネットワークに適用し、異種ネットワークの畳み込み問題を効果的に解決するメタパスGCNモデルを提案するなど、多くの革新があります。また、効率的な近傍サンプリング法を設計して大規模な多層近傍畳み込みを可能にするメタパスSAGEモデルを提案しています。

3. 応用例

Euler プラットフォームは、Alimama 検索広告のさまざまなシナリオで広く使用されており、検索マッチング シナリオ、CTR 推定シナリオ、マーケティング ツール シナリオ、不正防止シナリオなど、優れたビジネス成果を達成しています。マッチングのシナリオを例に、オイラーの応用を見てみましょう。

広告マッチングのタスクは、ユーザーの検索リクエストが与えられると、マッチング モジュールがユーザーの意図を理解し、大量の広告の中から高品質で小規模な候補広告セットを迅速かつ正確に見つけ、下流のソート モジュールに送信してソートすることです。

まず、従来のマイニング アルゴリズムを使用して、ユーザー行動ログやコンテンツ属性などのディメンションから、Query (クエリ用語)、Item (製品)、Ad (広告) 間のさまざまな関係をマイニングします。次に、Euler プラットフォームの LsHNE メソッドを使用して、グラフ内のノードの埋め込みを学習します。ここで、埋め込み後のノードの空間距離は、元のグラフ内の関係を表します。オンライン リクエストの場合、ユーザーのクエリ用語ベクトル、以前の行動のノード ベクトル、および広告ノード ベクトル間の距離を計算して、効率的なベクトル化された最近傍検索を実行し、ユーザーの意図を満たす広告をすばやく一致させることができます。図 2 は、LsHNE メソッドのオフライン プロセスとオンライン プロセスを示しています。具体的には、図 3 にサンプルの構築とネットワーク構造を示します。

図2 DeepMatchリコールフレームワーク

図3 オフライントレーニングプロセス

<<:  世界的な「AI+教育」の波が到来、第3回AIAEDグローバルAIインテリジェントアダプティブ教育サミットのハイライトは「ネタバレ」

>>:  マイクロソフトのハリー・シャムがGitHub、データの信念、そしてコンピューティングの未来について語る

ブログ    
ブログ    

推薦する

AIOps で IT 運用にインテリジェンスを組み込む方法

クラウド プラットフォーム、マネージド サービス プロバイダー、デジタル変革を進めている組織は、AI...

IT プロフェッショナルが CIO に人工知能について知ってほしい 9 つのこと

[51CTO.com クイック翻訳] 最高情報責任者 (CIO) と IT リーダーは、人工知能の実...

マイクロソフトはセキュリティ上の理由から従業員によるOpenAI ChatGPTの使用を制限

11月10日、マイクロソフトは人工知能研究企業OpenAIに100億ドル以上を投資したにもかかわらず...

...

すべてのトップオブジェクト検出アルゴリズムを統合: FAIRオープンソースDetectron

昨日、Facebook AI Research (FAIR) は、業界で最も先進的な物体検出プラット...

LVS 負荷分散モードとアルゴリズムの概要

先ほど、Lvs ロード バランシングの状態監視とトラブルシューティングについて紹介しましたが、Lvs...

...

人工知能がいかにして質の高い経済発展を可能にするか

[[315132]]中国科学技術院発展戦略研究員 李秀全氏へのインタビュー第1次、第2次、第3次産業...

人工知能の新たなブレークスルー:ニューラルネットワークが画像内の物体を自律的に識別できる

海外メディアの報道によると、フィンランドのコンピューター科学者は神経生物学的手法を用いて人工知能研究...

フレームワークがシャム自己教師学習を統合、清華大学とセンスタイムが効果的な勾配形式を提案

[[443228]]現在、自己教師あり学習は、手動によるラベル付けを必要とせずに強力な視覚特徴抽出機...

人工知能が再び大学入試に挑戦:AIはエッセイの書き手と比べて何点取れるのか?

今年も大学入試の季節がやってきました。現在、大学入試は受験生にとっての一大イベントであるだけでなく、...

技術革命: 人工知能の最新動向

2023年も人工知能技術の進歩は止まることなく続くでしょう。医療から交通まで、人工知能の進歩はさまざ...

AIが観測性を高める方法

今の時代、過去を懐かしむのは当然ですが、私たちは、以前と同じ観測可能性を持つことは決してできないよう...