ついに待望の登場です! Alibaba は、主要なオープンソース プロジェクトであるグラフ ディープラーニング フレームワーク Euler を正式に発表しました。これは、中国でコアビジネスに大規模に適用された最初のオープンソースのグラフディープラーニングフレームワークです。このオープンソースリリースでは、Euler はユーザーが直接使用できる多数のアルゴリズムを組み込んでおり、関連するコードはすでに GitHub からダウンロードできます。 グラフ学習とディープラーニングはどちらも人工知能の分野です。アリババのビッグデータマーケティングプラットフォームであるAlimamaは、グラフ学習とディープラーニングを革新的に組み合わせてEulerを立ち上げ、マーケティング効率を大幅に向上させることができます。オイラーは、アリババママのコアビジネスシナリオで改良され、検証されています。また、金融、通信、ヘルスケアなど、複雑なネットワーク分析を伴うシナリオでも高い応用価値を持っています。たとえば、ユーザーはオイラーを使用して、ユーザー取引などの金融データに基づいて構築された複雑な異種グラフを学習および推論し、それを金融詐欺防止などのシナリオに適用できます。 さあ、オイラーの世界に入りましょう。 オイラーオープンソースアドレス https://github.com/alibaba/euler 1. 概要 過去数年間、データ規模とハードウェアの計算能力の急速な成長に伴い、ディープラーニング技術は産業界で広く使用されるようになり、莫大な技術的利益を生み出してきました。現在のアプリケーションは比較的成熟しており、私たちは次の技術的利益がどこにあるのかを積極的に模索しています。グラフニューラルネットワークは、エンドツーエンドの学習と帰納的推論を組み合わせたもので、関係推論や説明可能性など、ディープラーニングでは処理できない一連の問題を解決することが期待されています。構造的知識の表現、計算、組み合わせ一般化は、人間のような AI を実現するための鍵です。グラフ ニューラル ネットワークはこれらの分野でブレークスルーを達成し、マシンの能力をさらに強化することが期待されています。したがって、グラフ ニューラル ネットワークの徹底的な応用は、次の技術的利益の波を形成することが期待されています。 グラフは、強力な表現力を持つ一般的なデータ構造として、ソーシャル シナリオのユーザー ネットワーク、電子商取引シナリオのユーザーおよび製品ネットワーク、電気通信シナリオの通信ネットワーク、金融シナリオのトランザクション ネットワーク、医療シナリオの薬物分子ネットワークなど、現実世界の多くの問題を記述するために使用できます。テキスト、音声、画像などの分野のデータは、ユークリッド空間のグリッド型に処理しやすく、既存のディープラーニングモデルによる処理に適していますが、グラフは非ユークリッド空間のデータであり、既存の方法で直接適用することはできず、特別に設計されたグラフニューラルネットワークシステムが必要です。 1.1 オイラーのコア機能 1) 大規模グラフ上の分散学習 産業界のグラフには、数十億のノードと数百億のエッジが含まれることがよくあります。シナリオによっては、その数は数百億のノードと数千億のエッジに達することもあります。このサイズのグラフに対して、単一マシンでトレーニングを行うことは現実的ではありません。 Euler はグラフのセグメンテーションと効率的で安定した分散トレーニングをサポートし、数十億のポイントと数百億のエッジの計算スケールを簡単にサポートできます。 2) 複雑な異種グラフの表現をサポート 産業界のグラフ関係は大抵複雑で、ノードとエッジの関係の異質性に反映されています。さらに、ノードとエッジには非常に豊富な属性がある場合があり、一部の一般的なグラフ ニューラル ネットワークでは効果的な表現を学習することが困難です。オイラーは、グラフ構造のストレージとグラフ コンピューティングの抽象化の観点から異種のポイントとエッジに対する操作をサポートし、豊富な異種属性セットをサポートしているため、グラフ学習アルゴリズムで異種グラフの表現を簡単に学習できます。 3) グラフ学習とディープラーニングの組み合わせ 業界には、検索/推奨/広告シナリオなど、多くの古典的なシナリオがあります。従来のディープラーニング手法は優れた結果をもたらします。グラフ学習と従来の手法を組み合わせてモデル機能をさらに向上させる方法を検討する価値があります。 Euler は、ディープラーニング サンプルに基づくミニバッチ トレーニングをサポートし、グラフ表現をディープラーニング ネットワークに直接入力して共同トレーニングを行います。 4) 階層的抽象化と柔軟な拡張 オイラーシステムは、グラフエンジン層、グラフ演算オペレータ層、アルゴリズム実装層の 3 つの層に抽象化されており、高レベルのグラフ学習アルゴリズムを迅速に拡張できます。実際、オイラーには、誰でも直接使用できる組み込みアルゴリズム実装も多数あります。 1.2 オイラー組み込みアルゴリズムの実装 フレームワークの使いやすさを考慮して、複数のよく知られたアルゴリズムと、独自の革新的なアルゴリズムをいくつか組み込みました。アルゴリズムの効率性とアルゴリズムの結果が元の論文と一致していることを確認するために、すべての実装を慎重にテストしました。ユーザーは開発を行う必要がなく、プラットフォームにデータを注入した後、すぐに使用できます。組み込みアルゴリズムのリストを以下の表に示します。内部アルゴリズムの詳細については、セクション 2.3 を参照してください。
2. システム設計 オイラー システム全体は、最下位レベルの分散グラフ エンジン、中位レベルのグラフ セマンティクス オペレーター、および高位レベルのグラフ表現学習アルゴリズムの 3 つのレイヤーに分けられます。 以下では、各レベルの主要な機能について個別に説明します。 図1 オイラーアーキテクチャの概要 2.1 分散グラフエンジン 当社のビジネスをサポートするには、超大規模なグラフのストレージとコンピューティングの課題に直面するだけでなく、さまざまな種類のポイント、エッジ、およびその属性で構成される異種グラフの複雑さにも対処する必要があります。当社の分散グラフ エンジンは、大規模なグラフ ストレージ、分散並列グラフ コンピューティング、異種グラフ向けに最適化されており、産業シナリオでの効果的なアプリケーションを保証します。
2.2 中間グラフ演算演算子 グラフ学習アルゴリズムの多様性とビジネスの複雑さにより、数個または数十個の固定アルゴリズム実装ではすべての顧客ニーズを満たすことはできません。したがって、Euler の設計では、基盤となるシステムのコア機能を中心に柔軟で強力なグラフ操作演算子を設計することに重点を置き、すべての演算子が異種グラフ操作セマンティクスをサポートしています。ユーザーはこれを使用して、独自のビジネス ニーズを満たす独自のアルゴリズム バリアントを迅速に構築できます。 まず、オイラー分散グラフ エンジンは、すべてのグラフ操作を提供する C++ API を提供します。この API に基づいて、ディープラーニング フレームワークに基づくグラフ操作演算子を簡単に追加し、Euler C++ インターフェイスを使用して基盤となるグラフ エンジンの機能にアクセスできるようになります。 Alibaba の X-DeepLearning や人気の TensorFlow など、広く使用されているディープラーニング フレームワークをサポートしています。将来的には、PyTorch などの他のディープラーニング フレームワークのサポートも検討する予定です。 柔軟なグラフ演算演算子を使用することで、機械学習フレームワークは各ミニバッチでオイラーと対話し、トレーニング サンプルを動的に拡張および整理できます。このように、オイラーは従来のグラフ中心の学習モデルをサポートするだけでなく、従来の学習タスクにグラフ学習機能を注入してエンドツーエンドのトレーニングを実現することもできます。 機能分類によると、コアシステムで提供される API は次のように分類できます。
2.3 高レベルアルゴリズムの実装 セクション 1.2 で述べたように、LINE アルゴリズムを除いて、実装したアルゴリズムはランダム ウォークと近傍集約の 2 つのカテゴリに分けられます。外部アルゴリズムの詳細については、セクション 1.2 に記載されている論文リンクを参照してください。以下では、3 つの革新的なアルゴリズムを詳しく紹介し、github 上の関連論文へのリンクを提供します。
これは効率的な GCN トレーニング アルゴリズムです。 GCN およびより一般的なグラフ ニューラル ネットワーク (GNN) 方式は、グラフ構造情報を効果的に抽出できるため、多くのタスクで以前の方法よりも優れた結果を達成しています。しかし、GCN モデルでは膨大な量の計算が必要になるため、モデルのトレーニングに許容できない時間が発生します。 Scalable-GCN は、優れた結果を確保しながら、ミニバッチ GCN の計算の複雑さをレイヤー数の指数関数から線形関数に削減します。これにより、Alibaba Mamaの膨大なデータに3層GCNを適用することが可能となり、広告マッチングの効果が大幅に向上します。
LsHNE は、Alibaba Mama 検索広告シナリオに基づいて私たちが提案した革新的な教師なし大規模異種ネットワーク埋め込み学習方法です。 DeepWalk アルゴリズムとは異なり、LsHNE には次の機能があります。a) ディープ ニューラル ネットワーク学習表現を使用して、属性情報を効果的に統合します。b) 埋め込み表現の距離に敏感な要件を考慮し、分布一貫性原理と弱相関原理という 2 つの負のサンプリング原理を提案します。c) 異種ネットワークをサポートします。
LasGNN は、半教師ありの大規模異種グラフ畳み込みニューラル ネットワーク学習法です。グラフ構造の知識情報と大量のユーザー行動情報を効果的に統合し、モデルの精度を大幅に向上させます。これは、産業広告のシナリオにおける半教師ありグラフ手法の初めての応用です。この手法には、メタパスの考え方をグラフ畳み込みネットワークに適用し、異種ネットワークの畳み込み問題を効果的に解決するメタパスGCNモデルを提案するなど、多くの革新があります。また、効率的な近傍サンプリング法を設計して大規模な多層近傍畳み込みを可能にするメタパスSAGEモデルを提案しています。 3. 応用例 Euler プラットフォームは、Alimama 検索広告のさまざまなシナリオで広く使用されており、検索マッチング シナリオ、CTR 推定シナリオ、マーケティング ツール シナリオ、不正防止シナリオなど、優れたビジネス成果を達成しています。マッチングのシナリオを例に、オイラーの応用を見てみましょう。 広告マッチングのタスクは、ユーザーの検索リクエストが与えられると、マッチング モジュールがユーザーの意図を理解し、大量の広告の中から高品質で小規模な候補広告セットを迅速かつ正確に見つけ、下流のソート モジュールに送信してソートすることです。 まず、従来のマイニング アルゴリズムを使用して、ユーザー行動ログやコンテンツ属性などのディメンションから、Query (クエリ用語)、Item (製品)、Ad (広告) 間のさまざまな関係をマイニングします。次に、Euler プラットフォームの LsHNE メソッドを使用して、グラフ内のノードの埋め込みを学習します。ここで、埋め込み後のノードの空間距離は、元のグラフ内の関係を表します。オンライン リクエストの場合、ユーザーのクエリ用語ベクトル、以前の行動のノード ベクトル、および広告ノード ベクトル間の距離を計算して、効率的なベクトル化された最近傍検索を実行し、ユーザーの意図を満たす広告をすばやく一致させることができます。図 2 は、LsHNE メソッドのオフライン プロセスとオンライン プロセスを示しています。具体的には、図 3 にサンプルの構築とネットワーク構造を示します。 図2 DeepMatchリコールフレームワーク 図3 オフライントレーニングプロセス |
<<: 世界的な「AI+教育」の波が到来、第3回AIAEDグローバルAIインテリジェントアダプティブ教育サミットのハイライトは「ネタバレ」
>>: マイクロソフトのハリー・シャムがGitHub、データの信念、そしてコンピューティングの未来について語る
クラウド プラットフォーム、マネージド サービス プロバイダー、デジタル変革を進めている組織は、AI...
[51CTO.com クイック翻訳] 最高情報責任者 (CIO) と IT リーダーは、人工知能の実...
11月10日、マイクロソフトは人工知能研究企業OpenAIに100億ドル以上を投資したにもかかわらず...
[[411960]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...
昨日、Facebook AI Research (FAIR) は、業界で最も先進的な物体検出プラット...
先ほど、Lvs ロード バランシングの状態監視とトラブルシューティングについて紹介しましたが、Lvs...
米国でプレビュー版が利用可能になった Microsoft Store の AI を活用した要約機能は...
[[315132]]中国科学技術院発展戦略研究員 李秀全氏へのインタビュー第1次、第2次、第3次産業...
海外メディアの報道によると、フィンランドのコンピューター科学者は神経生物学的手法を用いて人工知能研究...
[[443228]]現在、自己教師あり学習は、手動によるラベル付けを必要とせずに強力な視覚特徴抽出機...
今年も大学入試の季節がやってきました。現在、大学入試は受験生にとっての一大イベントであるだけでなく、...
2023年も人工知能技術の進歩は止まることなく続くでしょう。医療から交通まで、人工知能の進歩はさまざ...
今の時代、過去を懐かしむのは当然ですが、私たちは、以前と同じ観測可能性を持つことは決してできないよう...