Facebookは、数億のノードでタスクを迅速に完了できる大規模なグラフ埋め込みアルゴリズムをオープンソース化しました。

Facebookは、数億のノードでタスクを迅速に完了できる大規模なグラフ埋め込みアルゴリズムをオープンソース化しました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

グラフはノードエッジで編まれたネットワークである非常に便利なデータ構造です。たとえば、ナレッジグラフはそのようなネットワークです。

このようなデータを処理するために、グラフ埋め込み、つまり高次元ネットワークを低次元ベクトルに変換する機能が使用されます。処理後、機械学習モデルはそれを簡単に使用できます。

上の図のように、ノードが数個、エッジが数十個しかない場合、グラフの埋め込みは難しくありません。

数十億のノードと数兆のエッジがあったらどうなるでしょうか?従来のグラフ埋め込み方法はあまり良くありません。

しかし現在、Facebook はPyTorch-BigGraph (略してPBG ) と呼ばれる新しいツールをオープンソース化しました。

これを使用すると、任意の大きさのグラフをすばやく埋め込むことができます。また、 GPUはまったく必要ありません

オープンソース モデルを自分でトレーニングできるだけでなく、7,800 万ノードの Wikidata データを使用して事前トレーニングされたモデルもあり、直接ダウンロードして使用できます。

PBG が出版された後、友人たちは急いで互いにこう伝えました。

LeCun 先生も個人的に 2 回転送しました。

開発方法

PBG は、1 億 2000 万ノードの完全なFreeBaseナレッジ グラフを使用してトレーニングされた分散システムです。

トレーニング中、PBG はグラフ上のすべてのエッジの大きなリストを消費します。各エッジは両端のノードによって定義され、一方がソースでもう一方がターゲットです。定義内の 2 つのポイント間にも関係があります (関係タイプ)。

次に、PBG は各ノードの特徴ベクトル (埋め込み) を出力し、ベクトル空間内で隣接する 2 つのノードを近づけ、隣接しないノードを遠ざけます。

こうすることで、周囲の分布が似ているノードがベクトル空間内で互いに近くなり、グラフの本来の意味が保持されます。

さらに、異なる関係ごとに、異なる計算方法で「近接スコア」をカスタマイズできます。このようにして、ノードの埋め込みをさまざまな種類の関係間で共有できます。

もっと早く、もっと早く

大規模なグラフ データを迅速に処理するために、PBG は次の魔法を使用します。

1 つはグラフ パーティショニングで、これによりモデル全体をメモリにロードする必要がなくなります。グラフ埋め込みの品質を損なうことなく、パーティション分割しない場合に比べてメモリ使用量が 88% 節約されます。 2 つ目は、 1 台のマシンでマルチスレッド コンピューティングを実行することです。 3 つ目は、複数のマシンで同時に実行し、各マシンがグラフ上の隣接しない領域を実行することです。 4 番目はバッチネガティブサンプリングです。これにより、CPU はエッジごとに 100 個のネガティブサンプルを使用して、1 秒あたり 100 万個のエッジを処理できます。

トレーニング後、FB15k、Youtube、LiveJournalなどのグラフでテストされました。

研究チームによれば、PBG は従来のものと同じグラフ埋め込み品質を備えているが、必要な時間は大幅に短縮されているという。

あなたもぜひ試してみてください。

PBG もトレーニングする必要があります。

とにかく、GPUは必要ありません。

トレーニングしたくない場合は、完全な WikiData で事前トレーニングされたモデルもあります。

必要なポータルはすべてここにあります。

コードポータル:

https://github.com/facebookresearch/PyTorch-BigGraph

食用指数:

https://torchbiggraph.readthedocs.io/en/latest/

紙の転送ポータル:

https://arxiv.org/abs/1903.12287

ブログポータル:

https://ai.facebook.com/blog/open-sourcing-pytorch-biggraph-for-faster-embeddings-of-extremely-large-graphs/

<<:  Google のロボット工学プログラムは度重なる失敗からどのような教訓を得たのでしょうか?

>>:  AI と機械学習: 大きなデマか、それとも大きな希望か?

推薦する

...

AIビッグモデルがついにデータ争奪戦に参戦

現在、ビッグモデルは産業実装の初期段階にあり、高品質のデータはビッグモデルの産業化における重要な要素...

【WOT2018】AIの敷居は下がり続け、AIツールは誰でも利用可能に

[51CTO.comより引用] 2018年11月30日から12月1日まで、WOT2018グローバル人...

人工知能の雇用見通しはどれほど明るいのでしょうか?これらのポジションは不足しており、経済的見通しは良好です

近年、科学技術の急速な発展により、人工知能分野の人材が非常に人気を集めています。 UiPath が以...

NLP事前トレーニングパラダイムが統合され、下流のタスクタイプに絡まらなくなり、Googleの新しいフレームワークは50のSOTAを更新します

この論文では、Google の研究者がさまざまな事前トレーニング パラダイムを統合する事前トレーニン...

...

TensorFlow2020: Tensorflow.js を使用してコンピューター ビジョン アプリケーションを実行する方法は?

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

顔認識は普及しつつあるのに、なぜ禁止されているのでしょうか?

顔認識は誰もが知っている技術です。iPhoneのFace IDからAlipayの顔認証決済まで、かつ...

...

ドローンが上海の歴史的建造物の保護を主導

[[418446]]上海のピースホテルはかつて「極東第一のビル」として知られていました。1929年に...

UdeskブランドアップグレードWofeng TechnologyはAIコア技術を深化させ、5つの主要製品ラインでトップ1または2戦略を全面的に推進

6月9日、「新AI、新企業サービス、新旅」Wofeng Technologyブランドアップグレードメ...

ガウス混合モデルを用いた多峰性分布の分離

この記事では、ガウス混合モデルを使用して 1 次元の多峰性分布を複数の分布に分割する方法を説明します...

Xuelang Cloudは、世界人工知能会議アルゴリズムコンテストのBPAA産業トラックで世界トップ10に輝きました!

2021年7月6日、世界人工知能大会組織委員会事務局主催の第1回BPAA応用アルゴリズム実践モデル...

7兆のブルーオーシャンが呼んでいる、ケータリングロボットの商業利用を加速させるには?

「機械が人に代わる」という無人化とインテリジェント化の潮流は、伝統的な飲食業界のあらゆる分野に広が...