人類学者ロビン・ダンバーは、人間が親密な人間関係を維持できる最大人数は 150 人だと考えています。 オンラインソーシャルプラットフォームの出現後、多くの人々は仮想世界がダンバーの理論を打ち破ると信じていましたが、現実は、より多くの人々と交流したいのであれば、必然的に他の人々に費やすエネルギーを減らす必要があるということです。 しかし、人間関係は時間とともに変化し、人と人との関係の定義を特定できれば、詐欺グループの特定、詐欺師の電話関係ネットワークを通じてグループ関係の可能性を特定し、悪者を一網打尽に捕まえるなど、多くの業界分野にさらなる探求の方向性をもたらすでしょう。 この授業では、中国聯通のビッグデータ技術専門家である Yan Long 氏が「オントロジー」から始め、中国聯通のビッグデータ関係マップの構築と応用について紹介します。 1. オントロジー ワールド ワイド ウェブの父、ティム バーナーズ リー教授は、1998 年にセマンティック ウェブを人類の目に触れさせました。目標は、ネットワークに単語、概念、およびそれらの間の論理的関係を理解する能力を与え、人間とコンピューターの相互作用をより効率的にすることです。セマンティック ウェブの中核となるオントロジーは、エンティティの存在と本質を研究する一般理論です。 1993 年、トーマス グルーバー教授は、共有概念モデルの明示的な形式仕様という、最も広く受け入れられているオントロジーの定義を提案しました。ここで言及されている概念は実際には 4 つあります。「概念化」とは、客観的な世界におけるいくつかの現象の関連概念を通じて得られるモデルを指します。「明示的」とは、使用される概念とその制約が明確に定義されていることを意味します。「形式的」とは、オントロジーがコンピューターで読み取り可能であることを意味します。「共有」とは、オントロジーが一般に認識されている知識を具体化し、関連分野で認識されている概念セットを反映していることを意味します。 存在論はもともと形而上学の一分野でした。形而上学的理解の例を以下に示します(例:図1) (図1) 中国語の「猫」と「猫咪」、英語の「cat」、そして写真に写っている「猫の絵」はすべて、実際の物体「猫」を表すために使用できます。したがって、哲学的なレベルでは、「猫」のような物理的なオブジェクトは、アリストテレスが「実体」と呼び、パルメニデスが「存在」と呼び、オントロジーでは「オントロジー」と呼ばれるものです。上の画像の説明はすべて、「エンティティ」のシンボル「猫」を参照しています。 ここから、「オントロジー」という概念は哲学的なレベルでは形而上学的なものであり、理解することはできても言葉で表現することはできないことがわかります。したがって、エンティティにとって、すべての記述はこの「オントロジー」の外部シンボルです。私たちが感じ、聞き、見るものはすべて、シンボルからオントロジーへの一種のマッピングになります。 オントロジーの哲学的意味を説明した後、意味レベルでオントロジーをより深く理解できたでしょうか? 実際、オントロジーの主な目的は、このようなマッピングを確立することです。たとえば、シンボル セット {"cat", "kitty", "meow", "cat"} は、"cat" の "オントロジー" にマッピングされます。オントロジーのセットを確立すると、オントロジー間に論理的な関係が存在します (例: IF A⊆B かつ B⊆C、THEN A⊆C)。オントロジーの論理層は、対応する論理的推論を実装するための公理と推論ルールを提供します。これは、「属性-オントロジー」関係、「サブクラス-オントロジー」関係、または「オントロジー-オントロジー」の対立または近似関係である可能性があります。オントロジーの最終的な目標は、知識表現を実現し、知識ベースを構築し、知識推論を実現すること、つまり、オントロジーの基本要素であるエンティティ間の関係を、現実世界を記述するための知識モデルとして使用することです。 2. ナレッジグラフ この知識モデルの用途は何でしょうか? Google は、従来のキーワードベースの検索をセマンティックベースの検索にアップグレードするために、2012 年にナレッジ グラフを提案しました。ナレッジ グラフを使用すると、複雑な関連情報をより適切に照会し、意味レベルからユーザーの意図を理解し、検索品質を向上させることができます。ここで、オントロジーの概念を借用して、ナレッジ グラフについての私の個人的な理解を示します。ナレッジ グラフは、現実世界に存在するさまざまなエンティティとそれらの間の関係を記述するために使用され、エンティティ自体にはさまざまなインスタンスと属性があります。先ほどの「猫の例」(下の図 2)と同様に、「meow meow meow meow」とクエリすると、返されるのは TikTok で人気の「Learn to Meow」ではなく、エンティティ「cat」になります。同時に、他の知識を補足することで、「猫」には「ナス」のインスタンスがあり、「ナス」の所有者は私であることがわかります。私と小虎はどちらも中国聯通ビッグデータで働いており、親しい関係にあります。ナレッジベース内のエンティティ、リレーションシップ、属性、インスタンスなどの数が非常に多い場合は、巨大なネットワーク関係トポロジ図を描くことができます。このような知識ベースがあれば、検索エンジンはユーザーのクエリの背後にある意味情報を把握し、より正確な情報を返すことができます。言い換えれば、ナレッジグラフは、より多くの意味を導入し、物事を検索し、人間のように考え、関連付け、関係付けます。これは、Google ナレッジ グラフの本来の意図、「世界は文字列で構成されているのではなく、物で構成されている」を裏付けるものでもあります。 (図2) さらに、さまざまな言語の「cat」という単語を「cat」のオントロジーにマッピングし、名詞主語、動詞主語などで構成された論理関係や動詞目的語句に基づいて、逆マッピングを行うことで簡単な機械翻訳を実現できます。 3. グラフデータベース 2018 年 9 月に、弊社の公式アカウントで「エキスパート クラスルーム | NoSQL か SQL か」というタイトルの記事が掲載され、グラフ データベースについて触れられました。記事では、NoSQL か SQL か、なぜ NoSQL か、などのトピックが取り上げられました。シーンベースの選択についても同様の導入がありますが、ここでは詳しく説明しません。前のセクションの図から、通話記録はエンティティとリレーションシップの形式で保存できることが明確にわかります。これは、オペレーター データの本来の利点です。私たちのシナリオでは、NLP テクノロジに基づくエンティティ抽出と関係抽出に多くの時間を費やす必要はありません。私たちの焦点は、動的に更新される多数のコール ノードと関係がグラフに確実にロードされるようにする方法、どの人がどのようなコール動作特性を持っているか、これらのグラフからマイニングされた機能が既存のシナリオ モデルにどのように貢献するかなど、コール関係ネットワークにあります。例えば、リスク管理の分野では、グラフ発見関連の手法を適用して、サンプル番号やIDが詐欺コミュニティに属しているかどうか、安定した通話ソーシャルサークルを持っているかどうか、ブラックマーケット番号との関連度はどれくらいか、相関係数はどれくらいか、複数の電話グループの関連があるかどうかなどを調べています。これらは、リスク管理および不正防止モデルの新しい機能になります。 テストデータセットは、ネットワーク全体のすべてのユーザーの 3 か月間の通話記録を使用します。ノード属性には、Unicom 番号であるかどうか、携帯電話番号に対応する職場の経度と緯度などが含まれ、エッジ属性には、3 か月間の番号間の通話回数、通話回数、日数、期間などが含まれます。データセットのサイズは約 750G で、これをグラフ データベースにロードした結果を図 3 に示します。 (図3) ロード後、各マシンの VertexCount と EdgeCount によると、グラフ データベースには約 17 億のノード (数値) と 340 億のエッジ (呼び出し関係) がロードされていることがわかります。 NumOfSkippedVertices は重複排除プロセスを表します。つまり、各ノードは 1 回だけロードされます。したがって、パーティションの合計サイズは約 590G のみとなり、実際にデータが圧縮されます。 単純な数値関係クエリ (図 4 を参照) は、数百億のエッジを持つグラフ データベースでミリ秒レベルの応答を実現できます。注目すべき点が 2 つあります。1. クエリは JSON 形式で返されます。2. クエリ言語は SQL に似ています。 (図4) クエリ言語をファイルの形式で保存し、インストール/実行クエリを通じてクエリを実行できます。同時に、バックグラウンドでクエリをインストールすると、REST エンドポイントも生成され、パラメータ化されたクエリを http 経由で呼び出すことができるようになります。図 5 に示すように、クエリ言語を使用してグラフを走査し、2 つの数値間の最短距離を見つけます。これにより、よく知られている「6次の隔たり理論(スモールワールド理論)」が実現されます。つまり、世界中のどの2人も、最大6つの関係を通じてお互いを見つけることができるということです。 (図5) 番号間の通話頻度を関係重みとして定義すると、各人の通話回数が通話アクティビティになります。あなたとの通話記録はないが、あなたの親しい友人には頻繁に電話をかけてくる人がいると想像してください。あなたはこの人を知っている可能性がありますか? このクエリは、グラフからあなたが知っている可能性のある人を抽出します。クエリ入力は、クエリする番号と最も可能性の高い k 個の携帯電話番号であり、戻り値はクエリ番号と入力番号の間の距離です (図 6 を参照)。 (図6) ***、実際のシナリオケースを挙げると、いくつかの従業員番号、IMEI、またはその他のIDを通じて企業内の従業員グループを見つけ、グループを分析して企業の実際のビジネスアドレス、活動レベルなどを反映することは可能ですか?ここでは、[2ステップ近隣サブグラフ]の概念(携帯電話番号をノードとして例とする)を示します。つまり、連絡先の番号と連絡先の連絡先を入力します(図7に示すように、ここでは視覚的なインタラクティブインターフェイスを使用して通話関係を表示します)。 (図7) モデル構築プロセスでは、通話の期間、継続時間、頻度を分析し、同僚間の関係の可能性を評価し、既存の職場・居住地モデルとグリッド技術に基づいて会社の実際の事業所住所をマイニングしました。私の携帯電話番号を例にとると(図8参照)、同社の従業員が主に集まる職場(数字は、対応するグリッド内に職場がある人の数を表す)は、中国聯通ビッグデータ社の2つのオフィスエリア(職場・居住地データは2018年12月から取得)と中国聯通グループです。 (図8) このモデルは、群衆の行動に関する洞察に基づいて、産業および商業部門が企業の実際の場所と活動を動的かつ客観的に評価および判断し、関連する監督と規制のためのデータサポートを提供するのに役立ちます。 注目すべきは、中国聯通のビッグデータ関係グラフに基づくと、数十億のノードと数百億のエッジを持つ大規模なネットワーク構造において、6 ステップの隣接サブグラフを照会するのに 1 秒もかからないことです (図 9 を参照)。視覚的なインタラクティブ インターフェイスを図 10 に示します (中央の白い点は私の携帯電話番号です)。 (図9) (図10) ネットワーク内の関係性をより詳細に把握するために、表示しきい値が下げられます (図 11 を参照)。確認したところ、中央のリング構造上の各点は互いに同僚であることがわかりました。多くの場合、ソーシャル ネットワークのリング構造内のポイント間には、同僚関係、親密な関係、ギャング関係、資本の流れなどの暗黙的なつながりが存在します。さまざまなサンプルとさまざまなシナリオのアプリケーションに基づいて、従来のデータベース タイプと比較して、グラフ データベースはサンプル間の相関関係を最大限に調査できます。 さらに、コミュニティ検出、Pagerank、LPA などの多数の古典的なグラフマイニングアルゴリズムも、従来の機械学習モデルの入力機能にさらに多くのグラフ機能を追加する準備ができています。 つまり、オントロジー、ナレッジ グラフ、グラフ データベースはすべて、ノードと関係を使用して現実世界のさまざまなシナリオを直感的にモデル化し、「グラフ」という基本的で普遍的な「言語」を使用して、この多彩な世界のさまざまな関係を「高い忠実度」で表現します。非常に直感的で、自然で、直接的で、効率的です。 Unicom Data は「ノード」と「関係性」において独自の優位性を持っており、グラフ検出の道を着実に歩んでいます。 |
<<: AI、BI、データ: 2020 年までに勝利するのは誰か?
>>: 映画業界におけるAI:将来はアカデミー賞の背後にAIが立つ
深セン初の無人バスの試験運行が始まり、我が国の科学技術力に対する信頼が高まっています。ほぼ同時期に、...
今はお金を稼ぐのが難しく、ビジネスも簡単ではないと言う人もいますが、今こそ最高の時代だと言う人もいま...
優れた、またはほぼ優れたモデルのパフォーマンスに圧倒されていますか? あなたの幸せは裏切られています...
旅行がますます便利になるにつれ、旅行の際には携帯電話だけを持って行けばよくなります。これは、モバイル...
拡散モデルは新たな大きな応用をもたらしました——ソラが動画を生成するのと同じように、ニューラルネット...
1. パーソナライズされたタイトル生成パーソナライズされたタイトル生成とは、ユーザー コンテンツとパ...
最近、InstantX と名乗る、Xiaohongshu 出身の 95 歳以上の謎のチームが大きな動...
[[210306]]以下は、AI ビジネスを始める方法の紹介です。これは比較的人気のある科学講演で...
Googleは10月13日、今週の木曜日からGoogleの「Search Generative E...
9月25日、アリババ人工知能研究所は雲啓カンファレンスで、Tmall Genieは現在660以上のI...
人工知能の分野で大きな影響力を持つ企業は、金融市場においても並外れた成長と強さを見せています。 AI...