1. 背景 2017年6月に電子商取引認知マップが発表されて以来、実践から体系化までの継続的な探求を通じて、比較的完全な電子商取引データ認知システムが徐々に形成されてきました。 グループが事業領域を拡大し続けるにつれて、データ相互接続の需要はますます緊急になっています。これは、クロスドメイン検索の発見、ショッピングガイド、インタラクションの基盤であり、ユーザーが本当に「ショッピング」できるようにするための基本条件でもあるためです。しかし、その前に、現在の問題を分析する必要があります。 1.1 問題 より複雑なデータ アプリケーション シナリオは、従来の電子商取引に限定されません。現在、私たちはオンラインとオフラインを組み合わせた新しい小売、多言語、複雑なショッピング シナリオに直面しています。使用されるデータは、以前のテキストの範囲を超えることがよくあります。これらのデータには、次のような特徴があることがよくあります。 非構造化インターネット上の大量のデータは、さまざまなソースに分散しており、基本的に非構造化テキスト形式で表現されています。現在のカテゴリ システムは、製品管理の観点から長期間にわたって広範囲にわたる作業を行ってきましたが、それでも大量のデータの氷山の一角しかカバーしていません。これでは、実際のユーザーのニーズを理解するのに十分ではありません。 ノイズだらけ: 従来のテキスト分析とは異なり、グループ内のデータのほとんどは現在、クエリ、タイトル、コメント、ガイドなどです。ユーザーの習慣や販売者の要求により、これらのデータは普通のテキストとは大きく異なる文法構造を持っています。また、利益上の理由により、ノイズやダーティデータも多くなり、ユーザーのニーズを真に発見して構造化することが非常に困難になります。 マルチモーダルとマルチソース:グループの事業拡大に伴い、現在の検索推奨では商品内のテキスト情報だけでなく、大量の動画や画像もコンテンツとして利用されています。さまざまなソースからのデータをどのように統合するか、マルチモーダルデータをどのように関連付けるかは、データ構築における難しい点でもあります。 データが分散しており、相互接続できない:現在の商品システム構築の観点から見ると、ビジネスの急速な発展により、各部門が独自のCPVシステムを維持する必要がある場合が多く、これは後期の商品管理と検索の非常に重要な部分でもあります。ただし、アプリケーションシナリオの業界属性が異なるため、たとえば、Xianyuの「バッグとアクセサリー」は、ビジネスシナリオの頻度が高いため、さらに細分化する必要があるカテゴリになりますが、Taobaoシステムでは、取引検索の頻度が低いため、「靴、バッグ、アクセサリー」は中古アイドルの下の小さなカテゴリにすぎません。これにより、各部門は独自のCPVシステムでクエリと検索を苦労して維持し、そのたびに独自のカテゴリシステムを再構築し、ストレージクエリを再サポートし、製品を再度関連付け、カテゴリ予測をやり直す必要があります。ビジネスニーズに基づいたクエリサービスをサポートするために、より一般的なアプリケーション指向の概念システムを構築することが急務となっています。 データに対する深い理解の欠如: データに対する深い理解とは、製品を理解することではなく、ユーザーのニーズ間の関係を理解することです。ユーザーが「葉酸」を検索したときに、妊娠に備える必要があることをどのように認識できるでしょうか。ユーザーがバーベキューの調味料や道具を大量にクリックしたときに、屋外でバーベキューをする必要があることをどのように認識できるでしょうか。これらは現在、グループ全体に欠けています。 1.2 要件分析 以下の背景紹介を通じて、グローバルに統一された知識表現とクエリ フレームワークを構築するには、次の重要な作業が必要であることが明確にわかります。 複雑なシナリオでのデータ構造化: 複雑なシナリオでは、まずデータのクリーニングを行う必要があります。頻度フィルタリング、ルール、統計分析によってダーティ データを削除し、フレーズ マイニング、情報抽出、その他の方法によって可用性の高いデータを取得して、データを構造化し、階層的に分割します。 分散データの統一された表現フレームワーク: 分散データを管理するには、まずグローバル スキーマ表現と保存方法を定義し、次に概念データを融合し、スキーマに基づいて属性をマイニングして検出する必要があります。データの関連付けは、さまざまな表現学習方法を通じて実現する必要がある場合があります。 ディープデータ認識:ディープ認識には、データ自体の認識と、データの関連性の認識という2つの側面があります。製品自体の動作と情報を通じて、ユーザーの製品購入意図を認識できます。外部データの入力と要約を通じて、製品システム外の常識とユーザーニーズとの関連性を取得できます。 1.3 電子商取引認知マップ 上記の問題を解決するために、私たちは電子商取引の分野で知識システムを確立し、ユーザーのニーズを深く理解することで電子商取引のシナリオにおける人、商品、場所のつながりを実現し、ビジネス関係者と業界に力を与えることを目標として、電子商取引コンセプトネットを提案しました。 1.3.1 モジュール分割 全体的な観点から見ると、認知グラフは 4 つの重要な部分に分かれています。異なるタイプの概念 (ユーザー、シーン、仮想カテゴリ、アイテム) を異種グラフに組み込むことで、ユーザー、シーン、製品の関連性が実現されます。 ユーザーグラフには、一般的なユーザーポートレート情報(年齢、性別、購買力)に加えて、「高齢者」や「子供」などのグループに関するデータや、ユーザーカテゴリ属性の好みデータも含まれます。 1.3.2 シーングラフの構築 シーンは、ユーザーのニーズを概念化したものと考えることができます。シーン グラフの主な作業は、既存のクエリとタイトルからユーザーのニーズを特定し、それを一般的なシーン (シーン コンセプト) に一般化し、「屋外バーベキュー」や「休日の服装」などの概念を確立することです。シナリオ要件を継続的に改良することで、カテゴリやカテゴリーをまたいだユーザー需要のタイプの概念をショッピング シナリオ (sc) に抽象化します。 概念のマイニングは、グラフ上のノードを取得することと同じです。概念マイニングに基づいて、概念とカテゴリ間、および概念間の関係を確立することを目指します。これは、グラフ上に有向エッジを確立し、エッジの強度を計算することと同じです。具体的なプロセスは次のとおりです。 これまでに、100,000 を超えるコンセプトと 10 倍のカテゴリ関連付けを作成しました。 1.3.3 カテゴリの絞り込み カテゴリを改良する理由は、現在のカテゴリ システムが粗すぎるか細かすぎるためです。構造には 2 つのレベルがあります。 カテゴリー集約:例えば、「ドレス」は認知の観点からはカテゴリーですが、業界の管理により、「婦人服」「紳士服」「子供服」などの異なるカテゴリーが存在することになります。このとき、2つの第一レベルのカテゴリー下に存在するため、実際の「ドレス」の認知を維持するために常識的なシステムが必要です。 カテゴリの分割: カテゴリの絞り込みは、既存のカテゴリ システムでは、ある種のユーザーのニーズを集約するのに十分ではないことがわかったことから始まりました。たとえば、「チベット旅行」のシナリオがあり、「スカーフ」カテゴリの下にさらに詳細が必要です。このとき、「防風スカーフ」という仮想カテゴリが必要です。このプロセスには、エンティティ/概念の抽出と関係の分類も含まれます。現在は、主にカテゴリとサブカテゴリ間の関係を確立しています。 これまでに、cpv カテゴリ ツリー、カテゴリ間関連付け、および 689,000 以上の外部ネットワーク データを統合しました。 1.3.4 積グラフの構築 フレーズマイニング: 製品グラフ側では、より多くの製品属性認識を行う必要があります。完全な CPV システムの前提はフレーズの認識であることを知っています。この目的のために、ブートストラップフレームワークの下で CPV マイニングクローズドループを確立しました。目標は、長期的に CPV データを効果的に蓄積し、クエリと製品の認識を拡大できるようにすることです (これは、製品ラベル付けのデータソースの 1 つでもあります)。 例えば: 現在までに、pvtop70のカテゴリレビューを完了し、12万以上のCPVペアを追加し、用語で完全に認識できるクエリの割合が30%から60%に増加しました(現在、マイニングに中粒度の単語分割を使用しているため、初期分析では70%がすでに限界であり、フレーズ化プロセスが追加された後、マイニングの範囲は継続的に拡大されます)。現在、データはカテゴリ予測に使用されており、インテリジェントインタラクションの基礎データが毎日生成されています。 製品ラベル付け:製品ラベル付けは、知識と製品の関連付けを確立するための重要な技術です。上記の 3 つのポイントで生成されたデータはすべて、ラベル付けによってアイテムに関連付けられます。製品ラベル付けが完了すると、クエリから製品までのセマンティック認知の閉ループ全体を実現できます。 3月末までに最新バージョンの製品ラベルを実現できると予想しています。 2. 知識システム 知識構築の過程で、グローバルに統一されたスキーマ表現システムの必要性が徐々に発見されました。そこで、wordnetとconceptnetのシステム構築プロセスを調査し、徐々に既存の認知マップ(E-commerceConceptNet)の中核となる独自の概念表現システムを形成しました。その目標は、電子商取引分野のユーザーニーズを意味レベルから理解して概念化(概念化)、意味オントロジーにマッピング(オントロジー)、語彙レベルの関係を通じてオントロジー間の関係を徐々に形式化(具体化)、オントロジー間の階層を通じて概念間の階層を表現し、概念間の関係を通じてエンティティカテゴリと関係を抽象化することです。 データ レベルからエンティティを記述する場合、まずそれをカテゴリのインスタンスとして定義する必要があります。このカテゴリは通常、概念で表すことができます。異なる概念には異なるプロパティがあります。概念のプロパティ セットは、概念のスキーマと呼ぶことができます。同じスキーマを持つ概念は、通常、異なるドメインに属します。ドメインには独自のセマンティック オントロジーがあります。オントロジーの階層 (「英国」は「英国」の一部であるなど) を通じて、概念の階層と表現を形式化できます。細かいものから粗いものまで、電子商取引の概念システムの表現方法のセットを定義しました。オントロジーと概念、およびそれらの関係を継続的に改良することで、ユーザー、製品、さらには外部エンティティを関連付けることができます。 3. 技術的枠組み 3.1 プラットフォームモジュール 一般的には、データサービスミドルプラットフォームを使用して上記のグラフエンジンをサポートし、Qianmoデータ管理プラットフォームとTuringビジネスドッキングプラットフォームを使用して知識の生成と使用を実現します。 3.2 モジュールの詳細 Qianmo: データの注釈と表示 Qianmoは電子商取引ナレッジグラフの基本プラットフォームとして、現在、すべてのナレッジ注釈とレビュープロセスを統合し、データのクエリと視覚化を提供しています。その後のアルゴリズムコンセプトマイニングサービスと製品ラベリングサービスも、Qianmoを通じて外部に提供される予定です。
3.3 チューリング: サービスの完全な選択と提供 現在、ほとんどの知識はカードの形式で提供されているため、Turing はクラウド トピックを通じて公開されるビジネス サービス ツールの完全なセットを提供します。 コンセプトの選択: ユーザーはチャンネル配信用にすべてのトピックを自分で選択できます 3.4 グラフエンジン: データの保存とクエリ ストレージ メディアに関しては、柔軟なラベル付けには MySQL、完全なクエリにはグラフ データベース、永続的なデータ バージョン管理には ODPS を使用します。 データは igraph と biggraph に入力される前に、インポートのために頂点テーブルとエッジ テーブルに分割され、gremlin を通じてオンラインでクエリされます。 さまざまなトリガーや製品を持つシナリオに対してマルチパスおよびマルチホップのリコール機能を提供するために、グラフ データベースの上位層にグラフ エンジン モジュールをカプセル化しました。現在、ユーザー、item_list、クエリリコールを提供しており、Miao Xiaomi で使用されており、検索検出とともにデバッグされています。クエリインターフェースを使用してクエリとテストを行うことができます。 3.5 技術の実装 Cloud Topic(認知マップ)は現在、Cloud Topic 内のナレッジカードの形で約 10,000 のシナリオを公開しています。当初の製品と比較すると、クリック数と発散度が大幅に向上しており、現在、データの発散度を調査しています。 ヒント(フル)/シェーディング(bts) 検索 ドーム 4. 後期段階の計画 認知マップは開発されてからまだ 1 年近くしか経っておらず、やるべき作業はまだたくさんあります。今後の作業の焦点は次のようになります。 関係性マイニングとオントロジー構築 テキストを通じてグラフと外部データとのつながりを強化する 常識的な推論ルールのマイニング グラフ推論の記号論理表現 [この記事は51CTOコラムニスト「アリババオフィシャルテクノロジー」によるオリジナル記事です。転載については原著者にお問い合わせください。] この著者の他の記事を読むにはここをクリックしてください |
>>: ポピュラーサイエンス | TensorFlow.js から機械学習について学ぶ
[[375875]]今日、サイバー攻撃はますます蔓延しており、組織が導入しているセキュリティ ツール...
[[201444]]ニューラルネットワークのデバッグは、専門家にとっても困難な作業です。数百万のパラ...
機械の進路をたどって見てみましょう。 [[351870]]ロボット研究の分野では、特定のタスクが与え...
最近、「GFlowNet Foundations」と題された論文が注目を集めています。これはチューリ...
Google Gemini は数日前、画像生成機能が「政治的に正しすぎる」という理由で一時的にブロッ...
Big Language Model が世界モデルであるという新たな証拠!少し前、MITとノースイー...
現時点では失明を治す方法はないが、初めての人工視覚システムの移植が初めて成功し、失明した人々の視力を...
[[269295]]ビッグデータダイジェスト制作編纂者:銭天培、胡佳「複雑すぎる!機械学習(ML)...
2016年以降、人工知能と医療の融合があらゆる面で火花を散らし始めています。医療AIは数年にわたる開...
人工知能の分野では、スタンフォード大学が開始したAIインデックスは、AIの動向と進歩を追跡する非営利...
Sora がリリースされてからまだ 2 週間も経っていないが、Google の世界モデルが登場し、そ...
2019年、MIT Sloan Management ReviewとGlassdoorが共同でCul...
トム・ミッチェル教授は、スクワレルAIラーニングからの最高AI責任者としての招待を受け入れたことを正...