NLPとナレッジグラフの統合

NLPとナレッジグラフの統合

この記事は、中国情報処理学会の事務局長である白碩博士が杭州金融ナレッジグラフフォーラムで行った講演をまとめたものです。

2つの質問

最初の質問は、なぜ「中国のナレッジグラフ」と言う人がいるのかということです。ナレッジグラフには国籍があるのでしょうか?母国語はありますか?知識には国境がありません。これはもちろん理論的な発言です。国や言語、文化環境に注目すると、知識には実は母国語があることがわかります。理論的根拠はいわゆる言語相対論である。皆さんは最近「メッセージ」をご覧になったのではないでしょうか。「メッセージ」は言語相対性理論について語っています。考え方や文化は、その言語、つまり母国語によって形作られます。これは非常に重要な発言です。英語圏で非常によく開発された一部の技術が、中国語圏には適応できない可能性があるのも、このためです。これが私たちに課す課題は、単なる移植や中国語のローカライズの問題ではありません。実際、NLP との関連は知識処理です。 NLP との接続作業は想像以上に困難です。言語のギャップが大きく、関係が遠いほど、課題は大きくなります。英語とドイツ語の間では理解するのがそれほど難しくなく、フランス語とイタリア語の間でも理解するのがそれほど難しくありませんが、英語と中国語の間では理解するのが難しいかもしれません。これは言語の相対性と同じ原理です。

2 番目の質問は、ナレッジ グラフと NLP の関係は新しい問題であるかどうかです。それはそれが何を意味するかによります。

学術的な観点から言えば、これは決して新しい問題ではありません。この問題は長い間存在してきました。ナレッジグラフがナレッジグラフと呼ばれていなかった時代に、自然言語処理の研究者たちは、実は自然言語の意味を表現する方法をすでに研究していました。自然言語の意味と特定の知識、特定の常識、特定の事実の記述との関係についての研究も数多く行われてきました。現時点では、これらの特定の研究についてはここでは議論しません。知識抽出には、テロ活動、テロ事件、殺人、脅迫状など、大きなカテゴリとその中の一連のリンクなど、古典的な作品がたくさんあります。大統領選挙のように、もっと大きな規模のイベントもあります。選挙の初期、中期、後期に何が起こるかは、イベントではなくトピックです。自然言語としての意味論と知識の表現の間には自然なつながりがあります。しかし、それはまったく同じことではありません。なぜなら、言語には独自の単位、独自の物語の単位、独自の視点があるからです。物語の単位と把握する必要がある知識の間、および把握する必要がある大きなシーンの単位の間には、異なる粒度のつながりがある場合があります。たとえば、何が起こったのか、誰が死んだのか、どこで死んだのかを文ごとに述べると、意味理解とは、それを文ごとに意味表現に変換することです。ただし、このセマンティック表現は、直接的にはナレッジ グラフではなく、また、このような大規模なシーンの直接的な記述でもありません。したがって、さまざまな手がかりとさまざまな周辺の説明を使用して、核となる大きなシーンを刺激し、それに対応するアイテムをいくつか追加する必要があります。上記は学術的な観点からのものです。

技術的な観点から見ると、これは新しくも古くもない問題でもあります。新しいわけでも古いわけでもないということは、過去とのつながりがたくさんあるということを意味します。しかし、新たな状況下では、テクノロジーに対していくつかの新たな要件が提示されています。これらの新しい要件も実装する必要があります。特に金融分野では、確かにいくつかの新しい要件があり、そのような要件に直面してそれを実装する必要があることがわかります。

産業の観点から見ると、これは新たな問題です。ナレッジグラフと NLP のリソースを効果的に接続するにはどうすればよいですか?少し前、WeChatグループで、ある投資家が、このようなリソース、このような人々、このようなチームを見つけて協力し、NLPと定量投資を直接組み合わせて、共同でシステムを開発したいと発言しました。私の意見では、これは 1 つのシステムではなく、複数のシステムです。システム間にはつながりがあります。金を掘っている人が水を売るビジネスもしていると言うことはできません。これは受け入れられません。どの職業にも得意分野があります。誰かが何かに秀でているなら、それをやらせましょう。何か要件がある場合は、その人に伝えましょう。ただし、全員を 1 つのシステムに当てはめないでください。そうしないと、ゲームをプレイできなくなります。これは、この分野における産業分業を示しています。NLP が 1 つの部分、ナレッジ グラフが 1 つの部分、ナレッジ グラフ アプリケーションが 1 つの部分を担当しています。これらは、異なる人々によって提供される複数のシステムです。これは、安定したビジネスモデルがまだ形成されていないことが原因であると考えられます。したがって、私たち全員が一緒に探求し、懸命に取り組む必要があります。

モーダル演算子

ここで、より専門的なトピックであるモーダル演算子について説明します。このモーダル演算子が何であるかは、誰でも一目でわかります。なぜなら、そのような記述は、業界や経済発展に関するニュース報道や、さまざまな企業発表や業績発表など、いくつかの報告書で見ることができるからです。これらの記述は事実であり、その前に何かが付け加えられています。これを真剣に受け止めなかったり、無視したりすると、問題が発生します。

これは様相演算子と呼ばれ、いくつかの表現形式があります。

最初のは「まだ」という意味で、つまり、まだ起こっていないが、起こることが期待されている、計画されている、あるいは起こるだろうという意味です。いくつか例を見てみましょう。1つ目は、生産量を15%増やす予定だということです。2つ目は、従業員の20%を解雇する準備をしており、価格を50%引き上げる予定で、一定数のトンを購入する予定だということです。これらの言葉を無視すると、まだ起こっていないことを誤って事実として扱う可能性があります。それを知識ベースに入れると、起こらなかったことが起こったことと混ざってしまいます。ある程度の推論能力があれば、最終的には信じられないような結果がたくさん出てくるでしょう。では、私たちは将来にどう対処すればいいのでしょうか?ここで提案した様相演算子のタイプは、中国語学では計画型と見なされます。

2 番目のタイプは、発言の前に主観的な割引や適切さを示す何かを追加します。例えば、何かをする必要はないと思う、このような接頭辞、何かを先延ばしにする傾向がある、何も起こらないと固く信じている、などです。認知を表す副詞や単語をいくつか使用し、何らかの組み合わせを作ることもあります。このような組み合わせにより、率直な発言にバランス感覚と主観的なフィルターが加わります。私たちもそのようなことに注意を払い、無視してはいけません。これらすべての接頭辞を無視し、接頭辞によって制約されている事柄を事実の陳述として扱い、それを事実と混ぜ合わせると、それが推論のためであろうと質疑応答のためであろうと、いくつかの低確率の出来事が誇張される可能性があります。

3 番目のカテゴリは、いくつかの高レベルの表現です。外交の場では、ハイレベルの外交レトリックが見られるでしょう。残念なことに、そのような発言は金融ニュースの報道でも見られました。例えば、住宅価格の急上昇の期待が弱まり、価格上昇が修正され、予想価格上昇が弱まりました。複数のレイヤーを持つこのルーチンでは、高次導関数の定性的な説明がいくつかあります。それをいわゆる知識ベースにどのように組み込むかも問題です。例えば、過剰生産能力対策の成功に我々は自信満々ですが、まだ成功していません。我々はただ自信満々なだけで、過剰生産能力はまだ解消されていません。何らかの対策を講じる必要があるだけです。

そのようなデータを収集する場合、収集されるものはすべて客観的な事実ではない可能性があります。なぜなら、発言そのものに加えて、誰が言ったのか、どの世界について話しているのか、現実世界なのか未来の世界なのか、発言時にどれだけの割引が行われたのか、内側から外側までどれだけのルーチンが使用されたのかなど、他の事柄もカバーしているからです。これらはすべて、私たちが注意を払う必要があることです。これらの点に注意を払わなかったり、知っていることだけを収集したりすると、単なる事実だけを収集することになります。これらの裸の事実を覆っているコートを見なければ、偏見を持つことになるかもしれません。

一方、これらはすべて客観的な事実を述べているわけではなく、それぞれに意味もあります。特に金融分野では、資本市場が最も典型的な例であり、風が吹こうが吹かまいが、波を起こすには十分です。なぜなら、それが引き起こす影響の中には人々の心理に投影されるものがあり、これらの影響がその後の混乱や行動を引き起こすからです。このことが真実であろうと偽りであろうと、それが行動を引き起こすことは常に真実です。行動のきっかけとなるものの分析に重点を置くと、この風があればその影響が存在することになり、その影響を分析する必要があります。では具体的にどのように分析するのでしょうか?先ほど挙げた3つのカテゴリーのうち、1つは未来です。未来になり得るかどうかは、誰が言ったのか、情報源は信頼できるのかといった主観が関わってきます。その情報源が信頼できるかどうかは、過去から現在にかけて変化する確率にも影響します。したがって、この時点では、メッセージ ソースのラベルや準備状況のラベルなど、表示されるモーダル演算子をラベルに変換するためのラベルが必要です。 2 番目のカテゴリは割引されているものです。割引の度合いに基づいて、対応する信頼性ラベルを付ける必要があります。 3 番目のカテゴリは質的導関数であり、パフォーマンス率の質的直線性など、その変化率にもラベルを付ける必要がります。このようなラベルを通じて、様相演算子ハットを含むステートメントと、単なる事実のステートメントを区別することができます。これらのタグは後で使用することもでき、モダリティ メタデータと呼びます。

モダリティメタデータをどのように使用するのですか?

考えられる方法は3つあります。1つは、別々のライブラリに保存して推論から分離することです。私は自分の考えを押し付け、事実を一緒に押し付けます。事実ではないが事実になる可能性があるもの、または事実になる可能性があるものなど、それらを別の場所に置いて別々に押し付けます。この2つは互いに何の関係もありません。この個別のストレージにより混乱は軽減されますが、孤立した推論により、より多くの知識を掘り起こす機会を失う可能性があります。

2 番目の方法は、混合ストレージと自由推論ですが、これも実際には良くありません。これらは見た目も特性も異なるため、すべてを組み合わせて推論を自由に行えば、推論結果を制御できなくなる可能性があります。

3 番目のオプションである個別のストレージをお勧めします。同時に、推論が自由に進められないように、ある程度のコントロールが行われます。もちろん、そうは言っても、具体的な実施においては、まだまだ注意すべき点がたくさんある。学術的な観点から、ここで強調したいのは、誰もが注意を払うべき、このような発言があるということだ。では、まずここでパスについていくつか検討してみましょう。それをどのように達成するかについては、以下でさらに詳しく説明します。

どのように使用できますか?たとえば、この会社は将来さまざまな時期に何かを実行すると約束しますが、実際にそれをどれだけうまく実行するでしょうか?これにより、計画を通じて進歩がもたらされ、最終的には進歩が記録されます。将来何かが現実になったとき、それがどのように達成されるかを確認できます。意見のクラスター化もあります。つまり、人々が同じものに対して与える異なる割引に基づいて、そのような人々のグループの意見の分布図を示すことができ、誰が左に立っていて、誰が右に立っていて、誰が真ん中に立っているかを知ることができます。トレンドに関する定性的な微分分析を実行することもできます。

深層言語解析結果のインターフェース

次のトピックは、深層言語解析の結果をナレッジグラフとどのように結び付けるかです。

深層言語分析では、従来、言語を語彙、構文、意味の 3 つのレベルに分割します。残りの部分はアプリケーション シナリオに組み込まれ、意味もアプリケーション シナリオの一部になります。線があります。線の左側は言語で、線の右側は知識です。実際には、意味論は知識分野の小さな部分にまで及んでいますが、シナリオは基本的に知識分野に属します。意味論の大部分、構文の大部分、語彙文法のすべては言語分野に属します。最終的な目標とシナリオを達成するためにどこから始めるかに応じて、さまざまな技術的なルートが生成されます。

最も初期の方法は、単語の集まりを使用してシーンをアクティブ化するというものでした。これは、当時はナレッジ グラフでフレームワークと呼ばれていました。ここからとても遠いので、使える情報はほとんどありません。もちろん、このアプリケーションに非常に限定された用途がある場合は、効率上の理由からこの方法で使用できます。したがって、テンプレートをさらに一歩進めて、浅い構文を利用しますが、この構文は十分に深くありません。深さが十分でない場合、もう 1 歩進むとシーンに少し近づきますが、実際には、まだ一部の情報、またはいくつかの重要な構造情報をキャプチャできません。キャプチャされていないため、いくつかのエラーや不正確な点が残っています。構文解析を使用すると、主語-動詞-目的語言語の略語である、いわゆる SVO を使用できます。主語、述語、目的語の組み合わせを見つけ、主語、述語、目的語の組み合わせの詳細な情報を使用して、対応するシナリオのナレッジ グラフまたはその他の表現に接続します。 SVO にもそのための場所があり、上の写真ではそこに星を描いています。ディープ構文の使用に加えて、サブカテゴリ セマンティック機能と呼ばれる特定のセマンティック機能も使用します。このディープ構文とサブカテゴリ セマンティック機能を組み合わせることで、これ以上のことが可能です。このドッキングの効果は、その場所とシーンの間の距離が短くなり、より多くの構造情報を利用できることです。

そういえば、ある商品についてお話ししたいと思います。ある子どもが新しいロボットを手に入れ、ロボットと話したり遊んだりしてとても喜んでいました。子どもは「物語を教えて」と尋ねました。するとロボットは物語ライブラリからいくつかの物語を選び、それを語り始めました。子供はとても嬉しかったのですが、しばらくすると、とても自慢したくなり、ロボットに「お話を聞かせて」と言いました。ロボットは理解できず、物語を語るように頼まれていると思い、再び物語を語り始めました。 「私はあなたにそれを与える」のか、「あなたは私にそれを与える」のかは明確ではありません。確かに、テンプレートに基づいていますが、語順を考慮する必要があります。少なくとも、スキルは単独で出てくるのではなく、ペアなどで出てくる必要があります。これらがペアで登場しないからこそ、テンプレートベースの技術であると自信を持って言えます。テンプレートに基づいて、私はあなたに語順情報を提供し、あなたも私に語順情報を提供しますが、それがキャプチャされません。

証券市場での売買、銀行での借り入れと貸し出し、日常生活における結婚などにも、一方が話すと他方が聞くという相対的な関係があります。物語を語る能力を与えます。意味的なつながりを利用して、聞く能力も与えることができれば、さらに良いと思いませんか?これが、テンプレート ベースのドッキングです。

SVOの限界

それで、SVO の何が問題なのでしょうか?次のような問題が発生する可能性があります。たとえば、ある会社の成長率が 15% を超え、別のシナリオではその会社の成長率が Lenovo (会社) の成長率を上回っていることが示される場合です。これらはすべて主語、述語、目的語です。目的語が別の場所に置かれているため、誰が誰と関係があるかはわかりますが、関係の性質は実際には異なります。これは細かいレベルでのみ区別できるものです。SVOだけではこれを区別することはできません。なぜ違いが分からないのでしょうか?レノボを超えるということはレノボをベンチマークとすることを意味するため、この成長率はレノボの成長率を上回っています。

私たちのアプローチは、ディープ パーシングです。下の行を見てみましょう。この行は意味サブカテゴリです。Cat は依然として構文カテゴリであり、この Subcat は意味サブカテゴリです。ここで、想像力を活用するという方法があることがわかります。関連付けを、ある組織からある組織の指標までポールに沿って下にスライドさせ、次に特定の指標の値をこのようにポールに沿って下にスライドさせると、比較不可能なものから比較可能なものになります。実際、私たちが提案した文法分析プロセスは、金融分野のより実用的な文章を分析できるだけでなく、難しそうに見える文章も分析できます。

たとえば、「私は張さんがこの問題に対処した方法について意見を持っています」は慣用的な用法ではなく、目的語が高度な用法です。この目的語の用法は「処理」を意味します。「処理」は問題を指し、「方法」は処理の方法を指し、「意見」は方法に関する意見を指します。通常、このような名詞はプロットを作成するために使用する必要はありませんが、プロットを埋めるために他の名詞や動詞を使用する必要があります。また、分析の結果を折れ線グラフで表現したり、平面図を使用して分析の結果を表現したりするなど、複雑な処理も実行できます。これらはすべて可能です。

最後に、自然言語におけるスタイル選択の問題について簡単に説明しましょう。このことから、実際には当社の多くの場所ですべての部品が交換可能であり、さまざまな交換オプションがスタイルを反映していることがわかります。スタイルは、話し手と聞き手の関係を反映し、話し手の性格特性や感情状態を反映します。

ナレッジグラフと自然言語とのつながり、そしてナレッジグラフ自体の推論には共通の中間ステーションが必要であり、類推的、仮想的に言えばグラフ操作システムが必要になる可能性がある。

<<:  Python 開発者のための Spark — データのための Spark と機械学習

>>:  ちょっとした機械学習でウェブサイトを高速化

ブログ    
ブログ    
ブログ    

推薦する

人工知能の開発においてセキュリティは無視できない

世界的な科学技術革命と産業変革の新たな局面が本格化している。人工知能は、新たな科学技術革命と産業変革...

5つのAI技術トレンドが私たちの労働環境を根本的に変える

[51CTO.com クイック翻訳] 現在、人工知能技術に対する人々の見解は主に2つの陣営に分かれて...

ビッグデータアルゴリズムとアプリケーションシナリオパート1: 統計と分布

アルゴリズムはビッグデータの最も価値のある部分です。ビッグデータマイニングとは、大量、不完全、ノイズ...

...

最近 IT 業界で起こったいくつかの大きな出来事についてお話ししましょう。

新年が明けたばかりですが、新しい技術、新しい知識、新しいコンテンツが次々と登場し、新年早々も怠けるこ...

Python が Java や C/C++ に勝って機械学習に最適な言語である理由!

Python は、1989 年にオランダ人の Guido van Rossum によって発明され、...

インターネットの未来のために: AI が生み出すものと破壊するもの

編集者注: この記事はNetEase Intelligenceからのものです。翻訳|: NetEas...

...

...

クルーズ:自動運転タクシーは4~5マイルごとに人間の支援が必要

11月7日、ゼネラルモーターズの自動運転会社クルーズは、自動運転タクシーは4~5マイルごとに人間の支...

2022 年のエンタープライズ向け人工知能のトップ 10 トレンド

人工知能は主流になりました。さまざまな業界の企業が概念実証を成功させ、AI を本番環境に導入すること...

新居ネットワークの程永馨氏:AIの助けを借りて、運用保守プラットフォームは新たな活力を得ました

[51CTO.com からのオリジナル記事] 運用と保守の発展を振り返ると、スクリプト、ツール、プラ...

...

OSPFはSPFアルゴリズムを使用してルートを伝播します

SPF アルゴリズムは、各ルータをルートとして使用して、各宛先ルータまでの距離を計算します。各ルータ...

ビジネスリーダーがLLMを活用して新たな機会を創出できる5つの方法

一般的に、AIGC とは、人間が作成したコンテンツに非常によく似た画像、音楽、テキストなどのコンテン...