ナレッジグラフは自然言語処理の未来でしょうか?

ナレッジグラフは NLP の未来でしょうか?

今は2021年で、かつて全盛期だった多くの技術は長い間無視されてきました。しかし、AI業界の大きなIPであるナレッジグラフは、2018年と2019年に最もホットでした。当時、大手企業からスタースタートアップまで、AIに認知能力を与えるために、独自のグラフ+ NLPレイアウトを推進していました。 AIが全体的に落ち着きつつある現時点で、私たちはナレッジグラフの将来について冷静に考えるべき時が来ている。

質問に戻りますが、ナレッジグラフは NLP の未来でしょうか?

私の意見: ナレッジグラフは NLP の未来ではありません。ナレッジグラフは NLP と多くの共通点を持つ別のテクノロジーだからです。現在知られているすべての開発方向の中で、ナレッジグラフは NLP と長期的に相互に有益な共生関係を築く可能性が最も高いテクノロジーです。

では、ナレッジグラフと NLP の関係は何でしょうか?直感的に言えば、機械学習は人間が学習する方法に似ています。私たち自身の学習プロセスを振り返ってみると、情報の取得、処理、分析、意思決定は主に脳と感覚が担っています。単純な問題や少数の天才の場合、情報を受け取った後、結論を導き出すために脳内で一度考えるだけで済みます。しかし、仕事のレポートや期末試験などの複雑な問題の場合、脳だけに頼ってすべての情報を記憶することは困難です。このとき、多くの人は、処理された構造化または半構造化された知識の一部をメモに整理し、必要なときにすぐに見返せるようにすることを選択します。

見つかりましたか？脳の役割は NLP やその他の ML 技術と非常に似ており、メモは KG のインスピレーションのほとんどです。具体的には、NLP はグラフ構築プロセスで重要な役割を果たし、グラフは知識を導入することで NLP にフィードバックします。

BERT などの事前トレーニング済みの言語モデルには、脳に重要な記憶があるのと同じように、すでに知識が保存されていることは多くの証拠から明らかになっていますが、人間の脳が見たものをすべて記憶できないのと同じように、現実世界のすべての事実を内面化することは不可能です。ナレッジグラフは、知識を導入することで NLP の学習圧力を軽減できます。もう一つの深刻な問題は、NLP技術が現状では人間の知能から程遠いため、トレーニング中にモデルが記憶する知識が実は制御不能であることです（詳細は隣のAIバイアス問題[1]を参照してください）。これはNLP技術の実用化に向けて考慮する必要があるリスクです。説明可能性の点では、ナレッジグラフはバグレベルです。

ナレッジグラフは NLP テクノロジーをどのように強化するのでしょうか?

NLP 技術がグラフ構築にどう貢献するかについては多くの情報があり、近年ナレッジグラフの実用化が本格的に進んでいます。しかし、ナレッジグラフが NLP 技術にどう貢献するかについて語る人は多くありません。

近年、KG が NLP テクノロジーを実現した方法のいくつかをまとめました。ぜひ追加してください。

事前トレーニングで知識を導入する

代表作：

ERNIE[2]は、フレーズとエンティティマスク戦略を使用して、フレーズとエンティティがKGから取得される中国語NLPタスクで良好な結果を達成しました。

図2. ERNIE

K-BERT[3]は、事前トレーニング中に関連するKGトリプレットを注入してモデルにドメイン知識を装備し、特定のドメインのタスクにおけるモデルのパフォーマンスを向上させ、大規模な事前トレーニングのコストを削減します。

図3. K-BERT

情報抽出における遠隔監視

KG を使用してテキストを整列させ、データのリモート監視と注釈付けを行うことは、情報抽出の分野で強力なツールです。手動での注釈付けのコストを効果的に削減でき、エンティティ抽出、関係抽出、イベント抽出などのサブタスクを処理できます。使用したことがある友人は皆、良いと言っています。

図4. 遠隔監視

エンティティリンクにおけるエンティティ情報の導入

エンティティリンクは、テキスト内の言及を KG 内のエンティティにリンクするタスクです。次の図[4]に示すように：

図5. エンティティのリンク

明らかに、KGのエンティティ情報、例えばエンティティの説明、エンティティの属性、エンティティの埋め込み、エンティティ間の関係性などは、すべてこのタスクの重要な特徴です。詳細については、[4]を参照してください。

知識をテキスト生成に統合する

知識グラフに表示された事実をテキスト生成のガイドとして利用することは、以下に示すように、制御可能なテキスト生成を実現するための重要な方向性である[5]。

図6. テキスト生成

代表的な方法は4つあります[6]：

マルチタスク学習（生成 + テキスト含意）

ナレッジグラフに基づくテキスト生成

記憶ネットワークに基づくテキスト生成

テキスト生成のための分布サンプリングの組み合わせ

さらに詳しく知りたい方は[6]をご覧ください。

セマンティックマッチングにキーワード情報を導入する

深い意味マッチングタスクでは、一致するオブジェクトはテキスト内のキーワード間の相互作用を通じて比較的簡単に見つけられ、他の単語とはほとんど関係がないことがわかった[7][8]。

図7. 意味的一致のケース

そのため、KGから特定の分野のキーワードリストを導入し、モデリング中にキーワードの重要性を強調することで、より良い結果を得ることを検討しています[8]。

図8. キーワード注目メカニズム

[1] AIバイアス：機械は絶対的に合理的か？ https://baijiahao.baidu.com/s?id=168448011511405061&wfr=spider&for = pc /pdf/1909.07606.pdf [4] ab -knowledgeグラフリンク：「浅い」レビュー - ニコラスの記事-zhihu.zhihu.com/p/100248426 [5]知識のグラフからのテキストfromptps v1.pdf [6] ABテキスト生成12：4知識統合テキスト生成の種類（推奨コレクション） - Lin Xiaopingの記事 - 知乎 https://zhuanlan.zhihu.com/p/133266258 [8] ab キーワード注意型ディープセマンティックマッチング https://arxiv.org/abs/2003.11516

<<: 静的な知識を動的にする: ナレッジグラフからファクトグラフへ

>>: 人工知能が将来経験する7つの段階

ブログ

自分で作成したデータセット、TensorFlow を使用した株価予測チュートリアル

ナレッジグラフは自然言語処理の未来でしょうか?

自分で作成したデータセット、TensorFlow を使用した株価予測チュートリアル

MITの中国人博士課程学生がChatGPTをJupyterに移行し、自然言語プログラミングをワンストップソリューションに

2021年に注目すべき5つのAI関連の仕事スキル

2020年のトレンドの方向性: 産業用インターネットの人工知能アプリケーションが基礎となる

今年、データサイエンティストはどのようなアルゴリズムを使用しましたか?

中国初の風力タービン出力曲線AIモデルが発表され、業界のギャップを埋める

推薦する

クラウドアーキテクチャに生成 AI を追加するためのヒント

自分の写真がディープフェイクに使われるのではないかと心配ですか?ボストン大学の新しい研究を試してみてください

エッジコンピューティング時代の到来は AI にどのような影響を与えるのでしょうか?

安定的な動画拡散をリリースしました！ 3D合成機能が注目を集める、ネットユーザー「進歩が速すぎる」

Google がオールラウンドな音楽転写 AI を発表: 曲を一度聴くだけでピアノとバイオリンの楽譜がすべて手に入る

持続可能なテクノロジー: 2024 年のテクノロジートレンドにおけるグリーンイノベーション

最新の Claude 200K は本当に「誤ったラベル」が貼られているのでしょうか?神は1016ドルを費やしてテストしましたが、90Kを超えるとパフォーマンスが急激に低下しました。

李菲菲の「具現化された知能」はどこまで進歩したのか？

AIは化学に革命を起こせないのか？ Google DeepMindの論文には重大な欠陥があることが明らかになり、ロンドン大学の教授はNatureの論文を撤回するよう提案した。

世界初のAI生成薬がヒト臨床試験に進出

目から鱗！ヘルスケアと自動車業界における AI の興味深い応用例 11 選