ナレッジグラフは自然言語処理の未来でしょうか?

ナレッジグラフは自然言語処理の未来でしょうか?

ナレッジグラフは NLP の未来でしょうか?

今は2021年で、かつて全盛期だった多くの技術は長い間無視されてきました。しかし、AI業界の大きなIPであるナレッジグラフは、2018年と2019年に最もホットでした。当時、大手企業からスタースタートアップまで、AIに認知能力を与えるために、独自のグラフ+ NLPレイアウトを推進していました。 AIが全体的に落ち着きつつある現時点で、私たちはナレッジグラフの将来について冷静に考えるべき時が来ている。

質問に戻りますが、ナレッジグラフは NLP の未来でしょうか?

私の意見: ナレッジ グラフは NLP の未来ではありません。ナレッジ グラフは NLP と多くの共通点を持つ別のテクノロジーだからです。現在知られているすべての開発方向の中で、ナレッジグラフは NLP と長期的に相互に有益な共生関係を築く可能性が最も高いテクノロジーです。

では、ナレッジグラフと NLP の関係は何でしょうか?直感的に言えば、機械学習は人間が学習する方法に似ています。私たち自身の学習プロセスを振り返ってみると、情報の取得、処理、分析、意思決定は主に脳と感覚が担っています。単純な問題や少数の天才の場合、情報を受け取った後、結論を導き出すために脳内で一度考えるだけで済みます。しかし、仕事のレポートや期末試験などの複雑な問題の場合、脳だけに頼ってすべての情報を記憶することは困難です。このとき、多くの人は、処理された構造化または半構造化された知識の一部をメモに整理し、必要なときにすぐに見返せるようにすることを選択します。

見つかりましたか?脳の役割は NLP やその他の ML 技術と非常に似ており、メモは KG のインスピレーションのほとんどです。具体的には、NLP はグラフ構築プロセスで重要な役割を果たし、グラフは知識を導入することで NLP にフィードバックします。

BERT などの事前トレーニング済みの言語モデルには、脳に重要な記憶があるのと同じように、すでに知識が保存されていることは多くの証拠から明らかになっていますが、人間の脳が見たものをすべて記憶できないのと同じように、現実世界のすべての事実を内面化することは不可能です。ナレッジ グラフは、知識を導入することで NLP の学習圧力を軽減できます。もう一つの深刻な問題は、NLP技術が現状では人間の知能から程遠いため、トレーニング中にモデルが記憶する知識が実は制御不能であることです(詳細は隣のAIバイアス問題[1]を参照してください)。これはNLP技術の実用化に向けて考慮する必要があるリスクです。説明可能性の点では、ナレッジグラフはバグレベルです。

ナレッジグラフは NLP テクノロジーをどのように強化するのでしょうか?

NLP 技術がグラフ構築にどう貢献するかについては多くの情報があり、近年ナレッジグラフの実用化が本格的に進んでいます。しかし、ナレッジグラフが NLP 技術にどう貢献するかについて語る人は多くありません。

近年、KG が NLP テクノロジーを実現した方法のいくつかをまとめました。ぜひ追加してください。

事前トレーニングで知識を導入する

代表作:

ERNIE[2]は、フレーズとエンティティマスク戦略を使用して、フレーズとエンティティがKGから取得される中国語NLPタスクで良好な結果を達成しました。

図2. ERNIE

K-BERT[3]は、事前トレーニング中に関連するKGトリプレットを注入してモデルにドメイン知識を装備し、特定のドメインのタスクにおけるモデルのパフォーマンスを向上させ、大規模な事前トレーニングのコストを削減します。

図3. K-BERT

情報抽出における遠隔監視

KG を使用してテキストを整列させ、データのリモート監視と注釈付けを行うことは、情報抽出の分野で強力なツールです。手動での注釈付けのコストを効果的に削減でき、エンティティ抽出、関係抽出、イベント抽出などのサブタスクを処理できます。使用したことがある友人は皆、良いと言っています。

図4. 遠隔監視

エンティティリンクにおけるエンティティ情報の導入

エンティティ リンクは、テキスト内の言及を KG 内のエンティティにリンクするタスクです。次の図[4]に示すように:

図5. エンティティのリンク

明らかに、KGのエンティティ情報、例えばエンティティの説明、エンティティの属性、エンティティの埋め込み、エンティティ間の関係性などは、すべてこのタスクの重要な特徴です。詳細については、[4]を参照してください。

知識をテキスト生成に統合する

知識グラフに表示された事実をテキスト生成のガイドとして利用することは、以下に示すように、制御可能なテキスト生成を実現するための重要な方向性である[5]。

図6. テキスト生成

代表的な方法は4つあります[6]:

マルチタスク学習(生成 + テキスト含意)

ナレッジグラフに基づくテキスト生成

記憶ネットワークに基づくテキスト生成

テキスト生成のための分布サンプリングの組み合わせ

さらに詳しく知りたい方は[6]をご覧ください。

セマンティックマッチングにキーワード情報を導入する

深い意味マッチングタスクでは、一致するオブジェクトはテキスト内のキーワード間の相互作用を通じて比較的簡単に見つけられ、他の単語とはほとんど関係がないことがわかった[7][8]。

図7. 意味的一致のケース

そのため、KGから特定の分野のキーワードリストを導入し、モデリング中にキーワードの重要性を強調することで、より良い結果を得ることを検討しています[8]。

図8. キーワード注目メカニズム

[1] AIバイアス:機械は絶対的に合理的か? https://baijiahao.baidu.com/s?id=168448011511405061&wfr=spider&for = pc /pdf/1909.07606.pdf [4] ab -knowledgeグラフリンク:「浅い」レビュー - ニコラスの記事-zhihu.zhihu.com/p/100248426 [5]知識のグラフからのテキストfromptps v1.pdf [6] ABテキスト生成12:4知識統合テキスト生成の種類(推奨コレクション) - Lin Xiaopingの記事 - 知乎 https://zhuanlan.zhihu.com/p/133266258 [8] ab キーワード注意型ディープセマンティックマッチング https://arxiv.org/abs/2003.11516

<<:  静的な知識を動的にする: ナレッジグラフからファクトグラフへ

>>:  人工知能が将来経験する7つの段階

ブログ    
ブログ    
ブログ    

推薦する

9つの一般的な畳み込みニューラルネットワークの紹介

畳み込みの目的は、入力から有用な特徴を抽出することです。画像処理では、さまざまなフィルターを選択でき...

...

中国で自動運転元年となるのは何年でしょうか? 2021年かも

インテリジェント化は将来の自動車発展の基本的な方向であり、自動運転技術は将来の自動車発展の重要な最先...

マイクロソフト、AIを活用してがんの放射線治療時間を短縮:スキャン速度が2.5倍に向上、精度は90%に

6月28日、BBCによると、英国はNHS(国民保健サービス)の全トラストに新しい人工知能技術を原価で...

VRの悪夢にさよならしましょう! Meta Reality Labs は仮想世界の問題点を解決し、新しい VR の世界を再構築します

「世の中には2種類の人がいます。VRが世界を変えると考える人と、まだVRを試したことがない人です。」...

機械学習を妨害する10のサイバー攻撃

サーセイ・ラニスターの策略やサー・ジョラー・モーモントの父親のような保護をもってしても、攻撃者が H...

人工知能が絵画の質感から画家を識別する

2D 画像から画像を認識することは目新しいことではありません。Google や Baidu を開いて...

小度が「画期的な」新製品を百度世界2020で初公開、CCTVと提携してスマートライフの全貌を披露

「小都小都」、「私はここにいます」 - 数百万の家族と小都の間の日常会話のシーンがCCTVニュースス...

周紅一の2024年大模型予測は8つの点を検証し、ソラの出現は予想を超えていると述べている

「私は講義をするときに利益を請求しません。私の目的は、無料の授業、共有、科学普及、コミュニケーション...

...

未来を受け入れる: 2024 年のホームオートメーションの 5 つのトレンド

新たな進歩の時代を迎えるにあたり、「スマートホーム」という概念がかつてないほど普及しています。人工知...

メタバースがますます熱を帯びる中、開発者はどのような主要テクノロジーを掘り下げていくべきでしょうか?

「メタバース」という概念は昨年、海外で爆発的に広まりました。国内の専門家も、我が国の関連技術の開発...

...

モデルが 10 倍大きくなると、パフォーマンスは何倍向上しますか? Googleの研究者が調査を実施

ディープラーニング モデルが大きくなるにつれて、あらゆる種類のハイパーパラメータ調整を行うのは非常に...