機械を人間と同じくらい賢くすることは、常に研究者の目標でした。知能の概念を正確に定義することは難しいため、チューリングは有名なチューリングテストを提唱しました。機械が人間と会話でき、その正体が機械であると識別できない場合、その機械は知能があると言われます。チューリングテストは人工知能をテストするためのシンボルとして長い間使用されてきました。質問応答システム自体がチューリングテストのシナリオです。人間のような知的な質問応答システムがあれば、チューリングテストに合格するのと同じです。そのため、質問応答システムの研究は常に大きな注目を集めています。 従来の知識質問応答は、ユーザーが自然言語を使用して尋ねた質問に対して正確な回答エンティティを提供します。たとえば、「タゴールはどこで生まれましたか?」という質問に対して、「コルカタ」が返されます。しかし、単にそのような孤立した回答エンティティを提供するだけでは、あまりフレンドリーな対話方法とは言えません。ユーザーは、「インドの詩人ラビンドラナート・タゴールはコルカタで生まれました」など、自然言語の文章で表現された完全な回答を受け取ることを好みます。自然な回答は、コミュニティ Q&A やインテリジェントな顧客サービスなどのナレッジ サービス分野で幅広く活用できます。知識質問応答における自然な回答の生成には、非常に明確な実用的意義と強力な応用背景があります。 回答エンティティを返すことと比較して、ナレッジ クイズで自然な回答を返すことには次のような利点があります。 1. 一般的なユーザーは、部分的な情報よりも自己完結的な回答を好みます。 2. 自然な回答は、質問に答えるプロセスについて何らかの説明を提供することができ、また、目に見えない形でユーザーのシステム受け入れ度を高めることもできます。 3. 自然な回答は、回答に関連付けられたコンテキスト情報も提供できます (上記の自然な回答の「インドの詩人」など)。 4. 完全な自然言語の文章は、回答の検証や音声合成などの後続のタスクをより適切にサポートできます。 しかし、知識質問応答システムが自然言語で回答を生成できるようにするのは簡単ではありません。現在、ディープラーニングに基づく言語生成モデルは、生データをもとに数値計算を学習するモデルがほとんどです。記号的な外部知識ベースを、自然な回答を生成するプロセスにどう組み込むかが大きな課題となっています。さらに、多くの質問に対する回答には、知識ベース内の複数の事実の使用が必要であり、自然な回答の異なる意味単位 (単語、エンティティ) を異なるチャネルから取得する必要がある場合があります。意味単位を抽出および予測するために複数のモードを使用する必要があるこのような複雑な質問に答えるには、自然な回答の生成に大きな課題が伴います。 これらの問題を解決するために、中国科学院自動化研究所の何世珠博士、劉曹、劉康、趙軍は今年のACL2017で「シーケンスツーシーケンス学習にコピーと検索のメカニズムを取り入れて自然な回答を生成する」と題する論文を発表し、エンドツーエンドの質問応答システムCOREQAを提案しました。これはエンコーダー-デコーダーのディープラーニングモデルに基づいており、回答に複数の事実を必要とする複雑な質問にコピーと検索のメカニズムを導入しています。複雑な質問の回答語彙のさまざまな部分に対応するコピー、検索、予測などのさまざまな語彙獲得モードを使用して、さまざまなソースからさまざまな種類の語彙を取得し、複雑な質問に対する自然な回答を生成します。
では、どうやってこれをやればいいのでしょうか? 「ジェット・リーの出身地を知っていますか?」という質問の例を以下に示します。 1. 知識検索:まず、質問に含まれるエンティティ単語を特定する必要があります。ここで特定したエンティティワードは「Jet Li」です。次に、エンティティ ワードに基づいて、関連するトリプル (トピック、属性、オブジェクト) が知識ベース (KB) から取得されます。 Jet Li のエンティティの場合、(Jet Li、性別、男性)、(Jet Li、出身地、北京)、(Jet Li、国籍、シンガポール) などのトリプルを取得できます。 2. エンコーダー:回答を生成するには、質問と取得した知識を、後続の深層生成モデルが使用できるようにベクトルにエンコードする必要があります。 質問のエンコード:双方向 RNN (Bi-RNN) は、質問を 2 つの方法で表現するために使用されます。1 つは、2 つの方向の RNN 状態ベクトルをつなぎ合わせてベクトル シーケンス Mq を取得する方法です。もう 1 つは、各方向の RNN の最後のベクトルを取り出してつなぎ合わせてベクトル q を取得し、これを使用して質問文全体を表す方法です。 知識のエンコード:メモリ ネットワークは、知識検索フェーズで取得された知識トリプレットをエンコードするために使用されます。トリプレットの場合、3 つのベクトルを使用して各部分をそれぞれ表し、それらを連結してベクトル fi を形成してトリプレットを表し、Mkb を使用してすべてのトリプレット ベクトルを表します。 3. デコーダー:次に、回答と知識のエンコード ベクトルに基づいて自然な回答が生成されます。自然な答えは単語の並びですが、異なる単語は異なるチャネルを通じて取得する必要がある場合もあります。たとえば、「ジェット・リーは北京で生まれ、現在はシンガポールの市民です」という質問に対する回答の場合、「ジェット・リー」という単語を元の質問からコピーし、「北京」と「シンガポール」というエンティティ単語をナレッジベースから取得し、「生まれた」、「で」、「現在」などの他の単語をモデルで予測する必要があります。したがって、標準的なシーケンスツーシーケンスモデルに基づいて、3 つの単語獲得モード (コピー、検索、予測を含む) を組み合わせて統合モデルでモデル化し、さまざまなモードが競合して影響し合うようにすることで、最終的に複雑な問題に対する最適な自然な答えを生成できます。 ▲ 図2: COREQAのデコード例 このモデルの有効性をテストするために、論文ではシミュレートされたデータセット(108個の質問と回答のテンプレートルールから構築された質問と回答のデータ)と実際のデータセット(Baidu Knowsから取得した239,934個のコミュニティ質問と回答のデータ)で実験を行い、自動評価と手動評価の両方で良好な結果を達成しました。 今後の取り組みについて、何世珠博士は次のように語っています。「現在、COREQA モデルは依然として学習データに依存しすぎています。実験結果から、シミュレートされた人工データではほぼ完璧なパフォーマンスを発揮できることがわかりますが、実際のデータではまだ不十分です。その理由は、モデルが本質的に元のデータに適合し、入力質問 (単語列) から出力回答 (単語列) へのマッピング関数を学習しているためです。特に、非エンティティ単語 (つまり、コピーおよび取得されない単語) は不正確に予測されることがよくあります。これがモデルの最大の問題です。外部の人工知識を追加してモデルを調整し、既存のモデルを改善する予定です。もう 1 つの欠点は、現在はトリプル形式で表現された知識ベースしか使用できず、回答エンティティはトリプルのオブジェクト部分であると想定されていることです。実際、この想定は多くの問題に当てはまりません。改善の可能性のあるもう 1 つの方向は、異なる表現の知識ベースを使用することです。さらに、このモデルは機械翻訳などのタスクにも適用でき、言語生成モデルが外部の知識リソースと対話できるようにします。」 As for the future development of question-answering systems, Dr. He Shizhu also has some of his own views: "As far as I know, in real engineering practice, question-answering systems still use templates and rules, and rarely or never use statistical models, let alone deep learning models. At present, in the research community, question-answering systems almost all use deep learning models, or even completely end-to-end methods. The reason is that I personally think that the question-answering system is a system engineering, not a pure research task. At present, the research community does not have a unified paradigm for question-answering systems (unlike information retrieval, machine translation, information extraction and other tasks). Therefore, in the future, question-answering systems may need to summarize one or several general paradigms and processes, which can be decomposed into several subtasks, which will make it easier to promote the research and development of question-answering. In addition, the question-answering system cannot achieve practical effects, and its problems have not been analyzed clearly. Is it the incomplete knowledge resources, the heterogeneity of knowledge representation, or the challenge of understanding natural language problems? Finally, I think that for tasks such as question-answering systems that require a lot of knowledge, when the data scale is difficult to expand on a large scale, integrating statistical models and prior knowledge (extracted knowledge base, language knowledge, common sense, etc.) is a feasible development direction." \ 論文著者: He Shizhu、Liu Cao、Liu Kang、Zhao Jun (自動化研究所、中国科学院大学) 特派員 | 王哲(中国科学技術大学) オリジナルの論文をご覧ください: シーケンスツーシーケンス学習にコピーと検索のメカニズムを組み込むことで自然な回答を生成する |
<<: 機械学習とディープラーニングとは何ですか?ファイザン・シャイクがお手伝いします
昨日(7月7日)、流行病の影響で延期されていた2020年度大学入試センター試験が正式に始まりました。...
ウィンドウの長さが 4k でも、大きなモデルで大きなテキストを読み取ることができます。プリンストン大...
翻訳者 |ブガッティレビュー | Chonglou Twitter 、 LinkedIn 、またはニ...
インターナショナル・データ・コーポレーション(IDC)が発表した最新の半期ごとの世界人工知能(AI)...
[[281520]] [51CTO.com クイック翻訳] 現時点では、「人工知能企業」が何であるか...
共同通信によると、国土交通省は月面に滞在できる基地を建設するため、無人重機の開発を進めている。日本は...
[[437677]]より長期的な視点で見ると、中国は歴史上、3つの発展の波と2つの谷を経験してきたこ...
SHRMのレポートによると、中小企業経営者の43%がパンデミック中に事業を生き残るための新たな方法を...