ディープラーニングベースの対話状態追跡のレビュー

[[408715]]

1. はじめに

1.1 研究の背景

インターネットと個人用スマート端末の普及と幅広い応用により、旅行予約、オンラインショッピング、リマインダー設定など、さまざまなインターネットアプリケーションと個人用アプリケーションが雨後の筍のように登場しました。これにより、人々の日常生活や旅行はますます便利になりますが、アプリケーションが増えるにつれてユーザーの時間コストと使用の難しさが増すため、仮想パーソナルインテリジェントアシスタントの需要が高まっています。会話型 AI は、仮想パーソナルインテリジェントアシスタントを実現するための中核技術であり、オープンドメイン対話システムとタスク指向対話システムの 2 つの主要なカテゴリに分けられます。しかし、人間の会話は本質的に複雑で曖昧であり、あらゆるシナリオに対応できるオープンドメインの会話型 AI を作成するにはまだ長い道のりがあります。したがって、産業界の実践では、特定のタスクを完了する対話システム、つまりタスクベースの対話システムの構築に重点が置かれています。タスクベースの対話システムは、まずメッセージを理解し、積極的に質問して説明と明確化を行うことでユーザーのニーズを判断し、次にアプリケーションインターフェイスを呼び出して関連リソースのクエリを完了し、最後に正しい結果を返します。ユーザーと対話システムとのインタラクション中に生成される対話は、タスクによって駆動される複数ラウンドの対話であるタスク対話と呼ばれます。典型的なモジュール型タスクベースの対話システムを図 1 に示します。これは 4 つの主要部分で構成されています。

自然言語理解モジュール: ユーザーのテキストメッセージを、意図、スロット、スロット値など、機械が理解できるセマンティックラベルに変換します。
ダイアログ状態追跡モジュール: ダイアログの各ラウンドのダイアログ履歴に基づいて最新のダイアログ状態を維持します。通常はスロットとスロットの値のペアのセットとして表されます。
対話戦略モジュール: 現在の対話状態に基づいて、ユーザーのニーズの確認、リソースライブラリの照会、条件を満たす結果の提供など、対話システムの次のアクションを決定します。さらに、対話状態追跡モジュールと対話ポリシーモジュールの組み合わせは、対話マネージャと呼ばれます。
自然言語生成モジュール: 対話戦略モジュールによって決定されたシステム対話動作を人間の言語に変換し、ユーザーに応答します。

図1 モジュール型タスクベース対話システムの構造図

その中でも、対話状態追跡の研究は、タスクベース対話システムの分野における最も重要な研究テーマの一つです。具体的には、対話戦略モジュールと自然言語生成モジュールは、現在の対話状態に基づいて次のシステムアクションを選択し、システム応答を生成する必要があります。したがって、タスクベースの対話システムの全体的なパフォーマンスを向上させるには、対話状態を正しく識別することが重要です。

1.2 動機

近年、画像、音声、テキストの分野でのディープラーニング手法の進歩により、その応用範囲は対話システムの分野へと徐々に拡大しています。強力な表現能力のおかげで、ディープラーニングに基づくタスクベースの対話システムのパフォーマンスは継続的に向上し、徐々に主流になってきました。対話状態追跡はタスクベースの対話システムの中核モジュールであるため、優れたパフォーマンスと強力な一般化能力を示す、ディープラーニングベースの対話状態追跡ツール（ニューラル対話状態追跡ツールとも呼ばれる）が数多く提案されています。一方、DSTC2[1]、WOZ 2.0[2]、MultiWOZ 2.0[3]、CrossWOZ[4]などの多くのベンチマークデータセットの導入により、ディープニューラルネットワーク構造を使用して対話状態追跡タスクを解決することが可能になり、対話状態追跡システムの性能を広く公平に評価するためのテストプラットフォームが提供されるようになりました。ニューラル会話状態追跡に関する研究が急成長しており、最新の進歩を体系的に調査し分析する作業が必要とされています。この点について、本稿ではディープラーニング手法に基づく対話状態追跡の開発の歴史を徹底的にまとめました。

1.3 対話状態追跡の新しいパラダイム

自然言語理解モジュールと対話状態追跡モジュールは密接に関連しています。モジュールの出力形式から見ると、どちらもダイアログスロットの埋め込みを完了しますが、実際には異なる役割を果たします。自然言語理解モジュールは、意図、ドメインカテゴリ、メッセージ内の各単語が属するスロットなど、現在のユーザーテキストメッセージを分類しようとします。つまり、通常は、ユーザーのテキストメッセージ内の各単語のスロットラベルに注釈を付けることで、スロットの埋め込みを完了します。ただし、ダイアログ状態追跡モジュールは、ユーザーメッセージを分類したり注釈を付けたりしません。代わりに、会話履歴全体に基づいて、定義済みのスロットリスト内の各スロット名に対応するスロット値を見つけようとします。会話の各ターンで、現在のターンまでの会話履歴全体を検索し、スロットリスト内の特定のスロットにどのようなコンテンツを入力できるかを決定します。対話状態追跡モジュールと比較すると、自然言語理解モジュールには次のような欠点があることは容易にわかります。

入力は通常、現在のラウンドのユーザーメッセージのみであり、分類プロセスではシステムメッセージや会話履歴の助けが受けられません。
スロット値がテキスト内に直接表示されないスロットは認識されません。たとえば、ユーザーがホテルを予約するときに、部屋でワイヤレスインターネットアクセスを希望します。この場合、「ネットワーク」スロットの値は「はい」である必要がありますが、このスロットの値はユーザーが入力したテキストに直接表示されません。
誤ったセマンティックスロット認識結果が、後続のモジュールに悪影響を及ぼす可能性があります。

初期の対話状態追跡方法では、自然言語理解モジュールの出力を対話状態追跡モジュールの入力として使用していましたが、最近の方法では、自然言語理解モジュールの多くの制限を考慮して、元のユーザーメッセージを直接使用して対話の状態を追跡します。

2. タスクの概要

このセクションでは、まず対話状態追跡のタスク定義を示し、次によく使用されるデータセットと評価指標について簡単に説明します。

2.1 タスク定義

会話ステータス

対話状態追跡の目的は、システム応答とユーザーの発話から関連情報を抽出し、対話の各ラウンドで対話状態を更新することです。ダイアログ状態は、ユーザーとダイアログシステム間の橋渡しとなり、ダイアログシステムが一連の決定を完了するために必要な重要な情報がすべて含まれます。追跡効率、追跡精度、ドメイン適応性、エンドツーエンドのトレーニングなど、多くの要件を考慮すると、対話状態の表現は多数あります。次に、第2回対話状態追跡チャレンジDSTC2が提供するタスクベースの対話データセットを例に、このデータセットの対話状態の定義について簡単に紹介します。

ダイアログでは、ユーザーは制約を指定して適切なレストランを検索し、特定のスロットの情報 (レストランの電話番号など) を提供するようシステムに要求することもできます。このデータセットは、考えられるすべての対話状態を詳細に記述するオントロジーを提供します。具体的には、レストランが提供する料理の種類やレストランの電話番号など、ユーザーが質問できる属性（リクエスト可能なスロットと呼ばれる）をリストします。また、制約としてユーザーが提案できるプロパティと可能な値もリストします。これらのプロパティは、情報提供可能なスロットと呼ばれます。図 2 は DSTC2 の詳細を示しています。したがって、ダイアログターンのダイアログ状態は、次の 3 つの部分として定義されます。

目標制約: 各通知可能スロットの値は、ユーザーが特定の目標を達成するための制約として指定できます (日曜日の午後 6 時に Xiyuan レストランで 6 人用のテーブルを予約するなど)。スロット値はから取得することも、特殊な値またはにすることもできます。そのうち、は、ユーザーがこのスロットの値に対して好みを持っていないことを示します。つまり、ユーザーはこのスロットに対して有効なターゲットをまだ指定していないことを意味します。
要求されたスロット: これらのスロットのスロット値はユーザーが照会することができ、システムによってユーザーに通知される必要があります。
現在のラウンドの検索方法: 検索方法は、ユーザーとシステムのやり取りのカテゴリを示します。ユーザーが制約を開始しようとしていることを示し、ユーザーが代替オプションを必要としていることを示し、ユーザーがスロット名に対応するスロット値を尋ねようとしていることを示し、ユーザーが会話を終了しようとしていることを示し、その他の状況のカテゴリを示します。

図2 DSTC2オントロジー

DSTC2 のダイアログ状態の定義では、現在のラウンドの検索方法は、5 つの値を持つ特別なスロット Search_Method と見なすこともできます。このことから、タスクベースの対話の対話状態は、対話の進行に応じて継続的に更新される (スロット、スロット値) ペアのセットとして均一に定義できることがわかります。次に、対話状態追跡タスクの正式な説明を示します。

正式な定義

は対話のラウンドを表し、は対話ラウンドにおけるシステム応答とユーザー発話を表します。事前定義されたスロットがあると仮定すると、会話ターンの会話状態は次のように定義されます。このうち、はスロットの対応するスロット値を表し、はスロットの値空間です。すべてのスロットの値空間をまとめることで、エンティティを構築できます。

対話とオントロジーに基づいて、タスクは、対話でユーザーが表現した意図を効果的に捉えることができる対話状態トラッカーを学習することとして定義されます。定義上、トラッカーは各ラウンドで複数のスロットの値を予測する必要がある場合があります。さらに、一部のスロットの値空間は非常に大きくなる可能性があります。つまり、これらのスロットには多数のオプションの値が存在します。これらの現象により、対話状態の予測がより困難になります。

「スロット」という用語を、レルム名とスロット名の組み合わせを表すために使用し、レルムとスロットの両方の情報が含まれていることに注意してください。たとえば、レストランドメインの価格範囲スロットを表すには、price-range ではなく restaurant-price-range を使用します。この形式は、会話に複数のフィールドが含まれる場合に非常に便利であり、これまでの多くの研究で広く採用されてきました。

2.2 データセット

ニューラル対話状態トラッカーでは、トレーニングまたは検証のために一定規模のタスク指向の対話データセットが必要であり、各対話ターンにはこれらのデータセット内に対応する対話状態が必要です。タスク指向の対話データの取得は困難であり、対話状態のラベル付けには時間と労力がかかるため、手動でのラベル付けの作業負荷は大幅に増加します。現在、ほとんどの方法では、DSTC2、WOZ、MultiWOZ、CrossWOZ データセットをトレーニングおよびテストデータセットとして使用しています。データセットの統計データは表 1 に示されています。

表1 一般的なタスクベースの対話データセットの統計

このうち、CrossWOZ は中国語のタスクベースの対話データセットであり、DSTC2 と WOZ は単一ドメインのタスクベースのデータセットです。

2.3 評価指標

すでに構築されているオープンデータセットを使用して、研究者はニューラル対話状態トラッカーをトレーニングできますが、トレーニングされたトラッカーの品質を判断するには、共通の評価基準を確立する必要があります。対話状態トラッカーを評価するための一般的なメトリックは、ジョイントゴール精度とスロット精度です。

共同目標精度

会話の各段階で、対話状態トラッカーの出力が人間の真実の注釈と比較されます。その中で、手動の真理注釈には、すべての可能な（ドメイン、スロット）ペアのスロット値が含まれます。共同ターゲット精度は、各スロットの値が正しく予測される会話ターンの割合として定義されます。スロットがまだ言及されていない場合、その手動のグラウンドトゥルースラベルはに設定され、値を持つスロットを予測する必要があります。共同ターゲット精度は比較的厳密な評価基準です。ダイアログラウンドの 1 つのスロットだけが誤って予測された場合でも、そのラウンドのダイアログ状態は正しくありません。したがって、対話ターンの共同ターゲット精度の値は、またはのいずれかになります。

スロット精度

スロット精度は、各 (ドメイン、スロット、スロット) トリプレットを、対応する人間の真実の注釈と個別に比較します。共同客観的精度と比較すると、評価の粒度は細かくなりますが、対話トラッカーの全体的なパフォーマンスを評価するには適していません。各会話ターンのスロットのほとんどは言及されていない（つまり、スロット値はである）ため、すべてのスロット値がと予測されたとしても、スロット精度は非常に高くなります。

3. 既存の方法と分類

ダイアログ状態追跡の歴史は長いです。初期の研究では、対話状態を追跡するために手動で設計されたルールや統計的手法が使用されていました。

手動で要約されたルールでは会話のすべての状況をカバーできないため、ルールベースの方法には、一般化パフォーマンスの制限、エラー率の高さ、ドメイン適応能力の低さなど、多くの制限があります。
しかし、統計的手法はデータの確率分布に基づいており、データ内のノイズ、曖昧さ、矛盾などによってそのパフォーマンスは著しく低下します。

ハードウェアコンピューティングリソースの急速な向上とディープラーニングの台頭により、研究者は対話状態トラッカーにさまざまなディープニューラルネットワーク構造を導入することを検討し始めています。代表的な研究には、DNN[5]、RNN[6]、NBT[7]、TRADE[8]などがあります。大規模なラベル付きデータセットでトレーニングされたこれらのニューラル対話状態トラッカーは、ルールベースのアプローチや統計的アプローチよりも優れたパフォーマンスを発揮します。初期の方法と比較すると、このタイプの方法は、研究者をルール設計の複雑な作業から完全に解放すると同時に、不完全なデータに対する対話状態トラッカーの堅牢性を高めます。

一般的なニューラルダイアログ状態トラッカーは、ダイアログ履歴、現在のダイアログターン、および定義済みのスロットリストを入力として受け取り、現在のダイアログターンまでの最新のダイアログ状態を出力します。既存の方法のコア機能をより詳細にまとめると、特徴抽出、状態アクション予測、状態デコードの 3 つの部分で構成されるニューラル対話状態トラッカーの一般的な構造を提案します。

3.1 特徴抽出

3.1.1 スロットとダイアログの特徴抽出

対話状態のすべてのスロットを追跡する必要があるため、研究者は対話テキストから各スロットに関連する情報をどのように抽出するかに関心があり、そのためにはスロットと対話の意味的表現だけでなく、この 2 つの対話型モデリングも必要になります。したがって、スロットとダイアログ間の情報のやり取りは、次の 2 つのタイプに分けられます。

独立したモデリング、スロットとダイアログの独立した表現
インタラクティブモデリング：得られた対話表現はスロットに関連し、スロット表現も対話に関連する。

個別モデリング

Mrkšićらは2017年にNBTモデルを提案しました（図3参照）。

表現学習法は、候補のスロット-スロット値のペアと会話内の単語をそれぞれ密な単語ベクトルに埋め込むために使用されます。
状態デコード段階では、NBT モデルは 2 つの表現に対して推論計算を実行し、スロットとスロット値のペアが会話に現れるかどうかを判断します。

図3 NBTモデル構造図

このタイプの分離特徴抽出方法には、次の特徴があります。

（１）得られたスロット特徴と対話履歴特徴は互いに独立している。

（２）会話ラウンドでは、スロットとスロット値のペアがいくつあっても、会話履歴の特徴抽出は１回だけ実行すればよい。

インタラクティブモデリング

候補スロットとスロット値のペアおよびダイアログをインタラクティブにモデル化することを選択した場合、次の 2 つの欠点があります。

（１）完全なオントロジーへの依存：申請時に、各スロットの可能な値を明確に定義する必要があり、スロットの見えないスロット値を識別することは不可能である。

（２）オプションスロット値の数が多すぎる場合、このタイプの方法の時間と空間の計算量は高くなります。

上記の欠点を回避するために、研究者たちは方向転換し、スロットとダイアログの関係をモデル化する方法を検討しました。 Shanら[9]はCHAN（Contextual Hierarchical Attention Network）モデルを提案した（構造を図4に示す）。

スロットワードアテンションメカニズムを使用して、前の各ダイアログラウンドからスロット関連の情報を抽出します。
スロットターンアテンションメカニズムは、ダイアログ履歴全体からスロットに最も関連性の高い機能をさらに選択するために使用されます。

図4 CHANモデル構造図

個別のモデリングと比較して、

スロットと会話履歴を共同でモデル化することで、スロットは、会話履歴の中でスロットに密接に関連する部分をより正確に特定できるようになります。
ただし、共同モデリングの時間的および空間的な複雑さは、個別モデリングよりも高くなります。

3.1.2 スロット間の関係のモデル化

スロットとダイアログの相関関係をモデル化することに加えて、共参照やスロット値の共起など、スロット間の可能な関係も考慮した研究もある[10, 11, 12, 13]。

共参照関係は、スロットの値が別の既存のスロットから取得されることを示します。
スロット値の共起とは、レストランの名前とそのレストランで提供される料理の種類との相関性が高いなど、スロット値の共起の確率が高いことを意味します。

スロット間の関係を考慮しないダイアログ状態トラッカーは、スロット間の接続を無視して、各スロットのスロットを個別に予測します。 CSFN-DST[10]モデルとSST[11]モデルは、異なるスロット間の相関関係を捉えるためにスキーマグラフを構築します。 SAS[12]モデルは、類似スロット間の情報の流れと相互作用を実現するためにスロット類似性マトリックスを計算します。スロット類似度マトリックスでは、2 つのスロットが類似していると見なされる場合、それらの間の類似度はに設定され、そうでない場合はになります。スロットの類似性を判断する方法は2つあります。(1)異なるスロットの名前とタイプ間のコサイン類似度を計算し、2つのハイパーパラメータに基づいて類似しているかどうかを判断する方法、(2)スロット名とタイプのK平均クラスタリング結果です。

ただし、CSFN-DST モデルと SST モデルはスケーラブルではありません。これら 2 つのモデルでは、手動で構築されたスキーマグラフはスロット間の関係を完全に反映することができず、グラフの構築プロセスで多くの事前知識が使用されます。 SAS モデルの場合、一方ではハイパーパラメータの設定が難しく、他方では非類似性設定スキームが明らかに不合理です。さらに、上記の 3 つの方法では、スロット名に基づいてスロットの相関関係のみを測定するため、一部のスロット間の関係が無視されたり、過大評価されたりする可能性があります。上記の欠陥に対処するために、Yeら[13]は、スロット名と対応するスロット値を使用してスロット関係をより正確にモデル化するSTARモデルを提案した。

3.2 状態動作予測

スロットとダイアログテキストから特徴を表現し、抽出した後、抽出された特徴を使用して、スロットの操作カテゴリ、つまり状態操作予測を決定できます。さまざまなスロット更新メカニズムに応じて、状態操作を状態識別指向と状態更新指向の 2 つのカテゴリに分類できます。前者を採用するトラッカーは会話全体から状態を抽出することに重点を置いていますが、後者は状態追跡の効率を向上させることに重点を置いています。

国家承認のための活動

このタイプの状態操作方法は、抽出された特徴を直接使用して、対話の開始から現在の状態までの最新の対話状態を予測します。状態操作を設定せずに状態操作を設定することも、モデルが状態認識を完了するのを支援するために特別な操作を設定することもできます。図5に示すように、TRADEモデルは、、の3種類の状態操作を使用して、スロットが特殊な値に属するかどうかを判断します。

図5 TRADEモデル構造図

TRADE などの方法は良好な結果を達成していますが、このような方法にはまだ問題があります。つまり、対話の各ラウンドで、モデルは対話の最初から現在の対話までに登場するすべてのスロット間の値のペアを予測する必要があるのです。会話が続くと、冗長性が増す会話履歴テキストから会話状態を抽出することがますます困難になります。図 6 に示すように、このタイプのソリューションは、独立したソリューションと呼ぶことができます。

図6 独立解の模式図

ソリューションのプレゼンテーションの点では、独立したソリューションは、ラウンドごとのインタラクションを含む完全なダイアログのダイアログ状態を生成する問題を、互いに干渉しない独立したサブ問題に分解します。各サブ問題の解決策は、現在のラウンドまでの対話履歴を全体として扱い、そこから出現したすべての対話状態を直接生成することです。このタイプの方法では、変更されていないスロットのスロット値を繰り返し予測していることがわかります。この欠陥により、状態追跡の効率が低下し、実際の使用時に非常に短い応答速度の要件を達成することが困難になります。

状態更新の操作

状態更新操作指向方式を採用することで、効率的な状態追跡を追求し、変更されていないスロットの繰り返し計算を最小限に抑え、タスクベースの対話システムの応答速度を低下させます。例えば、SOM-DST（対話状態追跡のための選択的メモリ上書き）モデル[14]は、冗長な計算を減らし、すべてのスロットを並列に追跡することで、対話の各ラウンドの状態追跡推論時間をTRADEモデルの8%に短縮することができます。

具体的には、SOM-DST は対話状態を選択的に書き換えることができる記憶構造 (メモリ) と見なし、対話状態の追跡を 2 つのサブタスクに分離します。

（１）状態操作予測サブタスクは、、、などの操作を含む、メモリ内の各スロットで実行される操作の種類を決定します。

（２）スロット値生成サブタスクは、メモリ内の書き換えが必要なスロットに対して新しいスロット値を生成する。図 7 は、SOM-DST がダイアログの番目のラウンドでダイアログ状態を更新する方法を示しています。この操作は、番目のスロットと番目のスロットで発生します。番目のスロットの新しいスロット値を推測し、最初のスロットのスロット値「center」を参照する必要があります。

図7 選択的書き換えの例

図8のモデル図に示すように、SOM-DSTは、前回の対話ラウンド、現在の対話ラウンド、および前回の対話ラウンドの対話状態を入力として受け取り、オントロジー内のすべてのスロットを並列に処理し、現在のラウンドの対話状態を出力します。実際、分離モデルでは、変更する必要があるスロット（すべてのスロットの最小サブセット）のスロット値を生成するだけで済みます。状態操作予測子は、新しい値を生成する必要があるスロットを選別する役割を担い、スロット値ジェネレーターは、選択されたスロットのスロット値のみをデコードします。デコードする必要のあるスロットの数を減らし、すべてのスロットを並列処理することで、SOM-DST モデルの平均応答時間は 27 ミリ秒に達し、TRADE モデルの 340 ミリ秒と比較して、ユーザーにとってより許容できる応答時間になります。

図8 SOM-DSTモデル構造図

同様に、Linら[15]は、システムが異なるドメインのAPIと対話する場合、対話状態をゼロから生成することはスケーラブルではないと主張し、最小の信念スパンを提案した。彼らが提案した MinTL フレームワークは、最小信念スパンに基づいており、前のラウンドの対話状態に対して、、およびの 3 つの操作を実行して、対話状態を更新します。

このような方法をプログレッシブ方式と呼びます。図 9 に示すように、プログレッシブ方式では、各ラウンドの対話状態を明確なデータ構造として扱います。現在のラウンドの対話状態を生成するときに、対話履歴を確認できるだけでなく、前のラウンドで生成された対話状態も使用できます。このタイプの方法は、現在の対話ラウンドに応じて前のラウンドの対話状態を更新し、対話状態の生成をより迅速に完了することができます。

図9 プログレッシブスキームの概略図

3.3 状態のデコード

ニューラル会話状態トラッカーの最後のコンポーネントとして、状態デコード部分は、前のコンポーネントによって取得されたすべての情報に基づいてスロット値のデコードを完了します。トラッカーの目的は会話から特定のスロットのスロット値を見つけることですが、さまざまなアプリケーションシナリオに応じてスロット値をデコードする方法は異なります。

3.3.1 定義済みオントロジーに基づく

アプリケーションでスロットのすべての可能なスロット値がわかっている場合、会話の各ターンで、状態デコーダーは会話履歴に最も関連性の高いスロットとスロットの値のペアを見つけようとします。このデコード方法では、完全なオントロジーの事前知識が必要であるため、事前定義されたオントロジーに基づく状態デコーダーとして要約されます。

マルチ分類デコーダー

各スロットに対して、マルチクラスデコーダーはSTARモデル[13]などのすべての可能なスロット値から正しいものを選択します。図10では、スロット特徴は線形層を介して変換され、得られたスロットのすべてのスロット値のベクトル表現を使用して類似度を計算し、最も類似度の高い値が結果として取得されます。

図10 STARモデル構造図

バイナリ分類デコーダー

このデコーダーを使用するダイアログ状態トラッカーは、一度に 1 つのスロット - スロット値ペアとダイアログ履歴の特徴抽出を完了します。抽出された特徴に基づいて、バイナリ分類デコーダーは、図 3 の NBT モデルに示すように、スロットとスロット値のペアが会話に出現するかどうかを判断します。

各スロットは複数の完全なモデル推論計算を完了する必要があるため、バイナリ分類デコーダーはシステムの応答時間を長くします。

3.3.2 オープン語彙に基づく

しかし、タスクベースの対話システムの実際のアプリケーションシナリオでは、一部のスロットのスロット値リストを完全に取得することはできません。

たとえば、時間関連のスロットや予約済みの食事時間などの場合、デザイナーがすべての可能なスロット値を列挙するのは困難です。
また、バックエンドデータベースを走査する権限がないため、ダイアログシステムが既存のすべてのレストラン名にアクセスできない可能性もあります。

このようなタイプのアプリケーションシナリオでは、多くの研究作業で、会話からスロット値を直接見つけたり生成したりするためのオープンボキャブラリベースの状態デコーダーが設計されています。

コピー生成メカニズム

TRADEモデル[8]（図5）は、スロット値の各デコードステップにおいて、コピーメカニズムと生成メカニズムを組み合わせ、2つのメカニズムによって得られた語彙確率分布の加重平均をとる。最も確率の高い単語がデコードステップの出力として使用される。このうち、コピー機構は対話履歴から値を選択し、生成機構は対話に直接登場しない単語を生成します。この2つを組み合わせることで、対話トラッカーの実用性とオープン性が向上します。

テキスト範囲の識別

テキストスパンベースのデコーダーは、会話履歴テキスト内のサブシーケンスを選択して、会話履歴から直接スロット値を抽出します。例えば、Gaoら[16]は、対話状態追跡タスクを抽出型質問応答タスクに変換し、サブシーケンスの開始と終了を予測することで入力対話テキストからスロット値を抽出するDST-Readerモデルを提案した。

図11 DST-Readerモデル構造図

図11の模式図に示すように、モデル

ダイアログテキストシーケンスをパッセージとして扱い、各スロットに対して、現在のダイアログ内のスロットのスロット値が何であるかを尋ねる質問を作成します (例: 「スロット i の値は何ですか?」)。
状態操作タイプがの場合、サブシーケンスの開始位置と終了位置は会話から選択され、結果のサブシーケンスがスロット値になります。

3.3.3 ハイブリッド方式

スロット値の列挙可能性に応じて、スロットは列挙可能なスロットと列挙不可能なスロットに分けられます。列挙可能なスロットとは、スロットの可能なスロット値が固定されていることを意味します。たとえば、「ホテルの星評価」は、一般的に 1 つ星から 5 つ星に分けられます。列挙できないスロットは、予約した食事の時間やレストラン名など、前述のスロットです。

上記の両方のタイプの状態デコーダーは、すべてのスロットを同じように扱います。しかし、

列挙不可能なスロットに直面した場合、事前定義されたオントロジーに基づく状態デコーダーは、スロット値リストに表示されない値をデコードできません。
オープン語彙に基づく状態デコーダーは、理論的には会話に直接表示されないスロット値を生成できますが、事前定義されたオントロジーに基づく状態デコーダーの方が列挙可能なスロットの処理に適していることは明らかです。

そのため、いくつかの研究では、2 つの状態デコーダーを使用してそれぞれ列挙可能なスロットと列挙不可能なスロットを処理するハイブリッドメソッドが提案されています。

4. 結論

ディープラーニング手法に基づく対話状態追跡モデル、すなわちニューラル対話状態追跡モデルは、ここ数年研究者から幅広い注目を集めています。タスクベースの対話システムにおけるこの重要なモジュールに関して、本稿ではまず、対話状態追跡タスクの重要性、定義、共通データセット、評価指標を紹介します。その後、近年、ニューラル対話状態追跡モデルを慎重に整理するための一般的なフレームワークが提案され、これは特徴抽出、状態操作予測、状態デコードの 3 つの段階に分かれています。

機能抽出段階では、スロットとダイアログ履歴の機能を完成させて、豊富な情報を含むテキスト表現を取得し、2つをモデル化して、それぞれスロットとダイアログに関連する特徴表現を取得し、その後のモジュールがより正確に均等になります。状態操作予測段階では、抽出された機能を使用して、各スロットの操作カテゴリを決定できます。各ダイアログラウンドでは、状態認識指向操作は、トラッカーが対話履歴のすべてのスロットのスロット値を見つけるのに役立ちます。一方、状態指向の操作は、状態デコードフェーズでスロット値をデコードする必要があるスロットを識別します。状態デコーダーは、以前のコンポーネントによって取得されたすべての情報を入力として取得し、スロットのスロット値を出力します。事前定義されたオントロジーに基づくデコード方法は、各スロットのすべての可能なスロット値の完全な分類を必要とします。それぞれ、ダイアログ状態追跡の正確性、実用性、および開放性を同時に確保します。

<<: PyTorch 1.8 と Tensorflow 2.5、どちらを使用すればよいですか?

>>: 4Paradigmは、開発者がインテリジェントアプリケーションを効率的に構築できるように、すぐに使える「AIOSコミュニティエディション」をリリースしました。