容量はGPT-2の1.7倍！ Google がニューラル会話モデル Meena を開発

Google は、これは「真の」会話型 AI への試みであると述べた。

チャットボットは高度に専門化される傾向があり、応答がユーザーの期待から大きくかけ離れていない限り、そのパフォーマンスは称賛に値します。さまざまな会話トピックをより適切に処理するために、オープンドメイン会話研究では、新しいアプローチを模索してきました。このアプローチでは、研究者は、主にチャットに使用されるわけではないものの、ユーザーのあらゆる会話ニーズを満たすことができる、チャット専用ではないロボットの開発を試みています。

Google の研究者は、オープンドメインの対話研究は魅力的な研究テーマであるだけでなく、コンピューターの対話をさらに人間らしくしたり、外国語の練習を改善したり、映画やゲームの親しみやすいインタラクティブなキャラクターを作成したりするなど、多くの興味深いアプリケーションを生み出すことができると考えています。

しかし、現在のオープンドメインチャットボットには重大な欠陥があります。同じ質問に対して一貫性のない回答をしたり、基本的な常識を欠いた質問に答えたりするなど、役に立たないことが多いのです。さらに、チャットボットは、現在のコンテキストに固有ではない応答を返すことがよくあります。たとえば、「わかりません」はどの質問にも答えることができますが、現在のチャットボットは、多くの可能性のあるユーザー入力をカバーしているため、人間よりも頻繁にこれを行います。

最近、Google の研究者は「人間のようなオープンドメインチャットボットに向けて」と題した論文の中で、「Meena」と呼ばれるモデルを紹介しました。これは、26 億のパラメータを持つエンドツーエンドでトレーニングされたニューラル会話モデルです。

論文の中で研究者らは、ミーナが既存の最先端のチャットボットよりも賢く、より具体的な会話を行えることを実証したと述べた。彼らは、オープンドメインチャットボットのための新しい人間評価指標である感度と特異度の平均 (SSA) を提案しました。これは、人間の会話の基本的かつ重要な特性を捉えるものです。注目すべきことに、研究者らは、あらゆるニューラル会話モデルに簡単に適用できる自動測定基準である「困惑度」が SSA と高い相関関係にあることを実証しました。

「ミーナ」とは

Meena は、特定の会話コンテキストに対してよりインテリジェントに応答することを学習する、エンドツーエンドのニューラル会話モデルです。 Meenaモデルは26億のパラメータを持ち、パブリックドメインのソーシャルメディアの会話からフィルタリングされた341GBのテキストでトレーニングされたと報告されています。既存の最先端の生成モデルOpenAI GPT-2と比較すると、Meenaは1.7倍のモデル容量を持ち、8.5倍のデータでトレーニングされています。

モデルをトレーニングする目的は、「困惑」、つまり次のトークン（会話の次の単語）を予測する際の不確実性を最小限に抑えることです。その中核となるのは、進化型ニューラルアーキテクチャ検索を通じて発見され、難解性を改善した Transformer アーキテクチャである Evolved Transformer seq2seq アーキテクチャです。

具体的には、Meena には、以下に示すように、1 つの Evolved Transformer エンコーダーブロックと 13 個の Evolved Transformer デコーダーブロックがあります。エンコーダーは、会話のコンテキストを処理して、ミーナが会話で何が言われたかを理解できるようにする役割を担い、デコーダーはこの情報を使用して応答を作成します。研究者たちは、ハイパーパラメータを調整することで、より強力なデコーダーが会話の質を向上させる鍵であることを発見しました。

トレーニングに使用される会話はツリースレッドとして整理され、スレッド内の各返信は会話のターンと見なされます。研究者らは、会話トレーニングの各例（7 つのコンテキスト遷移を含む）をツリースレッドを通るパスとして抽出しました。研究者らは、会話モデルをトレーニングするのに十分な長さのコンテキストを確保しつつ、メモリ制約内にモデルを適合させたかったため（コンテキストが長いほどメモリを多く消費する）、7 回という回数が適切なバランスとして選択されたと述べています。

感度と特異度の平均（SSA）

チャットボットの品質に関する既存の人間による評価指標は複雑であることが多く、レビュー担当者間で合意が得られていません。これをきっかけに、Google の研究者は、自然な会話の基本的かつ重要な特性を捉える新しい人間評価指標である感度と特異度の平均 (SSA) を設計しました。

SSA を計算するために、研究者は参加チャットボット (Meena や、Mitsuku、Cleverbot、XiaoIce、DialoGPT などの他の有名なオープンドメインチャットボット) との自由形式のクラウドソーシング会話を実施しました。

評価間の一貫性を保つために、各会話は同じ挨拶「こんにちは！」で始まります。人間の評価者は会話中に「答えは理にかなっていますか？」と「答えは具体的ですか？」という 2 つの質問に焦点を当てます。各会話ラウンドで、評価者は常識を使ってロボットの応答が完全に合理的かどうかを判断する必要があります。混乱を招く、非論理的である、文脈から外れている、事実上間違っているなどの問題が生じた場合は、「意味をなさない」と評価する必要があります。回答が意味をなす場合は、文脈を考慮して意味をなすかどうかを判断するために評価する必要があります。

たとえば、A さんが「テニスが大好きです」と答え、B さんが「素晴らしい」と答えた場合、このような応答はさまざまな状況で使用できるため、この会話は「特定ではない」とマークする必要があります。一方、B さんが「私も、ロジャーフェデラーが大好きです」と答えた場合は、その応答が以前に話し合われた内容と密接に関連しているため、「特定」とマークできます。

研究者らは、チャットボットごとに約100回の会話で1,600～2,400件の個別の会話を収集し、各モデルの応答に人間の評価者がラベルを付けて、その回答が妥当かつ具体的であったかどうかを示しました。チャットボットの感度は「敏感」とマークされた応答の割合であり、特異度は「具体的」とマークされた応答の割合であり、これら 2 つの数値の平均が SSA スコアです。

以下の結果は、Meena が SSA スコアの点で既存の最先端のチャットボットを大幅に上回り、人間との差を縮めていることを示しています。

自動評価指標: 困惑度

研究者たちは長い間、より正確な人間の評価と相関し、会話モデルの開発を加速できる自動評価指標を求めてきましたが、これまでそのような自動評価指標を見つけることは困難でした。驚いたことに、Google の研究者たちは、自分たちの研究で「困惑度」がこの自動測定基準に適合しているように見えることを発見しました。この測定基準は、あらゆるニューラル seq2seq モデルに簡単に使用でき、SSA 値などの人間の評価と強い相関関係を示しています。

Google の研究者は「パープレキシティ」について次のように説明しています。「パープレキシティは、言語モデルの不確実性を測定するために使用されます。パープレキシティが低いほど、モデルが次のトークン (文字、サブワード、単語など) を生成する際の信頼性が高くなります。」概念的には、困惑度は、モデルが次の応答を生成するときに選択しようとするオプションの数を表します。

開発中、研究者らは、レイヤー数、アテンションヘッド、トレーニングステップの合計、Evolved Transformer または通常の Transformer のどちらが使用されたか、トレーニングにハードラベルまたは「蒸留」が使用されたかなど、異なるハイパーパラメータとアーキテクチャを持つ 8 つの異なるモデルバージョンをベンチマークしました。下の図に示すように、困惑度が低いほどモデルの SSA スコアは向上し、相関係数も強くなります (R 2 = 0.93)。

編集者注: 知識蒸留 (教師と生徒の学習とも呼ばれる) は、小さなモデルをより大きなモデル (またはモデルのアンサンブル) のように動作するようにトレーニングする必要がある圧縮手法です。

インタラクティブな SSA と困惑。それぞれの青い点は Meena のモデルの異なるバージョンであり、回帰線を描くことで、SSA と混乱の間に強い相関関係があることを示しています。破線は、人間、他のロボット、Meena (ベース)、エンドツーエンドのトレーニング済みモデル、フィルタリングと調整されたデコードを備えた最終的な完全な Meena の SSA パフォーマンスに対応しています。

Google によれば、同社が開発した最高のエンドツーエンド Meena モデルである Meena (ベース) は、パープレキシティが 10.2 (小さいほど良い)、変換 SSA スコアが 72% である。フィルタリングメカニズムとデコードされたデコード機能を備えた Meena のフルバージョンでは、SSA スコアがさらに 79% まで向上する。

今後の研究と課題

今後の計画について、Google の研究者は、アルゴリズム、アーキテクチャ、データ、コンピューティングを改善することで、ニューラル対話モデルの混乱を減らし続けると述べました。研究者は現在、この研究において感性と特異性のみに焦点を当てていますが、その後の研究では他の属性（事実性など）も考慮する価値があります。さらに、モデルの安全性とバイアスに対処することは、Google が重点的に取り組んでいる分野です。

<<: 大規模な伝染病に直面した時、ロボットは何ができるでしょうか?

>>: Baidu: 無料で公開されている LinearFold アルゴリズムにより、RNA 分析を 55 分から 27 秒に短縮できます