seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表

[[397649]]

シーケンスツーシーケンス (seq2seq) モデルは、自然言語生成タスクに対する効果的なアプローチとして登場し、機械翻訳から要約、文の融合、テキストの簡略化、機械翻訳のポスト編集などの単一言語生成タスクまで、さまざまな用途に使用されています。

ただし、多くの単一言語タスクでは、目的の出力テキストが入力テキストのわずかな書き換えを表すことが多いため、これらのモデルは最適な選択とは言えません。これらのタスクでは、seq2seq モデルは出力単語を 1 つずつ生成するため (つまり、自己回帰的) 遅く、ほとんどの入力トークンが単純に出力にコピーされるため無駄が多くなります。

対照的に、テキスト編集モデルは、入力に適用されて出力を再構築する編集操作（単語の削除、挿入、置換など）を予測することを提案しているため、最近大きな注目を集めています。

これまでのテキスト編集のアプローチには、制限がありました。編集操作の数が限られているため高速 (非自己回帰) だが柔軟性に欠けるか、または、すべての編集操作をサポートしているため柔軟性に富んでいるが低速 (自己回帰) でした。

どちらの場合も、能動態から受動態への切り替えや、「彼らは夕食にステーキを食べた」から「夕食にステーキが食べられた」への切り替えなど、大きな構造的（文法的な）変換をモデル化することに重点を置いたのではなく、フレーズを削除または置き換えるというローカルな変換に重点を置きました。

大規模な構造変換が必要な場合、これらのテキスト編集モデルでは変換を生成できないか、大量の新しいテキストを挿入するため、処理が遅くなります。

最新の論文「FELIX: タグ付けと挿入による柔軟なテキスト編集」で、Google チームは、大規模な構造変更をモデル化し、seq2seq 方式よりも 90 倍高速で、4 つの単一言語編集タスクで非常に優れたパフォーマンスを発揮する、高速で柔軟なテキスト編集システムである FELIX を紹介します。

従来の seq2seq 方式と比較して、FELIX には次の 3 つの主な利点があります。

サンプル効率: 高精度のテキスト生成モデルをトレーニングするには、通常、大量の高品質の教師付きデータが必要です。 FELIX は、(1) 事前トレーニング済みのチェックポイントを微調整する、(2) 少数の編集操作用のラベル付けモデルを学習する、(3) 事前トレーニングタスクと非常によく似たテキスト挿入タスクという 3 つの手法を使用して、必要なデータ量を最小限に抑えます。

高速な推論時間: FELIX は完全に非自己回帰であり、自己回帰デコーダーによって生じる遅い推論時間を回避します。

柔軟なテキスト編集: FELIX は、編集操作の学習の複雑さとモデル化する変換の柔軟性の間でバランスをとります。

つまり、FELIX は、自己教師あり事前トレーニングから最大限の利益を得て、少ないリソースと少ないトレーニングデータで効率的なトレーニングを実現することを目指しています。

概要

上記の目標を達成するために、FELIX はテキスト編集タスクを 2 つのサブタスクに分解します。入力単語のサブセットと出力テキストでの順序を決定するためのラベル付けと、入力テキストに存在しない単語の挿入です。

注釈モデルは構造変換をサポートするために新しいポインターメカニズムを採用し、挿入モデルは MLM (Masked Language Model) に基づいています。どちらのモデルも非自己回帰モデルであるため、モデルの速度が保証されます。以下はFELIXのチャートです。

テキスト簡略化タスクのための FELIX データのトレーニングの例。入力された単語には、最初に KEEP (K)、DELETE (D)、または KEEP と INSERT (I) のラベルが付けられます。トークン化後、入力は並べ替えられます。この並べ替えられた入力は、MLM にフィードバックされます。

タグ付けモデル

FELIX の最初のステップは、2 つのコンポーネントで構成されるモデルにラベルを付けることです。

まず、タグ付け機能は、どの単語を保持または削除するか、また新しい単語をどこに挿入するかを決定します。トークナイザーが挿入を予測すると、特別な MASK トークンが出力に追加されます。

トークン化の後、ポインターが入力を並べ替えて出力を形成する並べ替えステップがあり、これにより、新しいテキストを挿入する代わりに入力の一部を再利用できます。並べ替え手順は任意の書き換えをサポートしているため、大きな変更のモデリングが可能になります。

ポインターネットワークは、以下に示すように、入力内の各単語が出力に表示される次の単語を指すようにトレーニングされます。

「心臓の壁は3層」から「心臓MASKは3層」に変形し、ポインティング機構を実装

モデルを挿入

タグ付けモデルの出力は、単語が削除され、タグ予測とともに MASK トークンが挿入された、並べ替えられた入力テキストです。

タグ付けモデルの出力は、単語が削除され、タグ予測とともに MASK トークンが挿入された、並べ替えられた入力テキストです。挿入されたモデルは、MASK タグの内容を予測する必要があります。 FELIX の挿入モデルは BERT の事前トレーニングの目的と非常に似ているため、事前トレーニングの利点を直接活用することができ、データが限られている場合に特に有利です。

挿入モデルの例。タグが2つの単語が挿入されると予測し、挿入モデルがMASKタグの内容を予測します。