seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表

seq2seq モデルよりも 90 倍高速です。 Google、新しいテキスト編集モデルFELIXを発表

[[397649]]

シーケンスツーシーケンス (seq2seq) モデルは、自然言語生成タスクに対する効果的なアプローチとして登場し、機械翻訳から要約、文の融合、テキストの簡略化、機械翻訳のポスト編集などの単一言語生成タスクまで、さまざまな用途に使用されています。

ただし、多くの単一言語タスクでは、目的の出力テキストが入力テキストのわずかな書き換えを表すことが多いため、これらのモデルは最適な選択とは言えません。これらのタスクでは、seq2seq モデルは出力単語を 1 つずつ生成するため (つまり、自己回帰的) 遅く、ほとんどの入力トークンが単純に出力にコピーされるため無駄が多くなります。

対照的に、テキスト編集モデルは、入力に適用されて出力を再構築する編集操作(単語の削除、挿入、置換など)を予測することを提案しているため、最近大きな注目を集めています。

これまでのテキスト編集のアプローチには、制限がありました。編集操作の数が限られているため高速 (非自己回帰) だが柔軟性に欠けるか、または、すべての編集操作をサポートしているため柔軟性に富んでいるが低速 (自己回帰) でした。

どちらの場合も、能動態から受動態への切り替えや、「彼らは夕食にステーキを食べた」から「夕食にステーキが食べられた」への切り替えなど、大きな構造的(文法的な)変換をモデル化することに重点を置いたのではなく、フレーズを削除または置き換えるというローカルな変換に重点を置きました。

大規模な構造変換が必要な場合、これらのテキスト編集モデルでは変換を生成できないか、大量の新しいテキストを挿入するため、処理が遅くなります。

最新の論文「FELIX: タグ付けと挿入による柔軟なテキスト編集」で、Google チームは、大規模な構造変更をモデル化し、seq2seq 方式よりも 90 倍高速で、4 つの単一言語編集タスクで非常に優れたパフォーマンスを発揮する、高速で柔軟なテキスト編集システムである FELIX を紹介します。

従来の seq2seq 方式と比較して、FELIX には次の 3 つの主な利点があります。

サンプル効率: 高精度のテキスト生成モデルをトレーニングするには、通常、大量の高品質の教師付きデータが必要です。 FELIX は、(1) 事前トレーニング済みのチェックポイントを微調整する、(2) 少数の編集操作用のラベル付けモデルを学習する、(3) 事前トレーニングタスクと非常によく似たテキスト挿入タスクという 3 つの手法を使用して、必要なデータ量を最小限に抑えます。

高速な推論時間: FELIX は完全に非自己回帰であり、自己回帰デコーダーによって生じる遅い推論時間を回避します。

柔軟なテキスト編集: FELIX は、編集操作の学習の複雑さとモデル化する変換の柔軟性の間でバランスをとります。

つまり、FELIX は、自己教師あり事前トレーニングから最大限の利益を得て、少ないリソースと少ないトレーニング データで効率的なトレーニングを実現することを目指しています。

概要

上記の目標を達成するために、FELIX はテキスト編集タスクを 2 つのサブタスクに分解します。入力単語のサブセットと出力テキストでの順序を決定するためのラベル付けと、入力テキストに存在しない単語の挿入です。

注釈モデルは構造変換をサポートするために新しいポインター メカニズムを採用し、挿入モデルは MLM (Masked Language Model) に基づいています。どちらのモデルも非自己回帰モデルであるため、モデルの速度が保証されます。以下はFELIXのチャートです。

テキスト簡略化タスクのための FELIX データのトレーニングの例。入力された単語には、最初に KEEP (K)、DELETE (D)、または KEEP と INSERT (I) のラベルが付けられます。トークン化後、入力は並べ替えられます。この並べ替えられた入力は、MLM にフィードバックされます。

タグ付けモデル

FELIX の最初のステップは、2 つのコンポーネントで構成されるモデルにラベルを付けることです。

まず、タグ付け機能は、どの単語を保持または削除するか、また新しい単語をどこに挿入するかを決定します。トークナイザーが挿入を予測すると、特別な MASK トークンが出力に追加されます。

トークン化の後、ポインターが入力を並べ替えて出力を形成する並べ替えステップがあり、これにより、新しいテキストを挿入する代わりに入力の一部を再利用できます。並べ替え手順は任意の書き換えをサポートしているため、大きな変更のモデリングが可能になります。

ポインター ネットワークは、以下に示すように、入力内の各単語が出力に表示される次の単語を指すようにトレーニングされます。

「心臓の壁は3層」から「心臓MASKは3層」に変形し、ポインティング機構を実装

モデルを挿入

タグ付けモデルの出力は、単語が削除され、タグ予測とともに MASK トークンが挿入された、並べ替えられた入力テキストです。

タグ付けモデルの出力は、単語が削除され、タグ予測とともに MASK トークンが挿入された、並べ替えられた入力テキストです。挿入されたモデルは、MASK タグの内容を予測する必要があります。 FELIX の挿入モデルは BERT の事前トレーニングの目的と非常に似ているため、事前トレーニングの利点を直接活用することができ、データが限られている場合に特に有利です。

挿入モデルの例。タグが2つの単語が挿入されると予測し、挿入モデルがMASKタグの内容を予測します。

結果

この論文では、FELIX を、文の融合、テキストの簡素化、抽象的要約、機械翻訳のポスト編集の面で評価します。これらのタスクは、必要な編集の種類や操作対象となるデータセットのサイズが大きく異なります。

FELIX は、さまざまなデータセット サイズでの文融合タスク (つまり、2 つの文を 1 つに結合する) において、大規模な事前トレーニング済みの seq2seq モデル (BERT2BERT) およびテキスト編集モデル (LaserTager) と比較されます。

FELIX は LaserTagger よりもパフォーマンスが優れており、トレーニングには数百のサンプルしか必要としないことがわかります。完全なデータセットでは、自己回帰 BERT2BERT が FELIX よりも優れています。ただし、推論中、このモデルは大幅に時間がかかります。

さまざまなサイズの DiscoFuse トレーニング データセットを使用した場合の、FELIX (最高のパフォーマンス モデルを使用)、BERT2BERT、および LaserTagger の参照文との完全一致の割合の比較。

Nvidia Tesla P100 でのバッチ サイズ 32 のレイテンシ (ミリ秒単位)

結論は

FELIX は完全に非自己回帰であり、推論時間を短縮しながら最先端の結果を実現します。

FELIX は、事前トレーニング済みのチェックポイントの微調整、少数の編集操作の学習、MLM タスクを模倣した事前トレーニングからのタスクの挿入という 3 つの手法を通じて、必要なトレーニング データの量を最小限に抑えます。

最後に、FELIX は学習した編集操作の複雑さと、処理できる入出力変換の割合の間でバランスを取ります。

<<:  防衛分野で人工知能はどのような役割を果たすのでしょうか?

>>:  Google Brain の最新の操作は「レトロ」: 畳み込み注意は不要、画像分類は SOTA に近い

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

北京大学やテンセントなどが言語を使ってマルチモーダル情報を整合させるLanguageBindを提案し、複数のランキングを更新した。

現代社会では、情報の伝達やコミュニケーションはもはや単一のモードに限定されなくなりました。私たちは、...

ネットセレブ列車は強制的に停止させられた。ドローンの操縦はどれほど難しいのか?

最近、「重慶の人気列車がドローンに衝突され停止」する動画がインターネット上で広く出回っている。 [[...

OpenAIのチップ製造計画が明らかに!独自のAIチップを開発する計画があり、買収対象を検討中

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

どのようなタイプのスマートビルが AI の導入をリードするのでしょうか?

人工知能 (AI) は建物の避けられない未来ですが、過去 10 年間のスマート テクノロジーの採用と...

...

...

MetaはAIアルゴリズムアプリケーションの透明性を高め、ユーザーに詳細な説明とより多くの選択肢を提供します。

6月30日、ソーシャルメディアプラットフォームはユーザーエクスペリエンスを向上させるためにAIアル...

...

...

距離ベクトルルーティングアルゴリズムの仕組みを説明する

[[122231]]現代のコンピュータ ネットワークでは、ネットワーク トポロジやトラフィックの変化...

LLMLingua: LlamaIndex を統合してプロンプトを圧縮し、大規模な言語モデルに効率的な推論を提供します。

大規模言語モデル (LLM) の出現により、複数の分野でイノベーションが促進されました。しかし、思考...

データが限られている場合にディープラーニングモデルを最適化する方法

[[198229]]転移学習転移学習とは、ある問題で訓練したモデルを、簡単な調整で新しい問題に適した...

史上初! Google AI プレイヤーが StarCraft II で人間に勝利

[[256388]]この試合はイギリス・ロンドンにあるDeepMind本社からライブ配信された。 G...

アメリカは最強のAIを開発するために1億ドルを投資しています。あなたを狙っているわけではありませんが、ここにいる全員が職を失う可能性があります。

米企業が人工知能に1億ドルを投資人工知能といえば、誰もが知っているものでしょう。AppleファンのS...

AIは実際にチップを生成できます! GPT-4はわずか19回の対話で130nmチップを構築し、チップ設計業界におけるHDLの大きな課題を克服しました。

GPT-4 はすでに人間がチップを作るのに役立っています!ニューヨーク大学タンドン工学部の研究者た...