Meta AI が 3 つのテキストレス NLP 論文を連続して公開: 音声生成に対する究極の答えか?

日常のコミュニケーションでは、対話の効果を高めるために、口調、感情表現、間、アクセント、リズムなどの「非言語的」な信号がよく使用されます。

例えば、嬉しいとき、怒っているとき、イライラしているとき、眠いときに同じ文章を言うと、内容は同じでも、聞こえる感じは間違いなく大きく異なり、AI の音声は比較的硬直しています。

現在、ほとんどの AI 音声生成システムは、依然として書かれたテキストに基づいて発話を学習しています。つまり、モデルは発話の内容しか認識できず、人間の発話の速度や感情を認識できず、テキスト以外の表現豊かな発話信号を捉えることができません。

そのため、AI はニュースを司会できますが、スケッチ、クロストーク、トークショー、その他の言語芸術などの一部の特殊なアプリケーションシナリオでは、人工知能が話すことにおいて人間に取って代わることはできません。

昨年、Meta AI は、従来のモデルのテキストへの依存を打破した画期的な自然言語処理モデル GSLM を発表しました。

GSLM は、人間が言語を学習するプロセスと同様に、手動のラベルやテキストを使用せずに生のオーディオ信号を直接処理することで、構造化されたコンテンツを検出できます。 GSLM を使用すると、NLP モデルは話し言葉の表現力を捉えることができ、下流のアプリケーションの事前トレーニングの形式として使用したり、指定された入力音声プロンプトから後続の音声を生成する生成ツールとして使用したりすることもできます。

最近、Meta は GSLM に基づく 3 つの論文を発表し、より表現力豊かな NLP モデルに向けて大きな一歩を踏み出しました。

オープンソースの TextlessLib

機械学習開発者が GSLM コンポーネント (エンコーダー、言語モデル、デコーダー) をより迅速に実験できるようにするオープンソースの Textless Python ライブラリをリリースしました。

論文リンク: https://arxiv.org/pdf/2202.07359.pdf

コードリンク: https://github.com/facebookresearch/textlesslib

テキストレス NLP は、NLP 関連の技術とツールを音声言語に直接使用できるようにすることを目的とした活発な研究分野です。テキストレス NLP 技術では、離散音声表現に自己教師あり学習を使用することで、書き言葉のない言語や、テキストベースの方法ではアクセスできない音声言語情報において、より興味深い NLP アプリケーションの開発が可能になります。

Meta は、テキストレス NLP の研究を容易にするために設計されたライブラリである textlesslib をオープンソース化しました。このライブラリの目標は、研究サイクルをスピードアップし、初心者の学習曲線を短縮することです。このライブラリは、音声を離散値のシーケンスとしてエンコードするための高度に構成可能ですぐに使用できるツールと、このストリームをオーディオドメインにデコードするためのツールを提供します。

音声感情変換

笑い声、あくび、泣き声など、いくつかの表現的な発声については、研究者らが開発したモデルはすでにこれらの信号を捉えることができる。これらの表現は、人間的な方法で対話のコンテキストを理解するために重要であり、モデルは、皮肉、イライラ、退屈など、コミュニケーションの意図や伝えようとしている感情に関する情報を伝える可能性のあるニュアンスを識別できます。

論文リンク: https://arxiv.org/pdf/2111.07402.pdf

デモリンク: https://speechbot.github.io/emotion/

音声感情変換とは、語彙の内容と話者のアイデンティティを維持しながら、音声データの知覚された感情を修正するタスクを指します。この論文では、研究者らは感情伝達の問題を音声翻訳タスクとして提示し、音声をコンテンツ単位、ピッチ (f0)、話者、感情からなる個別の無関係な学習済み表現に分解します。

このモデルは、まずコンテンツ単位をターゲット感情に変換することで音声コンテンツを変更し、次にこれらの単位に基づいて音響特徴を予測し、最後に予測された表現をニューラルボコーダーに入力して音声波形を生成します。

このパラダイムにより、モデルは信号のスペクトルとパラメータの変化を発見できるだけでなく、笑い声の挿入、あくびの除去など、非言語的な音をモデル化することもできます。提案された方法が、知覚される感情とオーディオ品質の点でベースラインよりも優れていることを客観的かつ主観的に実証します。実験セクションでは、このような複雑なシステムのすべてのコンポーネントを厳密に評価し、広範なモデル分析とアブレーション研究を行って、提案されたアプローチのアーキテクチャ上の選択、長所、短所をより明確に示します。

たとえば、5 つの感情表現 (中立、怒り、面白がっている、眠い、嫌悪) を含む感情変換タスクでは、モデルは入力オーディオをターゲット感情に変換する必要があります。全体のプロセスはエンドツーエンドのシーケンス翻訳問題に相当するため、感情を変換するためにいくつかの非言語オーディオ信号を挿入、削除、置き換える方が簡単であることがわかります。

実験的評価により、提案されたモデルは、以前の最高の感情音声変換モデルと比較して、大幅な品質向上を達成したことが示されました。実際、結果は元のオーディオの品質に非常に近いものとなっています (元のオーディオはグラフ内で薄緑色で表示されています)。

感情的なAI対話

Meta AI は、2 つの人工知能エージェント間での自発的でリアルタイムの雑談を可能にするモデルを構築しました。各エージェントの行動要因、たとえば時折の重複や一時停止などは非常にリアルです。これは、仮想アシスタントなどのアプリケーションシナリオを構築する上で重要であり、人とチャットしているときに微妙な肯定的または否定的なフィードバックを捉えるなど、AI が微妙な社会的合図や信号をよりよく理解できるようにします。

論文リンク: https://arxiv.org/pdf/2203.16502.pdf

デモリンク: https://speechbot.github.io/dgslm/

この論文で提案されている dGSLM モデルは、自然な会話音声サンプルを生成できる最初のテキストレスモデルです。このモデルは、教師なし音声言語単位発見に関する最近の研究と、交差注意を備えた 2 タワー Transformer アーキテクチャを組み合わせて開発され、テキストやラベル付けされたデータなしで 2000 時間の 2 チャンネルの生の会話音声 (Fisher データセット) でトレーニングされました。 dGSLM は、音声、笑い声、その他の非言語信号を 2 つのチャネルで同時に生成できるため、会話の移行が非常に自然になります。

伝統的なNLPを覆す

近い将来、テキストレス NLP テクノロジーに基づいて構築されたダウンストリームアプリケーションが爆発的に増加するでしょう。モデルのトレーニングにはリソースを大量に消費するテキストラベルや自動音声認識システム (ASR) は必要ないため、モデルは音声信号を通じて質問に直接答えることができます。 Meta AI の研究者は、音声の類似性によって文章をより適切に解析できるようになり、意図の理解が容易になり、質問への回答パフォーマンスが向上すると考えています。

アプリケーションシナリオの 1 つは、音声対音声翻訳 (AI 翻訳吹き替えとも呼ばれます) です。従来の流暢性は通常、テキストに基づいて行われ、音声をテキストに変換し、翻訳を実行し、テキストを音声信号に変換する必要があります。

例えば、人気の「イカゲーム」の多言語版ではこの技術が使われています。

ただし、プロセスが複雑すぎると、システム全体のトレーニングが困難になり、テキスト内のイントネーションや非言語表現が失われるだけでなく、言語モデルがこれらの信号処理モジュールなしでテキストでトレーニングされるため、音声言語の表現力も一部失われます。

自己教師型音声表現法は、生の音声から個別の単位を学習し、テキストへの依存を排除できます。研究者は、テキストレス NLP は従来の複合システム (ASR+NLP) よりも優れており、非言語の発声とイントネーション情報を統合して、通常はテキストでは利用できない音素に加えて、豊富な意味と実用的な情報を伝達できると考えています。

世界がデジタル化されるにつれて、メタバースには AI 駆動型アプリケーションがますます多く含まれるようになり、これらの NPC は新しい体験を生み出すことができます。この新しい体験はテキストによるコミュニケーションに限定されず、将来的には音声やジェスチャーなどのよりスムーズなインタラクティブな方法へと移行していきます。

表現と自己教師学習の使用におけるこれらの進歩はすべて、研究者が従来のテキストベースのモデルから脱却し、より自然で魅力的な将来の AI システムを構築するのに役立つ可能性があります。

表現力の欠如に加えて、従来の NLP アプリケーションは大量のテキストリソースに依存していますが、このような大規模な注釈付きデータを持つ言語は世界でもわずかです。

長期的には、テキストレス NLP システムの進歩により、AI をより多くの人々、特に方言アラビア語やスイスドイツ語など、標準化された表記体系を持たない言語や方言を話す人々にとって包括的なものにするのに役立つと信じています。

<<: 今日の世界において顔認識の重要性は何でしょうか?