Meta AI が 3 つのテキストレス NLP 論文を連続して公開: 音声生成に対する究極の答えか?

Meta AI が 3 つのテキストレス NLP 論文を連続して公開: 音声生成に対する究極の答えか?

日常のコミュニケーションでは、対話の効果を高めるために、口調、感情表現、間、アクセント、リズムなどの「非言語的」な信号がよく使用されます。

例えば、嬉しいとき、怒っているとき、イライラしているとき、眠いときに同じ文章を言うと、内容は同じでも、聞こえる感じは間違いなく大きく異なり、AI の音声は比較的硬直しています。

現在、ほとんどの AI 音声生成システムは、依然として書かれたテキストに基づいて発話を学習しています。つまり、モデルは発話の内容しか認識できず、人間の発話の速度や感情を認識できず、テキスト以外の表現豊かな発話信号を捉えることができません。

そのため、AI はニュースを司会できますが、スケッチ、クロストーク、トークショー、その他の言語芸術などの一部の特殊なアプリケーション シナリオでは、人工知能が話すことにおいて人間に取って代わることはできません。

昨年、Meta AI は、従来のモデルのテキストへの依存を打破した画期的な自然言語処理モデル GSLM を発表しました。

GSLM は、人間が言語を学習するプロセスと同様に、手動のラベルやテキストを使用せずに生のオーディオ信号を直接処理することで、構造化されたコンテンツを検出できます。 GSLM を使用すると、NLP モデルは話し言葉の表現力を捉えることができ、下流のアプリケーションの事前トレーニングの形式として使用したり、指定された入力音声プロンプトから後続の音声を生成する生成ツールとして使用したりすることもできます。

最近、Meta は GSLM に基づく 3 つの論文を発表し、より表現力豊かな NLP モデルに向けて大きな一歩を踏み出しました。

オープンソースの TextlessLib

機械学習開発者が GSLM コンポーネント (エンコーダー、言語モデル、デコーダー) をより迅速に実験できるようにするオープンソースの Textless Python ライブラリをリリースしました。

論文リンク: https://arxiv.org/pdf/2202.07359.pdf

コードリンク: https://github.com/facebookresearch/textlesslib

テキストレス NLP は、NLP 関連の技術とツールを音声言語に直接使用できるようにすることを目的とした活発な研究分野です。テキストレス NLP 技術では、離散音声表現に自己教師あり学習を使用することで、書き言葉のない言語や、テキストベースの方法ではアクセスできない音声言語情報において、より興味深い NLP アプリケーションの開発が可能になります。

Meta は、テキストレス NLP の研究を容易にするために設計されたライブラリである textlesslib をオープンソース化しました。このライブラリの目標は、研究サイクルをスピードアップし、初心者の学習曲線を短縮することです。このライブラリは、音声を離散値のシーケンスとしてエンコードするための高度に構成可能ですぐに使用できるツールと、このストリームをオーディオ ドメインにデコードするためのツールを提供します。

音声感情変換

笑い声、あくび、泣き声など、いくつかの表現的な発声については、研究者らが開発したモデルはすでにこれらの信号を捉えることができる。これらの表現は、人間的な方法で対話のコンテキストを理解するために重要であり、モデルは、皮肉、イライラ、退屈など、コミュニケーションの意図や伝えようとしている感情に関する情報を伝える可能性のあるニュアンスを識別できます。

論文リンク: https://arxiv.org/pdf/2111.07402.pdf

デモリンク: https://speechbot.github.io/emotion/

音声感情変換とは、語彙の内容と話者のアイデンティティを維持しながら、音声データの知覚された感情を修正するタスクを指します。この論文では、研究者らは感情伝達の問題を音声翻訳タスクとして提示し、音声をコンテンツ単位、ピッチ (f0)、話者、感情からなる個別の無関係な学習済み表現に分解します。

このモデルは、まずコンテンツ単位をターゲット感情に変換することで音声コンテンツを変更し、次にこれらの単位に基づいて音響特徴を予測し、最後に予測された表現をニューラル ボコーダーに入力して音声波形を生成します。

このパラダイムにより、モデルは信号のスペクトルとパラメータの変化を発見できるだけでなく、笑い声の挿入、あくびの除去など、非言語的な音をモデル化することもできます。提案された方法が、知覚される感情とオーディオ品質の点でベースラインよりも優れていることを客観的かつ主観的に実証します。実験セクションでは、このような複雑なシステムのすべてのコンポーネントを厳密に評価し、広範なモデル分析とアブレーション研究を行って、提案されたアプローチのアーキテクチャ上の選択、長所、短所をより明確に示します。

たとえば、5 つの感情表現 (中立、怒り、面白がっている、眠い、嫌悪) を含む感情変換タスクでは、モデルは入力オーディオをターゲット感情に変換する必要があります。全体のプロセスはエンドツーエンドのシーケンス翻訳問題に相当するため、感情を変換するためにいくつかの非言語オーディオ信号を挿入、削除、置き換える方が簡単であることがわかります。

実験的評価により、提案されたモデルは、以前の最高の感情音声変換モデルと比較して、大幅な品質向上を達成したことが示されました。実際、結果は元のオーディオの品質に非常に近いものとなっています (元のオーディオはグラフ内で薄緑色で表示されています)。

感情的なAI対話

Meta AI は、2 つの人工知能エージェント間での自発的でリアルタイムの雑談を可能にするモデルを構築しました。各エージェントの行動要因、たとえば時折の重複や一時停止などは非常にリアルです。これは、仮想アシスタントなどのアプリケーション シナリオを構築する上で重要であり、人とチャットしているときに微妙な肯定的または否定的なフィードバックを捉えるなど、AI が微妙な社会的合図や信号をよりよく理解できるようにします。

論文リンク: https://arxiv.org/pdf/2203.16502.pdf

デモリンク: https://speechbot.github.io/dgslm/

この論文で提案されている dGSLM モデルは、自然な会話音声サンプルを生成できる最初のテキストレス モデルです。このモデルは、教師なし音声言語単位発見に関する最近の研究と、交差注意を備えた 2 タワー Transformer アーキテクチャを組み合わせて開発され、テキストやラベル付けされたデータなしで 2000 時間の 2 チャンネルの生の会話音声 (Fisher データセット) でトレーニングされました。 dGSLM は、音声、笑い声、その他の非言語信号を 2 つのチャネルで同時に生成できるため、会話の移行が非常に自然になります。

伝統的なNLPを覆す

近い将来、テキストレス NLP テクノロジーに基づいて構築されたダウンストリーム アプリケーションが爆発的に増加するでしょう。モデルのトレーニングにはリソースを大量に消費するテキスト ラベルや自動音声認識システム (ASR) は必要ないため、モデルは音声信号を通じて質問に直接答えることができます。 Meta AI の研究者は、音声の類似性によって文章をより適切に解析できるようになり、意図の理解が容易になり、質問への回答パフォーマンスが向上すると考えています。

アプリケーションシナリオの 1 つは、音声対音声翻訳 (AI 翻訳吹き替えとも呼ばれます) です。従来の流暢性は通常、テキストに基づいて行われ、音声をテキストに変換し、翻訳を実行し、テキストを音声信号に変換する必要があります。

例えば、人気の「イカゲーム」の多言語版ではこの技術が使われています。

ただし、プロセスが複雑すぎると、システム全体のトレーニングが困難になり、テキスト内のイントネーションや非言語表現が失われるだけでなく、言語モデルがこれらの信号処理モジュールなしでテキストでトレーニングされるため、音声言語の表現力も一部失われます。

自己教師型音声表現法は、生の音声から個別の単位を学習し、テキストへの依存を排除​​できます。研究者は、テキストレス NLP は従来の複合システム (ASR+NLP) よりも優れており、非言語の発声とイントネーション情報を統合して、通常はテキストでは利用できない音素に加えて、豊富な意味と実用的な情報を伝達できると考えています。

世界がデジタル化されるにつれて、メタバースには AI 駆動型アプリケーションがますます多く含まれるようになり、これらの NPC は新しい体験を生み出すことができます。この新しい体験はテキストによるコミュニケーションに限定されず、将来的には音声やジェスチャーなどのよりスムーズなインタラクティブな方法へと移行していきます。

表現と自己教師学習の使用におけるこれらの進歩はすべて、研究者が従来のテキストベースのモデルから脱却し、より自然で魅力的な将来の AI システムを構築するのに役立つ可能性があります。

表現力の欠如に加えて、従来の NLP アプリケーションは大量のテキスト リソースに依存していますが、このような大規模な注釈付きデータを持つ言語は世界でもわずかです。

長期的には、テキストレス NLP システムの進歩により、AI をより多くの人々、特に方言アラビア語やスイスドイツ語など、標準化された表記体系を持たない言語や方言を話す人々にとって包括的なものにするのに役立つと信じています。

<<:  今日の世界において顔認識の重要性は何でしょうか?

>>:  Googleの最新の「効率的なトランスフォーマー」では、トランスフォーマーの効率を向上させる方法を説明しています

ブログ    
ブログ    

推薦する

...

データの筒状のビジョンを避け、人間と機械の調和のとれた共生関係を築く

​​​ [51CTO.com クイック翻訳]比較するためのより良い座標系がないため、人間がよく犯す間...

アストラゼネカはPyTorchベースのアルゴリズムを使用して新薬を発見

[51CTO.com クイック翻訳] Facebookの機械学習フレームワークPyTorchは、20...

「知的障害ロボット」が解雇に直面

最近、ストレンジという日本のロボットホテルが「ロボット従業員」の半数を解雇した。ロボットに仕事を奪わ...

人工知能、機械学習、ディープラーニングの違いと関連性を説明する記事

人工知能の波が世界を席巻しており、人工知能、機械学習、ディープラーニングといった多くの言葉が常に私た...

冬季オリンピックは人工知能産業の導入を加速し、デジタル経済の徹底的な発展を推進するだろう

人工知能は、この冬季オリンピックに知能の要素を加え、競技の効率とレベルを向上させ、テクノロジーに満ち...

MLOps の定義、重要性、実装

MLOps の定義と成功する実装戦略に関する有益なブログを読んで、AI と機械学習における MLOp...

Facebookは機械学習を使ってコンパイラを最適化

Facebook は最近、コンパイラ最適化タスクを実行するための高性能で使いやすい強化学習 (RL)...

中国は人工知能チップの開発において「偏り」を持つことはできない

[[269826]] 「設計アーキテクチャだけを見れば、国産の人工知能チップは外国製のものより劣って...

AIとソフトウェアが5Gデータセンターの変革を推進する方法

今日、私たちはコンピューティングにおける大きなイノベーションの時代を目の当たりにしており、世界中で ...

人工知能の雇用に関するレポートによると、GenAI は米国のほぼすべての仕事に影響を与えるだろう

世界有数の求人サイトおよび採用プラットフォームである Indeed は、Indeed AI 求人レポ...

...

ドローンは電力網を守り、点検や障害物の除去も可能!

[[412066]]現在、全国的に気温が上昇し続けているため、私の国では電力消費のピークの新たな波...

オーストラリアの裁判所が判決:人工知能システムDABUSが特許発明者として認められる!

[[416531]]この記事はLeiphone.comから転載したものです。転載する場合は、Lei...

2021 年にグラフ機械学習にはどのような新たなブレークスルーがあるでしょうか?マギル大学のポスドク研究員が分野の動向を整理

[[443041]]今年ももうすぐ終わり、あと3日で2021年も終わりです。さまざまなAI分野でも...