1つのモデルで2つのモダリティを解決、Google AudioPaLMは「テキスト+オーディオ」を統合:話すことも聞くこともできる大規模モデル

1つのモデルで2つのモダリティを解決、Google AudioPaLMは「テキスト+オーディオ」を統合:話すことも聞くこともできる大規模モデル

強力なパフォーマンスと汎用性を備えた大規模言語モデルは、オーディオやビデオなどの多数の大規模マルチモーダル モデルの開発を推進してきました。

言語モデルの基盤となるアーキテクチャは主に Transformer に基づいており、主にデコーダーベースであるため、他のシーケンス モダリティに適応するためにモデル アーキテクチャを大幅に調整する必要はありません。

最近、Google は、テキストとオーディオ トークンをマルチモーダルな共同語彙に統合する統合音声テキスト変換モデル AudioPaLM をリリースしました。さまざまなタスク記述タグと組み合わせることで、音声認識 (ASR)、テキスト音声合成、自動音声翻訳 (AST)、音声音声翻訳 (S2ST) など、音声とテキストが混在するあらゆるタスクでデコーダーのみのモデルをトレーニングでき、従来は異種モデルで解決されていたタスクを 1 つのアーキテクチャとトレーニング プロセスに統合します。

写真

論文リンク: https://arxiv.org/pdf/2306.12925.pdf

サンプルリンク: https://google-research.github.io/seanet/audiopalm/examples/

さらに、AudioPaLM の基盤となるアーキテクチャは大規模な Transformer モデルであるため、テキストで事前トレーニングされた大規模な言語モデルの重みを使用して初期化することができ、PaLM などのモデルの言語知識を活用できます。

実装結果に関して言えば、AudioPaLM は AST および S2ST ベンチマークで最先端の結果を達成し、ASR ベンチマークでのパフォーマンスは他のモデルに匹敵します。

AudioLM からのオーディオ キューを活用することで、AudioPaLM モデルは新しいスピーカーの音声転送で S2ST を実行でき、音声品質と音声保存の点で既存の方法よりも優れています。

AudioPaLM モデルにはゼロショット機能もあり、トレーニング中に見られなかった音声入力/ターゲット言語の組み合わせに対して AST タスクを実行できます。

オーディオパルム

研究者らは、デコーダーのみのTransformerモデルを使用してテキストと音声のトークンをモデル化しました。このモデルでは、テキストと音声はモデルに入力される前にすでにトークン化されているため、入力は単なる整数のシーケンスであり、出力時にトークン化解除されてユーザーに返されます。

写真

音声埋め込みと単語分割

オーディオの生の波形をトークンに変換するプロセスには、既存の音声表現モデルから埋め込みを抽出し、埋め込みを限られたオーディオ トークンのセットに離散化することが含まれます。

これまでの研究では、w2v-BERT モデルから埋め込みを抽出し、k 平均法を使用して量子化していましたが、この論文では、研究者らは 3 つの方式を試しました。

w2v-BERT: 純粋な英語ではなく、多言語データでトレーニングされた w2v-BERT モデルを使用します。k-means クラスタリングの前に正規化は実行されません。そうしないと、多言語環境でパフォーマンスが低下します。次に、25Hzの速度で、語彙サイズ1024のトークンを生成します。

USM-v1: より強力な 20 億パラメータの Universal Speech Model (USM) エンコーダーを使用して同様の操作を実行し、中間層から埋め込みを抽出します。

USM-v2: 補助的な ASR 損失を使用してトレーニングされ、さらに多言語をサポートするように微調整されています。

テキストのみのデコーダーを変更する

Transformer デコーダー構造では、入力と最終ソフトマックス出力層を除いて、モデリング トークンの数は関係なく、PaLM アーキテクチャでは、入力行列と出力行列の重み変数は共有され、つまり、互いに転置されます。

したがって、純粋なテキスト モデルをテキストとオーディオの両方をシミュレートできるモデルに変換するには、埋め込み行列のサイズを (t × m) から (t+a)×m に拡張するだけで済みます。ここで、t はテキスト語彙のサイズ、a はオーディオ語彙のサイズ、m は埋め込み次元です。

事前トレーニング済みのテキスト モデルを活用するために、研究者は埋め込みマトリックスに新しい行を追加して、既存のモデルのチェックポイントを変更しました。

具体的な実装では、最初の t トークンが SentencePiece テキスト タグに対応し、次の a トークンがオーディオ タグを表します。テキスト埋め込みでは事前トレーニング済みの重みが再利用されますが、オーディオ埋め込みは新たに初期化され、トレーニングする必要があります。

実験結果によると、ゼロからの再トレーニングと比較して、テキストベースの事前トレーニング モデルは、音声とテキストのマルチモーダル タスクのパフォーマンスを向上させるのに非常に有益です。

オーディオトークンをネイティブオーディオにデコードする

オーディオ トークンからオーディオ波形を合成するために、研究者は 2 つの異なるアプローチを試しました。

1. AudioLMモデルに似た自己回帰デコード

2. SoundStormモデルに類似した非自己回帰デコード

どちらの方法でも、最初に SoundStream トークンを生成し、次に畳み込みデコーダーを使用してそれらをオーディオ波形に変換する必要があります。

研究者らは、オーディオ トークンと SoundStream トークンの両方として表される 3 秒間の音声サンプルの音声条件を使用して、Multilingual LibriSpeech でトレーニングを行いました。

元の入力音声の一部を音声条件付けとして提供することで、モデルは元の話者の音声を別の言語に翻訳するときに元の音声を保持し、元の音声が 3 秒未満の場合は繰り返し再生して空白時間を埋めることができます。

訓練ミッション

使用されるトレーニング データ セットはすべて音声テキスト データです。

1. 音声: ソース言語の音声

2. トランスクリプト: 音声データ内の音声の書き起こし

3. 翻訳された音声: オーディオ内の音声の音声翻訳

4. 翻訳されたトランスクリプト: 音声のスピーチの書き起こし

コンポーネントタスクには以下が含まれます。

1. ASR(自動音声認識):音声を書き起こして書き起こしテキストを取得します

2. AST(自動音声翻訳):音声を翻訳して翻訳されたトランスクリプトを取得します。

3. S2ST(音声翻訳):音声を翻訳して翻訳された音声を取得する

4. TTS (テキスト読み上げ): 文字起こしされたコンテンツを読み上げて音声を取得します。

5. MT(テキストからテキストへの機械翻訳):転写を翻訳して翻訳された転写テキストを取得します。

データセットは複数のタスクに使用される可能性があるため、研究者は、タスクの英語名と入力言語を指定するラベルを入力の前に付けることで、特定の入力に対してどのタスクを実行するかをモデルに通知することを選択しました。出力言語も選択できます。

たとえば、モデルにフランス語のコーパスで ASR を実行させたい場合、単語分割後の音声入力の前にラベル [ASR French] を付ける必要があります。英語で TTS タスクを実行するには、テキストの前に [TTS English] を付ける必要があります。英語からフランス語への S2ST タスクを実行するには、単語分割後の英語の音声の前に [S2ST English French] を付けます。

トレーニングミックス

研究者らは、SeqIO ライブラリを使用してトレーニング データを混合し、より大きなデータセットの重み付けを削減しました。

写真

実験セクション

写真

AudioPaLM は、AST および S2ST タスクでは他のベースライン モデルよりも優れており、ASR でも最適ではないものの非常に優れたパフォーマンスを発揮します。

研究者らは、音声コンテンツの翻訳品質の評価に加えて、AudioPaLM によって生成された言語の品質が十分高いかどうか、および異なる言語に翻訳されたときに話者の音声を維持できるかどうかも評価しました。

客観的指標

参照なしの MOS 推定器と同様の方法を使用して、オーディオ サンプルを指定すると、1 から 5 のスケールで知覚的なオーディオ品質の推定値を提供します。

研究者らは、言語間の音声転送の品質を測定するために、市販の話し手検証モデルを使用し、ソース(SoundStream でエンコード/デコード)の埋め込みと翻訳された音声間のコサイン類似度を計算しました。また、ソースオーディオからターゲットオーディオまでの音響特性(録音条件、背景ノイズ)も測定しました。

主観的評価

研究者らは、両方の研究で同じサンプルセットを使用して、生成された音声の品質と音声の類似性を評価するために 2 つの独立した研究を実施しました。

コーパスの品質はさまざまで、一部には大きな重なり合った音声(バックグラウンドで流れるテレビ番組や歌など)や極端なノイズ(マイクに擦れる衣服など)が含まれており、同様の歪み効果により人間の評価者の作業が複雑になるため、研究者は MOS 推定値が少なくとも 3.0 の入力のみを選択して事前フィルタリングすることにしました。

評価は 1 (品質が悪い、または音がまったく異なる) から 5 (品質が良い、音は同じ) までの 5 段階で提供されます。

写真

結果から、AudioPaLM は、オーディオ品質と音声の類似性に関して客観的および主観的な測定の両方でベースラインの Translatotron 2 システムを大幅に上回っていることがわかります。また、AudioPaLM は、CVSS-T の実際の合成録音よりも高品質で音声の類似性も優れており、ほとんどの指標で大幅な改善が見られます。

研究者らはまた、リソースの多いグループとリソースの少ないグループ(フランス語、ドイツ語、スペイン語、カタロニア語と他の言語)のシステムを比較しましたが、グループ間の指標に大きな違いは見つかりませんでした。

<<:  ハーバード大学コンピュータサイエンス学部の旗艦プロジェクトはAIをメンターとして採用している

>>:  ChatGPTの不正行為から逃れるのは難しいです! 99%のヒット検出、カンザス大学の新しいアルゴリズム、Cellジャーナルに掲載された研究

ブログ    
ブログ    
ブログ    

推薦する

...

調査によると、ChatGPTはプログラミングの質問に答える際に50%以上のエラー率があることが判明

米パデュー大学の調査によると、OpenAIが開発した人工知能チャットボット「ChatGPT」は、ソフ...

...

中国の博士が強化学習を使ってSpaceXのロケットを回収

[[435329]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

「機械」が他より賢く、「技術」が他より劣っているという観察と思考

[[277716]] 9月21日、CCTV-1の「スーパースマート」番組では、杭州の霊隠寺に毎日訪れ...

中国のトップ 10 の技術革新の一覧。世界をリードする技術も持っています。

国内の科学技術イノベーション主体はいずれも「中核技術を自主的に掌握し、外国の独占を打ち破る」という目...

IntelがLoihi 2チップとLavaフレームワークを発表

インテルは、人工知能、ロボット工学などの分野におけるニューロモルフィック・コンピューティングの研究開...

実現可能な AI、SF から科学的事実へ: 今日の AI の現実

人工知能(AI)の概念は何千年も前から存在しています。 AI の物語は歴史を通じて世界中に広がってい...

数秒で AI を学ぶ - ディープラーニングの一般的な 4 つの活性化関数: シグモイド、Tanh、ReLU、Softmax

ディープラーニングにおける活性化関数は、ニューラル ネットワークの重要なコンポーネントです。活性化関...

...

AIセキュリティリスクの予防と管理を強化するには、技術統合と法的規制に重点を置く必要がある

人工知能は、新たな科学技術革命と産業変革をリードする戦略的技術として、世界の主要国が科学技術の飛躍的...

GPT-4はあなたよりも質問をするのが得意です。大きなモデルを繰り返し使用して、人間との対話の障壁を打ち破りましょう。

人工知能の分野における最新の開発では、人工的に生成されたプロンプトの品質が、大規模言語モデル (LL...

RPAとAIを組み合わせることで、自動化の新しい世界が開かれます

たとえば、ボットに請求書を分析してもらい、それを社内の適切な連絡先に送信させたいとします。十分簡単そ...

ああ、顔認識で同性愛を検出できるんですか?

[[236037]]顔認識は携帯電話のロックを解除したり逃亡者を捕まえたりできるだけでなく、あなた...

...