Google AI の公式ブログ *** では、音声をテキストを挟まずに直接音声に翻訳できる実験的な新システム、Translatotron が紹介されました。 「Translatotron は、ある言語の音声を別の言語の音声に直接翻訳できる初のエンドツーエンド モデルです」とブログ投稿には書かれている。 Googleによると、現在の翻訳システムは、音声をテキストに変換する自動音声認識、テキストを別の言語に変換する機械翻訳、そして翻訳されたテキストから音声を生成するテキスト音声合成(TTS)の3つのステップに分かれている。これら 3 つのステップにより、Google 翻訳などのサービスが誕生しましたが、このテクノロジー大手は、中間ステップとしてテキストを必要とせずに、単一のモデルで音声翻訳を実現したいと考えています。 「トランスラトトロンと呼ばれるこのシステムは、作業を複数の段階に分割するのを避けます」と、Google AIソフトウェアエンジニアのイェ・ジア氏とロン・ワイス氏は述べた。Googleによると、これは翻訳の高速化と転写エラーの減少を意味するという。このシステムはスペクトログラムを入力として使用し、ニューラル ボコーダーとスピーカー エンコーダーに依存してスペクトログラムを生成します。つまり、システムは翻訳後も話者の声の特徴を保持します。 |
<<: 5 つの人工知能プログラミング言語! Javaはまだ立ち上がっています!
>>: 顔認識の歴史的な禁止が導入され、警察は犯罪者を捕まえるために顔認識を使用できなくなった
[[422288]]人工知能 (AI) には、分析モデルの構築を自動化する機械学習 (ML) を含む...
有用か無害かLlama-2-chat は、セキュリティ フィルターに関して過度に敏感な動作を示すこと...
[[243888]]現在、「人工知能」という言葉は主要メディアプラットフォームで頻繁に登場し、注目を...
[[270417]]ニール・ガーシェンフェルド(出典:MIT産業連携プログラム) 「世界中のすべて...
1月22日、アリババはHanyi Fontと提携し、世界初の人工知能中国語フォント「 Ali Han...
[[172688]]序文8 つのソート アルゴリズムと 3 つの検索アルゴリズムは、データ構造におけ...
機械学習を学びたいですか? まずはこの 10 冊の本から始めましょう。 [[374789]] >...
ガートナーは、2026年までに中国のホワイトカラー職の30%以上が再定義され、生成AIを活用し管理す...
現在、カリフォルニア大学リバーサイド校が率いるチームは、ジョージ・メイソン大学およびノートルダム...
テクノロジー大手のBATから市場に参入する多数の新興企業まで、業界には10社を超える高精度地図サプラ...
RPA は、その幅広い適用性、無制限のシナリオへの適応性、既存の情報システムを損なわない親和性、AI...
私たちの多くは、毎日たくさんのファイルを処理する必要があります。新しい文書を受け取ったとき、通常は、...
仕事の環境は、主に GenAI の進歩によって、前例のない変化を遂げています。ほんの数年前には初期段...
ai.comドメイン名は、OpenAIが数千万ドルを費やしてマスク氏に購入された。これで、URL a...