この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 食事をしているとき、向かいに座っている人とおしゃべりしたいのに、周りの騒音で何を言っているのかわからないことがありますか? あるいは、聴覚障害のある人とコミュニケーションを取りたいのに、相手があなたの声を聞き取れないということはありませんか? 顔の筋肉の変化を検知できるAIが登場。口を動かしていれば、声を出さなくても何を言っているのかがわかる。 これはEMNLP 2020の最優秀論文です。カリフォルニア大学バークレー校の2人の著者がAIと電極を使用して、言いたいが声に出さない言葉を検出できる「無言音声」検出モデルを作成しました。 その原理が何なのか調べてみましょう。 電極を使ってビープ音の証拠を集める「無言音声」の本質は、人が話すときの顔と首の筋肉の変化です。 はっきり言って、リップシンクでは音は出ないのに、顔や首でバレてしまいます。 そしてこうして「無言音声」を検知できるAIが誕生したのです。 データを収集する際、研究者はまず被験者の顔と体の他の部分に 8 つのパッチを貼ります。各パッチは、次のように「筋肉の変化を監視する」センサーです。 その後、次の図に示すように、実験者の声の一部を録音し、それを筋電図と照合する必要があります (1 文あたり約 4 語と 1 文あたり約 16 語の 2 種類の音声データが録音されます)。 この方法は、筋肉の変化と発話の種類を一致させることができます。 データ記録プロセス中に、「リップシンク」筋電図の別のセクションを記録する必要がありますが、音は必要ありません。これは「サイレントスピーチ」と呼ばれます。 2 つの EMG を収集する理由は、人が声を出さずに話すときと声を出して話すときでは、筋肉の変化が多少異なるためです。たとえば、発音領域の一部の筋肉の震えの振幅が小さくなり、話す速度も変化します。 ただし、静かな環境での筋肉の変化に基づいて目的の音声を認識したい場合は、リップシンク中にサイレント筋電図検査を使用するしかありません。 明らかに、これらの理由により AI のトレーニングは非常に困難になります。 認識精度を最大化するために、研究者らはモデル損失を減らすための追加構造を採用しました。 20時間弱の音声コレクションですが、かなりうまく機能していますでは、この方法でトレーニングされたモデルはどれほど効果的でしょうか? 研究者たちはこのモデルを、閉鎖語彙条件と開放語彙条件でテストした。 その中で、閉じた単語セットは主に前置詞、限定詞、接続詞、その他の単語(of、andなど)を指します。この種の語彙セットは小さく、トレーニングが容易で、AIが「筋肉記憶」を形成しやすくなります。 オープン語彙の範囲は、名詞、形容詞、その他の単語など、はるかに広く、現在では無数の単語があり、これらの単語をAIに認識させることは非常に困難です。 判定方法はWERで、具体的な計算方法は以下の通りです(原理は原文の誤り率を計算するのと同様です)。 現在、AI は閉じた単語セットで3.6%の WER (小さいほど良い) を達成しています。 オープンワードセットの検出に関しては、AIトレーニング後、WERも88%という高いレベルから68%に低下しました。 オープンワードセットに対する検出効果は完璧ではないようですが、このモデルで使用されるデータセットは大きくないことを忘れないでください。 クローズド テスト データ セットには合計1 時間未満の音声データが含まれ、オープン テスト データ セットには18.6 時間の音声データのみが含まれます。 さらに、これらの音声セットは、無音データと音声データのコレクションです。 このレベルのトレーニング効果は、20 時間未満の音声データで達成されました。 より大きなデータサンプルが利用できる場合、モデルのパフォーマンスはさらに向上します。 著者について第一著者はカリフォルニア大学バークレー校の NLP グループの David Gaddy です。彼の通常の研究対象は、教師なし学習、文法分析、無声音声です。 第一著者の指導者であるダニエル・クライン氏は、教師なし学習、文法分析、情報抽出、機械翻訳に重点を置いています。 もう一つこの EMNLP でのさまざまな NLP 研究には、改善の余地がまったくありません。 中国科学院と北京情報科学技術大学の研究者らも皮肉検出モデルを発明した。 この AI モデルは、テキストと画像を同時に検出することでマルチモーダルな意味理解を実行し、ある人物のソーシャル メディアの更新が皮肉なものかどうかを検出します。 たとえば、次のようなものです。「試合は満員でしたが、実際に席を確保できました。」 表面的には、これはまったく普通の文章ですが、絵と組み合わせると、絵のスタイルが突然奇妙になります。 もう 1 つの例は、この文です。「美味しそうです。」 しかし、箱の端に散らばったチーズや具材を見ると、これがまた皮肉な発言であることは明らかです。 現在、この意味情報はすべて AI に入力され、「皮肉の聞き方を知っている」モデルがトレーニングされています。 現在、このモデルはTwitterなどのソーシャルメディア上で検証されており、 84.33%という良好な効果を達成しています。 この AI モデルを見た後でも、上司の悪口を密かに言う勇気はまだあるでしょうか? 論文の宛先: |
<<: 海外メディア:人工知能はすでに自身のミスを警告できる
>>: AIが髪の毛に至るまで肖像画を生成!北京大学卒業生の最新研究が2.8千個の星を獲得
進化し続けるテクノロジーの世界における最新のトレンドやイノベーションを追い続ける中で、私たちが注目...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
因数分解に基づいて、リカレントニューラルネットワーク (RNN) に基づく言語モデルは、複数のベンチ...
IBM と Meta のパートナーおよび協力者には、AMD、Intel、NASA、CERN、Hugg...
Llama2とCode Llamaのリリース後、長い間姿を見せていなかったザッカーバーグ氏は、本日公...
[51CTO.com クイック翻訳] 機械学習はデータサイエンスの頂点であり、教師あり学習は機械学習...
この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...
[[418475]]かつては空想の技術だった自動運転が、今や徐々に現実のものとなりつつある。 Go...
スタンフォード大学のエビ揚げロボットよりも強力なロボットが登場!最近、CMU の研究者たちは、オープ...
2019年2月、ポーランド政府は銀行法に改正を加え、信用判定に否定的な結果が出た場合に顧客に説明を求...
最新世代の予測言語モデルは、言語の根底にある意味の一部も学習したようです。驚くべきことに、これらのモ...
[[408123]]最近、Google Brain チームは Vision Transformer ...
今年のテクノロジー業界の大規模レイオフはまだ続いています! 2023年には再びレイオフにより数万人の...
ベストセラー作家のバーナード・マー氏はフォーブス誌に「人工知能はいかにして資本主義を殺すか」と題する...
[[430902]]自動化の需要が継続的に高まっているため、ロボット産業の発展は加速段階に入り、わが...