信じられますか?人工知能は最近、あなたの声からわずか6秒で性別、年齢、人種を判別し、さらにはあなたの外見を説明できるまでに進化しました。
この AI はマサチューセッツ工科大学 (MIT) によって作成されました。研究者は、何百万ものビデオ クリップで構成されたデータ セットを使用して、Speech2Face と呼ばれるニューラル ネットワーク モデルを自己トレーニングしました。このネットワークの動作は、大きく 2 つの部分に分かれています。1 つは音声エンコーダーで、主に入力された音声を分析し、関連する顔の特徴を予測する役割を担っています。もう 1 つは顔デコーダーで、主に入力された顔の特徴を統合して画像を生成する役割を担っています。最終結果から判断すると、音に基づいて人の顔を復元するのにたった 6 秒しかかからず、効果は満足のいくものでした。 研究チームは、話者の外見を正確に復元することが目的ではないと述べた。Speech2Faceモデルは主に、音声と外見の相関関係を研究するために使用される。現在、Speech2Faceは性別を認識でき、白人とアジア人を簡単に区別できます。年齢で言えば、30代、40代、70代の音声のヒット率が高くなります。 Speech2Faceは、基本的な性別、年齢、人種に加えて、鼻の構造、唇の厚さや形、噛み合わせなど、いくつかの顔の特徴も推測できます。また、おおよその顔の骨格を推測することもできます。基本的に、音声入力時間が長いほど、このAIの精度は高くなります。ただし、研究者はAIの聴覚が間違っている可能性もあることを認めています。このAIは、まだ声変わり期を経験していない小さな男の子を女性と間違えたり、話者のアクセントを誤って判断したり、年齢を間違えたりする可能性があります。研究者らは、Speech2Faceの限界はデータセット内の話者の間に人種的多様性が欠けていることに一部起因しており、異なる人種の人々の声を認識する能力が低いと述べた。 しかし、この技術の背後に隠れているプライバシーや差別の問題が懸念されると考える人もいます。これは純粋に学術的な調査ではあるものの、顔情報の潜在的な機密性については、倫理的要素についてさらに議論する必要があると彼らは考えています。厳格な技術テストを実施し、実際のデータが想定されるユーザー グループを代表できることを確認する必要があります。 |
<<: 人工知能の未来は人類にとって何を意味するのでしょうか?
>>: F1カーがハッキングされた、人工知能技術が救世主となるのか?
カリフォルニア大学サンディエゴ校で開発・実装されている AI 主導のテクノロジーとイノベーションの多...
【51CTO.comオリジナル記事】序文最近、Bespin Globalの共同創設者であるBrad ...
最近、ヘルシンキ大学の研究者らは、脳信号を監視することでコンピューターが視覚知覚をシミュレートできる...
[[436214]]パーソナライゼーションと自動化は、ユーザー エクスペリエンスの品質を向上させるた...
[[173621]]編集者注:現地時間10月9日、米国大統領選挙の2人の候補者による第2回公開討論会...
アクティベーション、重み、勾配を 4 ビットに量子化すると、ニューラル ネットワークのトレーニングが...
Llama2 はオープンソースであり、無料の商用利用をサポートしているため、オープンソースの大規模...
2018年にバイトダンスがカラオケアプリ「Musical.ly」を買収し、TikTokとしてブランド...
最近、北京市交通委員会は新たに改訂された「北京市自動運転車両路上試験管理実施規則(試行)」を発行し、...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
最近、OpenAIが数か月間隠していた大きな動きがついに公開されました。それが「コードインタープリタ...
複数のターゲットを追跡するには、次の 2 つの方法があります。オプション1初期化フレームの追跡に基づ...