「AI」があなたにビデオ通話を開始しました。あなたはそれを受け入れるべきでしょうか？

毎年恒例のスーパーボウル決勝戦の前に、Amazon は「Alexa の新しい形」というもう一つの大ヒット広告を公開しました。この広告では、女優がマイケル・ジョーダンへの称賛をアレクサ音声アシスタントに語り、夫を激怒させている。おそらく、ほとんどの視聴者はアマゾンの新しい広告をあまり真剣に受け止めないだろう。しかし、現実には、人間と同じくらいスムーズに私たちとコミュニケーションできる AI が、それほど遠くない将来に実現するだろう。

[[383256]]

現在、AI アバター (デジタルの身体や顔を使用してレンダリングされた AI 画像) は、ジョーダンほど人間味に欠け、少し怖く見えることさえあります。研究によれば、人間は人間のような機能を備えたロボットを開発することを好むが、機械の「人間性」が一定の閾値を超えると、人々は恐怖を感じるようになるという。これが有名な「不気味の谷」理論である。この言葉を生み出したロボット工学者の森政弘氏は、いつの日か、人間と区別がつかなくなるほど人間そっくりのロボットが登場すると予測している。少なくとも会話レベルでは、そのような AI はすでに可能であり、古いチューリングテストの制約を完全に打ち破っています。

最近、伝説のマーケティングの天才、ガイ・カワサキとのビデオチャットで、私は大胆な予測をしました。今後 2 年以内に、ガイは私と、私たちが構築した会話型 AI ソリューションである Kuki を区別できなくなるだろう、と。ガイは明らかに反対しましたが、私は動揺せず、段階的に議論を展開するつもりでした。

この会話と合わせて、私がこの予測に自信を持つ理由について公開レポートをお届けする予定です。本質的に、ビデオ通話で人間と同等のパフォーマンスを発揮するには、AI は次の 5 つの主要なリアルタイムテクノロジーを獲得する必要があります。

ヒューマノイドアバター
人間のような声
人間のような感情
人間のような行動
人間らしい会話

モーションキャプチャ技術 (MoCap) と生成的敵対的ニューラルネットワーク (GAN、Deep Fake の基盤となる機械学習技術でもある) の普及とコスト削減により、アバターソリューションは近年大きく進歩しました。初期のモーションキャプチャーでは俳優が特別な衣装を着る必要がありましたが、撮影と調整のプロセス全体にコストがかかり、「アバター」のような大ヒット作品でしかその余裕がありませんでした。しかし今では、iPhone Xと無料のゲームエンジンソフトウェアがあれば、モーションキャプチャーを「一般の人でも利用できるようになる」のに十分だ。数多くのオンラインウェブサービスにより、低解像度のディープフェイク画像や動画が簡単に作成できるようになり、この技術の普及が急速に進んでいます。しかし、制限されなければ、この技術は人類社会にも大きな影響を及ぼす可能性があります。実際、この進歩は新たな産業も生み出している。多くのキャスターが自分の顔や表情をリアルタイムで動物の画像に変換するようになり、「Lil'Miquela」のようなAIオピニオンリーダーまで登場している。先週、Epic Games（Fortnite および Unreal Engine の開発元）が MetaHuman Creator を発表し、まもなく誰でも無料で、本物の人間に限りなく近い「偽の顔」を作成できるようになります。

人間のような音声を生成する技術も急速に進歩しています。 Amazon、Microsoft、Google はいずれも、ニューラルネットワークを使用してよりリアルな音声を生成する、柔軟で使いやすいクラウドテキスト読み上げ (TTS) API を提供しています。さらに、一定数の例文に基づいて人間の俳優がモデル化したさまざまなカスタム音声スタイルツールに簡単にアクセスできます。今日の高精度な音声認識と同様に、音声合成も計算能力とトレーニングデータの増加に伴って改善され続けます。

説得力のある AI の声と顔だけでは価値を生み出すには不十分で、生き生きとした表現と組み合わせる必要があります。コンピュータービジョンテクノロジーは、前面カメラを操作するだけで、豊かな表情を分析して生成するのに十分であることがわかりました。テキストコンテンツを分析して対応する感情を理解するためのさまざまな API がすでに利用可能です。 NTTデータなどの研究所は、人間のジェスチャーや表情をリアルタイムで模倣できるソリューションを実証しており、Magic LeapのMICAは印象的な非言語アバター表現を提供できます。もちろん、既存の AI が真に自律的な精神状態や感情状態を探求するのは依然として困難であり、この研究にはまだまだ長い道のりが残っています。

「不気味の谷」問題を回避するには、AI は顔や体の動きと一致する「態度」を表示でき、会話の進行に応じて動的にトリガーされる必要があります。南カリフォルニア大学 ICT ラボの Shaprio プロジェクトと、多くの音声および画像スタートアップの調査により、ゲームキャラクターの同期されたリップシンクと表情の提供において先駆的な成果が達成されました。このようなシステムは、アバターを通じてテキスト表現を変換したり、感情を分析したり、定められたルールに従ってライブラリから適切なアニメーションを呼び出したりしながら、実際の人間の活動のビデオと連動した機械学習のトレーニングを継続的に行うことができます。研究開発の進歩と機械学習の発達により、このタイプの手続き型アニメーションは 2 年以内に完全にシームレスになると予想されています。

人間のような会話の最も未熟で難しい部分は、ほとんどのチャットボットが基本的な会話を続けることさえまだ苦労しているということです。これまでのところ、音声合成やコンピュータービジョンなどの非常に成功した分野と比較すると、ディープラーニング + より多くのデータ + より強力なコンピューティングパワーのモデルは、自然言語理解において意味のある進歩を達成していません。

ヒューマノイド AI のアイデアは非常に魅力的で、すでに 3 億 2,000 万ドルのベンチャーキャピタルが集まっています。しかし、少なくとも今後数年間は、中核となる要素が「解決」されない限り、すべてが単なる空想のままになるでしょう。アバター技術が本格的に普及するにつれ、期待は高まり、仮想アシスタントのリアルな顔が柔軟な脳や感情的知能に追いつかなくなると失望も大きくなるだろう。したがって、チャットボットが実際の人間のレベルに到達できるようになる時期を予測するのは時期尚早です。さらに残念なことに、今日の機械知能はプレーンテキストに基づくチューリングテストにさえ合格できません。

おそらくもっと重要な質問は、このような人間のような AI を本当に作成する必要があるのか、ということです。メディアインタラクションの役割、AI 医療アシスタント、トレーニング、教育などにおけるこのような成果の利点は、潜在的なリスクを本当に上回りますか? 人間のような AI は人間に限りなく近づかなければなりませんか、それとも、多くの業界関係者が信じているように、「不気味の谷」効果を排除するために、できるだけ人間に似ることの落とし穴を避けるべきでしょうか?

<<: 疫病の影響で、誰も収穫しなかったため果樹園の果物が大量に腐ってしまった。イスラエルの企業はAIドローンを使って果物を自動収穫している。

>>: AIの将来にとって人間の関与が重要な理由