数時間のビデオを視聴するだけで人間のチャットを真似できますか? Facebookのロボットは表情が豊か

ヒューマノイドロボットの類似性は人間の好感度に比例するわけではありません。 1970年に日本のロボット工学の専門家である森政弘氏が提唱した不気味の谷理論によれば、物体の擬人化の度合いが増すにつれて、人間の反応は増加-減少-増加の曲線を描くという。擬人化の度合いが一定レベルに達すると、人間に対する好感度は大幅に低下し、擬人化されたキャラクターが怖いと感じるようになることもあります。

不気味の谷理論/Wikipedia

Facebook は、できるだけ早くロボットが不気味の谷を乗り越えられるように取り組んでいます。

最近、Facebook Artificial Intelligence Lab (FAIR) の研究者たちは、感情表現が得意なロボットを開発しました。これは、人間の Skype チャットビデオを数時間観察した後、人間の表情を模倣できる AI アルゴリズムによって制御される仮想アニメーションロボットです。

68面ランドマークブロック

人間が感情を表現する方法をより正確にシミュレートするために、研究者はアニメーション内の顔を68のブロックに分割し、Skype会話中にこれらの部分の変化を観察することに焦点を当てました。会話中、人間のうなずきやまばたき、口の動きの変化などが反映され、ロボットはこれらの表情の変化を学習します。

上の写真は会話中の人間の表情を示しており、下の写真は表情を追跡するシステムを示している。

しばらく観察すると、アニメーション化されたロボットは、可能性のある表情をリアルタイムで予測できるようになります。ビデオ内の人物が笑っている場合、ロボットは口を開けたり、首を傾げたりすることもあります。

テスト結果

その後、Facebookの研究者らは一連のテストを実施した。ボランティアたちは、人間同士の会話のオリジナルビデオや、訓練されたロボットの模擬応答を視聴し、ロボットのパフォーマンスを自然でリアルだと評価した。

写真の線の高さは、口（左）と目（右）の開閉度合いを示しています。ユーザー（上）とエージェント予測（下）の表情は基本的に同じであることがわかります。

現時点ではアルゴリズムはアニメーションでしか表示できないため、アルゴリズムによってサポートされるヒューマノイドロボットがどのように反応するかは不明です。

イスラエルのテルアビブ大学の博士課程の学生、ゴレン・ゴードン氏は、顔の表情によるコミュニケーションの基本ルールを学ぶだけでは、本当の会話の相手を作るのに十分ではないと語る。「本当の表情は、考えていることや感じていることに基づいているのです。」

「この場合、フェイスブックのシステムは平均的な性格を作り出している」とカーネギーメロン大学言語技術研究所の准教授、ルイ・フィリップ・モレンシー氏は言う。将来、ロボットはより複雑な性格を持つようになるか、会話相手に応じて性格を調整できるようになるかもしれません。

ロボットは人間同士のやり取りにおけるこうした微妙な要素をうまく処理できないとゴードン氏は言う。彼はまた、ロボットに対する期待を表明した。「ある時点で、私たちは不気味の谷を抜けて向こう側へ歩み出るだろう。」

[[202711]]

大阪大学知能ロボット研究所が開発したヒューマノイド型女性アナウンサー「オトナロイド」

Facebook社は今月24日にバンクーバーで開催されるIROS 2017でこの技術を実演する予定で、この技術に関する論文「Learn2Smile: 観察を通じて非言語的インタラクションを学ぶ」を公開している。

抽象的な

本稿では、人間とエージェントの対面コミュニケーションにおける非言語的な顔の手がかりを研究し、ユーザーの表情に基づいてエージェントの顔の感情表現を自動的に学習して更新する方法を提案します。私たちは、外部の人間による監督なしに、人間同士が会話している何百ものビデオを使ってニューラルネットワークをトレーニングしました。

実験結果では、当社のインテリジェントな顔注釈モデルが人間の表情を長期間にわたって予測できることが示されており、比較結果からも、このモデルがベースライン手法よりも大幅に優れていることが示されています。 ***、モデルのパフォーマンスをより深く理解するために、より詳細な調査を実施しました。

この研究のデータセットは、この分野の他の研究者が利用しやすいように公開されています。

<<: 注目を浴びるAIとゲームは、どんな火花を散らすことができるのでしょうか？

>>: AIの冷却：ディープラーニングは万能薬ではない