数時間のビデオを視聴するだけで人間のチャットを真似できますか? Facebookのロボットは表情が豊か

数時間のビデオを視聴するだけで人間のチャットを真似できますか? Facebookのロボットは表情が豊か

ヒューマノイドロボットの類似性は人間の好感度に比例するわけではありません。 1970年に日本のロボット工学の専門家である森政弘氏が提唱した不気味の谷理論によれば、物体の擬人化の度合いが増すにつれて、人間の反応は増加-減少-増加の曲線を描くという。擬人化の度合いが一定レベルに達すると、人間に対する好感度は大幅に低下し、擬人化されたキャラクターが怖いと感じるようになることもあります。

不気味の谷理論/Wikipedia

Facebook は、できるだけ早くロボットが不気味の谷を乗り越えられるように取り組んでいます。

最近、Facebook Artificial Intelligence Lab (FAIR) の研究者たちは、感情表現が得意なロボットを開発しました。これは、人間の Skype チャット ビデオを数時間観察した後、人間の表情を模倣できる AI アルゴリズムによって制御される仮想アニメーション ロボットです。

68面ランドマークブロック

人間が感情を表現する方法をより正確にシミュレートするために、研究者はアニメーション内の顔を68のブロックに分割し、Skype会話中にこれらの部分の変化を観察することに焦点を当てました。会話中、人間のうなずきやまばたき、口の動きの変化などが反映され、ロボットはこれらの表情の変化を学習します。

上の写真は会話中の人間の表情を示しており、下の写真は表情を追跡するシステムを示している。

しばらく観察すると、アニメーション化されたロボットは、可能性のある表情をリアルタイムで予測できるようになります。ビデオ内の人物が笑っている場合、ロボットは口を開けたり、首を傾げたりすることもあります。

テスト結果

その後、Facebookの研究者らは一連のテストを実施した。ボランティアたちは、人間同士の会話のオリジナルビデオや、訓練されたロボットの模擬応答を視聴し、ロボットのパフォーマンスを自然でリアルだと評価した。

写真の線の高さは、口(左)と目(右)の開閉度合いを示しています。ユーザー(上)とエージェント予測(下)の表情は基本的に同じであることがわかります。

現時点ではアルゴリズムはアニメーションでしか表示できないため、アルゴリズムによってサポートされるヒューマノイドロボットがどのように反応するかは不明です。

イスラエルのテルアビブ大学の博士課程の学生、ゴレン・ゴードン氏は、顔の表情によるコミュニケーションの基本ルールを学ぶだけでは、本当の会話の相手を作るのに十分ではないと語る。「本当の表情は、考えていることや感じていることに基づいているのです。」

「この場合、フェイスブックのシステムは平均的な性格を作り出している」とカー​​ネギーメロン大学言語技術研究所の准教授、ルイ・フィリップ・モレンシー氏は言う。将来、ロボットはより複雑な性格を持つようになるか、会話相手に応じて性格を調整できるようになるかもしれません。

ロボットは人間同士のやり取りにおけるこうした微妙な要素をうまく処理できないとゴードン氏は言う。彼はまた、ロボットに対する期待を表明した。「ある時点で、私たちは不気味の谷を抜けて向こう側へ歩み出るだろう。」

[[202711]]

大阪大学知能ロボット研究所が開発したヒューマノイド型女性アナウンサー「オトナロイド」

Facebook社は今月24日にバンクーバーで開催されるIROS 2017でこの技術を実演する予定で、この技術に関する論文「Learn2Smile: 観察を通じて非言語的インタラクションを学ぶ」を公開している。

抽象的な

本稿では、人間とエージェントの対面コミュニケーションにおける非言語的な顔の手がかりを研究し、ユーザーの表情に基づいてエージェントの顔の感情表現を自動的に学習して更新する方法を提案します。私たちは、外部の人間による監督なしに、人間同士が会話している何百ものビデオを使ってニューラル ネットワークをトレーニングしました。

実験結果では、当社のインテリジェントな顔注釈モデルが人間の表情を長期間にわたって予測できることが示されており、比較結果からも、このモデルがベースライン手法よりも大幅に優れていることが示されています。 ***、モデルのパフォーマンスをより深く理解するために、より詳細な調査を実施しました。

この研究のデータセットは、この分野の他の研究者が利用しやすいように公開されています。

<<:  注目を浴びるAIとゲームは、どんな火花を散らすことができるのでしょうか?

>>:  AIの冷却:ディープラーニングは万能薬ではない

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

...

MIT、失われた古代言語を解読するための新しい機械翻訳アルゴリズムを発表

MITのコンピュータ科学および人工知能研究所(CSAIL)の研究者らは、歴史から長い間失われていた古...

旅行リスクの特定: AI ソリューションが世界の COVID-19 安全マップを作成

州や自治体が新型コロナウイルスから国民を守るために制限措置を講じてきたため、ほぼ2年間、あらゆる種類...

顔認識技術が明らかに、未来はもうすぐ「手の届くところ」に!

[51CTO.com からのオリジナル記事]昨日の記事「顔認識の威力はどれほどか? AIFR 技術...

企業、不動産会社、自動車会社が顔情報を収集する方法を弁護士が解説:消費者は法律に従って権利を断固として守るべき

[[388553]] 3月18日夜、企業やメーカーが個人情報を不法に収集し、商業目的で利用する事件が...

教育における人工知能は2032年までに882億ドルに達する

教育革命が起こっており、人工知能は2032年までに882億ドルに達すると予想されています。人工知能(...

自然言語処理にディープラーニングを使用するにはどうすればよいでしょうか?ベストプラクティスのリストはこちら

この記事の著者である Sebastian Ruder は、自然言語処理にディープラーニングを使用する...

...

2018年のAIトレンドはこちら

ビッグデータの計算分析は決して時代遅れではありません。それどころか、データ量が増え続けるにつれて、デ...

nn.Module クラスに基づく線形回帰モデルの実装

[[411355]]前回はシーケンシャルモデルを紹介しましたが、ほとんどの場合、ニューラルネットワー...

Java プログラミング スキル - データ構造とアルゴリズム「スレッド バイナリ ツリー」

[[388829]]まず質問を見てみましょうシーケンス{1,3,6,8,10,14}を二分木に構築...

MonoLSS: 視覚的な 3D 検出トレーニングのためのサンプル選択

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

2017 ナレッジ グラフ ストレージ システム ランキング: あまり知られていないナレッジ グラフ ストレージ システム

ストレージシステムとは、プログラムやデータを格納するための各種記憶装置、制御部品、情報のスケジュール...

Mathematica が Big Language Model を導入しました。ネットユーザー:買う、買う、買う

Mathematica Wolfram の最新バージョンでは、大規模言語モデル (LLM) が正式に...

...