ロボットは人間の笑顔を真似することができますが、この笑顔はいつも...

ロボットは人間の笑顔を真似することができますが、この笑顔はいつも...

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

ロボットは、2 つの空のプラスチック ビーズをつけたポーカー フェイスでしか人間と向き合うことができないのでしょうか?

必ずしもそうとは限りません。あなたに微笑みかけることもできます!

下の「リトルブルーマン」は柔らかい顔をしており、笑顔など人間の表情を真似ることができます。

このような:

「ぎこちない笑顔」、「ニヤニヤ笑い」…すべてが、ロボットの「氷のように冷たく、鶏のように硬い」イメージを変えた。

しかし、通常は金属や硬質プラスチックで作られているロボットは、どのようにして笑うのでしょうか?

ワイヤーとモーターで作られた人工「筋肉」

コロンビア工科大学のクリエイティブマシン研究所の研究者たちは、ロボットと人間の相互作用に長い間興味を抱いてきました。

表情は信頼関係を築く上で大きな役割を果たします。介護施設や病院など、人間と密接に関わる場所でロボットが使われることが増えており、より敏感で「冷たい」ロボットではなく「温かさ」を持ったロボットが求められています。

そこで研究者たちは、人間の表情を真似ることができるEVAと呼ばれる上記のロボットを 5 年かけて開発しました。

EVA の機械設計には、以下に示すように4 つのモジュールが含まれています。

A は EVA を駆動するモーター サーボ モジュールです。このモジュールは下部の Raspberry Pi 4 によって制御されます。 「皮膚」はナイロンロープを介して10個のモーターに接続されており、対応する表情を作るように制御できます。

B は前頭骨から分離された、6 度の回転自由度を持つ眼モジュールです。

C は RGB カメラで、人間の表情のランダムなデータを収集するために使用されます。

Dは6自由度を持つネックモジュールです。

その中で、ロボットの頭部全体を人間の頭蓋骨のサイズに収まるほどコンパクトにし、なおかつ多様な表情を生み出せるだけの機能を備えたシステムを設計するのは容易ではありません。

回路、センサー、モーターなどのさまざまな大型ガジェットを収容する必要があります。

この目的のために、研究者たちは、 3D プリントを使用して複雑な形状の部品を製造し、それらの部品を EVA の脳にシームレスに統合できるようにすることを決定しました。

EVA はナイロンケーブルとモーターで作られた人工「筋肉」を使用して顔の特定のポイントを引っ張り、人間の顔の皮膚と骨のさまざまな部分にある 42 を超える小さな筋肉の動きを模倣して、怒り、嫌悪、恐怖、喜び、悲しみ、驚きの 6 つの基本的な感情、さらにはより微妙な表情を表現します。

「ある日、私が自分の用事に気を取られていたとき、EVA が突然、私に大きな友好的な笑顔を見せました。それが単なる機械的な笑顔であることはわかっていましたが、私は反射的に笑顔を返していました。」

ディープラーニングは人間の表情を「読み取り」、反応する

上記の機械設計は、ロボット EVA が物理的にさまざまな表現を行うことができることを示しています。それで、どのようにして自律的に模倣を完了するのでしょうか?

それでは、このロボットのソフトウェア部分を公開しましょう。

人間の表情は非常に複雑で、事前に設定されたルールでは変化に適応できないため、研究者はいくつかのディープラーニングニューラルネットワークを使用してEVAの「脳」を構築しました。

この脳は、 2 つの能力を習得する必要があります。1 つは、人間の顔を「読み取る」ことによって、どのような表情をすべきかを知ること、もう 1 つは、顔の「筋肉」を制御して、これらの表情を表現できることです。

EVAに自身の「顔」がどのようなものかを教えるために、チームはEVAがさまざまな「顔」を作る様子を何時間もビデオで撮影した。

眉毛も動きますよ〜

そして、人間がZoomで自分自身の動画を観ているのと同じように、EVAの内部ニューラルネットワークは、動画クリップ内の自分の顔と筋肉の動きを「一致させる」ことを学習した。

EVA が自分の顔がどのように「動くか」という基本的な感覚を身に付ければ、カメラが捉えた表情と EVA 自身の表情を一致させることは難しくありません。

何度も改良と反復を繰り返した結果、EVA はついにカメラから人間の顔の「ポーズ」を読み取り、人間の表情を真似て反応する能力を獲得しました。

模倣プロセス全体は次のとおりです。

EVA の脳は主に、生成ネットワークと逆ネットワークの 2 つのニューラル ネットワークで構成されています。

通常の RGB カメラで撮影された顔画像が与えられると、システムはまず OpenPose を使用して顔のランドマークを抽出します

人間の姿勢認識プロジェクトである OpenPose は、畳み込みニューラル ネットワークと教師あり学習に基づき、Caffe をフレームワークとして使用して、米国のカーネギーメロン大学 (CMU) によって開発されたオープン ソース ライブラリです。

次に、人間の顔の顔のランドマークをロボットのサイズに正規化し、静的なロボットの顔画像と生成ネットワークに接続して、合成表情のロボット画像を生成します。

画像に基づいて、逆生成ネットワークがロボットに実行させるモーターコマンドを出力し、最終的にロボットの顔に人間の表情が現れます。

EVA の模倣品の別のグループを見てみましょう。

EVAは瞬きしたり首をひねったりすることはできるが、正面から見るとまだ少し表情が硬いことが分かった。

研究者らは、EVAはまだ実験段階であり、模倣することしかできず、顔の表情を通じて人間と実際にコミュニケーションをとるにはまだ遠いと指摘した。しかし彼らは、この技術がいつか実世界で有益な応用をもたらす可能性があると信じている。

この研究は2021年5月30日のICRAカンファレンスで発表され、ロボットの設計図はHardware-X(2021年4月)でオープンソース化されました。

著者について

EVAロボット研究チームは、中国人3人を含む5人の主要メンバーで構成されています。

ロボットソフトウェア部分のプロジェクトリーダーは、吉林大学を卒業し、現在はコロンビア大学の博士課程に在籍している陳博元氏です。彼の専攻はコンピュータサイエンスとテクノロジーで、研究分野にはロボット工学、コンピュータビジョン、機械学習などがあります。

[[403311]]

記事に登場する胡宇航氏もコロンビア大学の博士課程の学生だ。彼は厦門大学の譚嘉記学院を卒業し、学部在学中に数多くの国家特許を申請し、会社を設立して「科学技術の専門家」という称号を得た。

[[403312]]

Li Lianfeng、コロンビア大学、機械工学、ロボティクスおよび制御の修士。

[[403313]]

論文アドレス: https://arxiv.org/abs/2105.12724
プロジェクトウェブサイト: http://www.cs.columbia.edu/~bchen/aiface/

<<:  Redis に基づく分散ロックと Redlock アルゴリズム

>>:  インテリジェントロボットにはどのような主要なセンサー技術が使用されていますか?

ブログ    
ブログ    
ブログ    

推薦する

メーター読み取りシステムにおける無線データ伝送モジュールの応用

周知のとおり、従来の手動メーター読み取り方法は時間がかかり、労働集約的であり、その正確性と適時性は保...

任正非氏、人工知能の応用について語る:すべてをインテリジェントにしてはいけない、さもないとすべてが失敗する

最近、ファーウェイの新生コミュニティ公式アカウントは、任正非のGTS人工知能応用セミナーでの講演を公...

2024年以降の5つのAIトレンド

GPT-4 以降: OpenAI GPT-3 は、その自然言語機能で大きな話題を呼びました。 GPT...

将来、自動運転車が世界をどのように変えるか

北京時間12月6日、海外メディアの報道によると、克服すべき障害はまだ多くあるものの、自動運転車の技術...

IoTとAIの組み合わせ:さまざまなスマートフォンが互いに学習できるようにする

センサーといえば、まず思い浮かぶのはウェアラブルデバイスです。今ではウェアラブルデバイスが広く普及し...

C#とTypeScriptの作者がオープンソースAIプロジェクトTypeChatを発表

7月24日、C#とTypeScriptの父であるAnders Hejlsberg氏が、ユーザーがAI...

GTA6のトレーラーは1億回以上再生されており、3人のAI巨人も数秒でGTAギャングに変身できる

新しいGTAゲームの予告編を見ましたか?この予告編は3つのギネス世界記録を破り、再生回数は1億回を超...

...

中国科学院は、プログラマーがバグを見つけるのを助けるために大きなモデルを使用し、102の論文を分析し、これらの解決策をまとめた。

中国科学院は「バグ発見」に着手し、一気に N 個の解決策をまとめました。魔法の武器は大きなモデルです...

インダストリー 5.0: スマート シティの未来を形作るテクノロジーのメガトレンドの融合

この新しいフェーズは、ディープ テクノロジーの開発と採用のかつてない増加、世界の人口動態の大きな変化...

現在の AI の誇大宣伝が行き詰まったらどうなるでしょうか?

AI が行き詰まった場合、サイバーセキュリティ業界は従来の方法、特に人間主導の方法に大きく依存し続...

人間は形を見るが、AIは質感を見る:コンピュータービジョン分類の失敗についての議論

[[270985]]研究者たちは、ディープラーニングの視覚アルゴリズムが、主に形状ではなくテクスチャ...

メタヘッドセットが舌トラッキング機能を追加、ネットユーザー衝撃「理由は聞かないし、知りたくもない」

突然でしたね… Meta の MR ヘッドセットは舌を追跡できるようになりました。効果は次のようにな...

2020年の人工知能業界に関する7つの予測

ついに2020年が到来しました。これは、火星探査、バイオニックロボット、自動運転、遺伝子編集、複合現...