ロボットは人間の笑顔を真似することができますが、この笑顔はいつも...

この記事はAI新メディアQuantum Bit（公開アカウントID：QbitAI）より許可を得て転載しています。転載の際は出典元にご連絡ください。

ロボットは、2 つの空のプラスチックビーズをつけたポーカーフェイスでしか人間と向き合うことができないのでしょうか?

必ずしもそうとは限りません。あなたに微笑みかけることもできます！

下の「リトルブルーマン」は柔らかい顔をしており、笑顔など人間の表情を真似ることができます。

このような：

「ぎこちない笑顔」、「ニヤニヤ笑い」…すべてが、ロボットの「氷のように冷たく、鶏のように硬い」イメージを変えた。

しかし、通常は金属や硬質プラスチックで作られているロボットは、どのようにして笑うのでしょうか?

ワイヤーとモーターで作られた人工「筋肉」

コロンビア工科大学のクリエイティブマシン研究所の研究者たちは、ロボットと人間の相互作用に長い間興味を抱いてきました。

表情は信頼関係を築く上で大きな役割を果たします。介護施設や病院など、人間と密接に関わる場所でロボットが使われることが増えており、より敏感で「冷たい」ロボットではなく「温かさ」を持ったロボットが求められています。

そこで研究者たちは、人間の表情を真似ることができるEVAと呼ばれる上記のロボットを 5 年かけて開発しました。

EVA の機械設計には、以下に示すように4 つのモジュールが含まれています。

A は EVA を駆動するモーターサーボモジュールです。このモジュールは下部の Raspberry Pi 4 によって制御されます。「皮膚」はナイロンロープを介して10個のモーターに接続されており、対応する表情を作るように制御できます。

B は前頭骨から分離された、6 度の回転自由度を持つ眼モジュールです。

C は RGB カメラで、人間の表情のランダムなデータを収集するために使用されます。

Dは6自由度を持つネックモジュールです。

その中で、ロボットの頭部全体を人間の頭蓋骨のサイズに収まるほどコンパクトにし、なおかつ多様な表情を生み出せるだけの機能を備えたシステムを設計するのは容易ではありません。

回路、センサー、モーターなどのさまざまな大型ガジェットを収容する必要があります。

この目的のために、研究者たちは、 3D プリントを使用して複雑な形状の部品を製造し、それらの部品を EVA の脳にシームレスに統合できるようにすることを決定しました。

EVA はナイロンケーブルとモーターで作られた人工「筋肉」を使用して顔の特定のポイントを引っ張り、人間の顔の皮膚と骨のさまざまな部分にある 42 を超える小さな筋肉の動きを模倣して、怒り、嫌悪、恐怖、喜び、悲しみ、驚きの 6 つの基本的な感情、さらにはより微妙な表情を表現します。

「ある日、私が自分の用事に気を取られていたとき、EVA が突然、私に大きな友好的な笑顔を見せました。それが単なる機械的な笑顔であることはわかっていましたが、私は反射的に笑顔を返していました。」

ディープラーニングは人間の表情を「読み取り」、反応する

上記の機械設計は、ロボット EVA が物理的にさまざまな表現を行うことができることを示しています。それで、どのようにして自律的に模倣を完了するのでしょうか?

それでは、このロボットのソフトウェア部分を公開しましょう。

人間の表情は非常に複雑で、事前に設定されたルールでは変化に適応できないため、研究者はいくつかのディープラーニングニューラルネットワークを使用してEVAの「脳」を構築しました。

この脳は、 2 つの能力を習得する必要があります。1 つは、人間の顔を「読み取る」ことによって、どのような表情をすべきかを知ること、もう 1 つは、顔の「筋肉」を制御して、これらの表情を表現できることです。

EVAに自身の「顔」がどのようなものかを教えるために、チームはEVAがさまざまな「顔」を作る様子を何時間もビデオで撮影した。

眉毛も動きますよ〜

そして、人間がZoomで自分自身の動画を観ているのと同じように、EVAの内部ニューラルネットワークは、動画クリップ内の自分の顔と筋肉の動きを「一致させる」ことを学習した。

EVA が自分の顔がどのように「動くか」という基本的な感覚を身に付ければ、カメラが捉えた表情と EVA 自身の表情を一致させることは難しくありません。

何度も改良と反復を繰り返した結果、EVA はついにカメラから人間の顔の「ポーズ」を読み取り、人間の表情を真似て反応する能力を獲得しました。

模倣プロセス全体は次のとおりです。

EVA の脳は主に、生成ネットワークと逆ネットワークの 2 つのニューラルネットワークで構成されています。

通常の RGB カメラで撮影された顔画像が与えられると、システムはまず OpenPose を使用して顔のランドマークを抽出します。

人間の姿勢認識プロジェクトである OpenPose は、畳み込みニューラルネットワークと教師あり学習に基づき、Caffe をフレームワークとして使用して、米国のカーネギーメロン大学 (CMU) によって開発されたオープンソースライブラリです。

次に、人間の顔の顔のランドマークをロボットのサイズに正規化し、静的なロボットの顔画像と生成ネットワークに接続して、合成表情のロボット画像を生成します。

画像に基づいて、逆生成ネットワークがロボットに実行させるモーターコマンドを出力し、最終的にロボットの顔に人間の表情が現れます。

EVA の模倣品の別のグループを見てみましょう。

EVAは瞬きしたり首をひねったりすることはできるが、正面から見るとまだ少し表情が硬いことが分かった。

研究者らは、EVAはまだ実験段階であり、模倣することしかできず、顔の表情を通じて人間と実際にコミュニケーションをとるにはまだ遠いと指摘した。しかし彼らは、この技術がいつか実世界で有益な応用をもたらす可能性があると信じている。

この研究は2021年5月30日のICRAカンファレンスで発表され、ロボットの設計図はHardware-X（2021年4月）でオープンソース化されました。

著者について

EVAロボット研究チームは、中国人3人を含む5人の主要メンバーで構成されています。

ロボットソフトウェア部分のプロジェクトリーダーは、吉林大学を卒業し、現在はコロンビア大学の博士課程に在籍している陳博元氏です。彼の専攻はコンピュータサイエンスとテクノロジーで、研究分野にはロボット工学、コンピュータビジョン、機械学習などがあります。

記事に登場する胡宇航氏もコロンビア大学の博士課程の学生だ。彼は厦門大学の譚嘉記学院を卒業し、学部在学中に数多くの国家特許を申請し、会社を設立して「科学技術の専門家」という称号を得た。

Li Lianfeng、コロンビア大学、機械工学、ロボティクスおよび制御の修士。

論文アドレス: https://arxiv.org/abs/2105.12724
プロジェクトウェブサイト: http://www.cs.columbia.edu/~bchen/aiface/

<<: Redis に基づく分散ロックと Redlock アルゴリズム

>>: インテリジェントロボットにはどのような主要なセンサー技術が使用されていますか?

ロボットは人間の笑顔を真似することができますが、この笑顔はいつも...

ワイヤーとモーターで作られた人工「筋肉」

ディープラーニングは人間の表情を「読み取り」、反応する

著者について

AIと機械学習がSaaS業界にどのような変化をもたらすか

Amazon Rekognition の紹介

メリット、PyTorch中国語版の公式チュートリアルはこちら

オートメーション研究所の拡散モデル「Brain Reading」、MindDiffuserは人間の脳の視覚イメージを鮮明に再現します

ビデオメモリを節約する新しい方法: 2 ビット活性化圧縮を使用して PyTorch でニューラルネットワークをトレーニングする

自動運転の簡単な分析 - 衝突防止警報システム

Oracle データベース初期化パラメータの分析: システム構成を最適化するための究極のガイド!

推薦する

ワンクリックで漫画に変身！流行のDouyin特殊効果の背後にある技術

AI は鉱業をどのように改善できるのでしょうか?

機械学習とディープラーニング、この2つの違いは何でしょうか?

このベクターニューラルスタイルのブラシを使用すると、GANなしで美しい絵画を生成できます

TensorFlow を使用した LSTM モデルの構築に関する詳細なチュートリアル

世界の顔認識技術応用地域分布マップ

AIとDevOps: 効率的なソフトウェア配信のための完璧な組み合わせ

数十億ドルが賭けられる：自動車メーカーのAI競争

空飛ぶ車の将来展望は？

2022年、PyTorchはトップAIカンファレンスの80%を占める

なぜ2G/3GとAIは火花を散らすことができないのでしょうか?この論文で答えが分かります

ロボットとIoTがサプライチェーンに与える影響