GPT-4 を搭載した初のヒューマノイドロボット!プログラミングは不要 + ゼロショット学習、口頭フィードバックに基づいて動作を調整可能

事前のプログラミングやトレーニングなしで GPT-4 を使用してヒューマノイドロボットを制御するとどうなるでしょうか?

答えは、「好奇心が強すぎる」です。

ロボットは「薄暗い映画館でポップコーンを食べているのに、自分が食べていたポップコーンが隣の見知らぬ人からのものだと突然気づく」という演技をするように求められました。

GPT-4 の制御下では、ロボットの笑顔は凍りつき、恥ずかしさのあまり首を振って後ろに傾きました。

しかし、恥ずかしかったにも関わらず、もう一握り取って口に入れることを忘れなかったのでしょうか？ ? ?

それはロボットに「ギターを弾いて」と頼むようなものです。

GPT-4 は少し考えた後、ロボットを制御して指を動かし、ロックンロールの雰囲気を漂わせるかのように激しく首を振りました。

でもよく見ると、首を振っても指が全然動かないんです…

これをただ指で計算している変な露天商だと言うなら、何も悪いことはないようです（犬の頭）。

一連の行動をまとめると——

すべての動きが人間のプログラムによって注意深く制御されているボストンダイナミクスのヒューマノイドロボットと比較すると、GPT-4によって直接制御されるこのロボットは凶暴な表情と奇妙な動きをしていますが、その動作はすべてプロンプトの要件を満たしています。

GPT-4 がロボットを制御するこの一連のビデオがオンラインに投稿された後、多くのネットユーザーが「不気味の谷効果が起きた」と叫んだ。

20 年の経験を持つロボット工学の専門家でさえも怖がらせた。

こうした行為は私にゾッとさせる。これは美しいと思いますか？

別のネットユーザーは「ステージ上の私にそっくりだ」と冗談を言った。

しかし、一部のネットユーザーは、ヒューマノイドロボットがGPT-4を通じて制御できるというのは信じられないことだと考えています。

これは東京大学と日本の企業 Alternative Machine による、 GPT-4 で駆動するヒューマノイドロボットに関する初の研究であることが判明しました。

この研究に頼れば、ユーザーは事前にロボットをプログラムする必要はなく、言語を入力するだけで、つまりGPT-4としばらくチャットするだけで、ロボットは指示に従って動作を完了することができます。

この研究の詳細と原理について見てみましょう。

大型模型＋ロボットの新たな試み

プログラミングやトレーニングをせずに、GPT-4 を脳として使用することで、このヒューマノイドロボット Alter3 は他にどのような眉をひそめながらも合理的な動作を実行できるでしょうか。

指示を与えて、Alter3 に 👻 のふりをさせてみませんか。

口を大きく開けて手を前に伸ばし、一瞬で役に入り込む方法を理解しました。

しかし、どういうわけか、わずかに開いた唇と虚ろな目は、ラム・チンインですら専門家と呼ぶゾンビのように見えます。

自撮りをするように頼めば、Alter3 はその場で顔のクローズアップショットを撮ることができます。

元のカメラに映った自分の醜さにショックを受けたのかどうかは分かりませんが、彼の表情には喜びは感じられませんでした。その代わり、彼は痛みで目を閉じていました。

ロック音楽を聴きましょう。

ビートに合わせてうなずくというのは正しいのですが、敬意を持ってあなたの前に立って「うん、うん、うん、うん、うん」と言うと、それはかなり適切だと思います（犬の頭）：

公開されたすべてのビデオデモの中で、「お茶を飲む」という動作は最も奇妙ではなく、私のように動作しているようにも見えます。

仕事にやる気が出ないとき、お茶を飲むのが人生を生き生きさせる一番の方法です。私たちの意見では、お茶が目の前にあるときにだけ口を開けるのであれば、お茶を飲まないほうがよいでしょう。

ヒューマノイドロボットである Alter3 が人間のように振る舞うのを見るのはちょっと面白いので、何か他のものを試してみませんか?

たとえば、音楽に反応して揺れるヘビ：

ほら、そんなに柔軟じゃないけど、確実に胴体を全力でねじっています。ヘビのクレイジーバージョンとも言えるでしょう。

この観点から、ヒューマノイドロボットを GPT-4 に直接統合することは可能ですが、美観が十分ではありません...

実際、振り返ってみると、科学者や研究者たちは今年、大型模型とロボットを組み合わせることに忙しくしていた。

ただし、通常の方法では、さらにトレーニングを行ってから、大規模な画像言語モデルの機能と知識をロボット工学の分野に移転しようとします。

Microsoft の ChatGPT for Robotics、Google の PaLm-E、RT-1、RT-2、VoxPoser、BoboCat など、多くの作品がこのルートをたどっています。

中でもセンセーショナルなGoogle RT （ロボットトランスフォーマー）シリーズは非常に効果的でしたが、Googleがこれを訓練し、13台のロボットから13万のロボット固有のデータを収集するのに17か月かかりました。普通のチームがそれだけの資金とエネルギーを持つことは困難です。

今年半ば、フェイフェイ・リーのチームは、具現化された知能の成果をさらに一歩進めました。LLM （大規模言語モデル） + VLM （視覚言語モデル）を組み合わせることで、ロボットの環境との相互作用能力がさらに強化されました。

このアイデアにより、ロボットはタスクを完了するために追加のデータやトレーニングを必要としません。

しかし、フェイフェイ・リー氏のチームが提供したデモのハードウェアは、単なるロボットアームです。今日紹介する研究では、実験対象は世界最強の大型モデルであるGPT-4と、その「本体」となるAlter3です。

OpenAIが開発したGPT-4にしろ、東京大学と日本の「ロボット工学の父」黒石宏氏が共同開発したヒューマノイドロボットAlter3にしろ、それらは既存の研究成果だ。

この研究の真の目的は、GPT-4 のような大規模モデルを使用してヒューマノイドロボットを制御し、プログラミングなしでさまざまなアクションを完了する方法を探り、GPT-4 がアクションを生成し、人間とコンピューターの相互作用の複雑さを軽減する能力を検証することです。

この一連の実績のおかげで、Alter3は上記のような様々な複雑なアクションを完成することができるのです（完成度や鑑賞体験については今は置いておきます）。

もうひとつは、研究者が Alter3 と GPT-4 を統合したところ、Alter3 に同じ指示を与えても、返される動作が毎回同じではないことがわかったことです。

いくつかの分析の後、彼らはこれが大規模言語モデル自体の特性に関連していると考えています。つまり、同じ入力が異なる出力に対応する可能性があるということですが、GPT-4がヒューマノイドロボットをうまく制御できないことを意味するわけではありません。

たとえば、ロボットに「食べる」ように指示すると、ロボットはそれぞれ箸で食べる、ナイフとフォークで食べるという異なる動作を実行する場合があります。

では、GPT-4 は文の入力を受け取るとすぐに Alter3 を制御する方法をどのようにして知るのでしょうか?

鍵となるのは2段階のプロンプトワードに頼ることです

実際、GPT-4に接続される前から、Alter3 の身体には脳（AI ニューラルネットワーク）とさまざまなセンサーが搭載されていました。

これまで、Alter3 の動作は主に内蔵の CPG (Central Pattern Generator)に依存してセンサーからのデータを分析し、体内の 43 個の空気圧装置を一定の順序で駆動して対応するアクションを完了していました。

多くの場合、プロセス全体では、パッチを追加したり改善を加えたりするために人による介入が必要になります。

しかし！今ではすべてが変わり、研究チームはGPT-4の統合によって解放されたと述べている。

音声コマンドを使用して Alter3 を操作できるようになりました。これを支える主なテクノロジーは次のとおりです。

CoT（思考の連鎖）、ゼロショット（ゼロショット学習）。

これら 2 つのテクノロジーを利用することで、Alter3 の制御はハードウェア自体に完全に依存するのではなく、GPT-4 を使用して自然言語をロボットが理解して実行できるアクションに直接変換できるようになります。

何よりも素晴らしいのは、プロセス全体を通じて、体のどの部分も明示的にプログラミングする必要がないことです。

さて、GPT-4 と Alter3 を統合する方法について具体的に説明しましょう。

大まかに2つのステップに分けられます。

まず、プロンプトを使用して、「自撮りをしましょう」や「自撮りをするときは腕をもっと高く上げましょう」など、Alter3 に実行してほしい動作やアクションを説明します。

入力を受け取った後、GPT-4 は一連の思考ステップを生成し、このアクションを完了するために何を完了する必要があるかを詳しく説明します。

このプロセスは、研究チームが CoT と呼ぶものの一部であり、複雑なタスクを一連のより単純な思考ステップに分解します。

次に、研究者は別のプロンプトを使用して、詳細な手順をAlter3が理解できるアクション指示に変換しました。

簡単に言えば、これは人々のコマンド記述を Python コードに変換し、それを使用して Alter3 のさまざまな体の部分の特定の動作パラメータを直接制御できます。

変換されたコードを使用すると、Alter3 は好きなように顔をしかめたり、口を尖らせたりすることができます。

研究チームは、この 2 番目のステップは「抽象的な記述を具体的な操作に変換する」ことを実現するため、CoT の一部であると考えています。

研究チームによると、CoTによりGPT-4はAlter3を効果的に制御できるようになり、追加のトレーニングや微調整なしにさまざまな複雑なアクションを実行するよう指示できるという。

さらに少し言うと、ロボット制御を解決するための上記の 2 つのプロンプトに加えて、研究チームは他のいくつかの研究も完了しました。

たとえば、会話の軌跡と意味の時間的進化に焦点を当てて、会話における Alter3 の動作を分析できます。

会話の軌跡については、研究チームはUMAP （Uniform Manifold approximation and Projection）と呼ばれる手法を使用しました。チームは会話を 2 次元空間に埋め込み、この簡略化されたバージョンの会話がどのように展開するかを観察しやすくしました。

会話の順序が固定されている場合、会話の軌跡は循環的なパターンを示し、同じ話題が何度も繰り返されることを発見しました。

会話の順序がランダムであれば、会話の内容はより多様化したり創造的になったりします。

興味深いことに、この研究では、長時間チャットした後、GPT-4 は「さようなら」を繰り返し言う傾向があることがわかりました。少し介入しないと、あなたに別れを告げる方法を見つけることに夢中になります。

意味の時間進化分析のプロセスにおいて、チームは時間の経過に伴うチャット内容の変化を観察しました。

会話の初期段階での「芸術」や「学習」などのいくつかのキーワードは、会話が進むにつれて GPT-4 によって忘れられ、「文化」、「人間」、「抑制」などの単語に置き換えられることを発見しました。

これは、会話の内容が徐々に発展し、変化していることを示唆しています。

もちろん、GPT-4 に「さようなら」を言い始めると、GPT-4 もあなたに「さようなら」を言いたくなるでしょう～ (doge)

東京大学出身

インターネット上で人気となっているこの研究は、東京大学と日本のオルタナティブ・マシン社によるものです。

第一著者は東京大学広域システム科学専攻の吉田隆英氏です。

他の2人の著者、増森篤志氏と池上高志氏はともに東京大学に在籍し、オルタナティブ・マシン株式会社に所属しています。

最後に、この研究の主役であるAlter3について触れておかなければなりません。この研究者も東京大学の出身者です。東京大学のAI研究者である池上高志氏と、日本の「ロボット工学の父」である黒石宏氏が共同で開発しました。

Alter3は2020年に誕生し、同シリーズの第3世代ロボットです。

アルターシリーズの両方の反復はオペラの歌唱中に完成したと理解されています。三代目は新国立劇場でオーケストラを指揮し、その他ライブ公演に参加してデビューした。

当時はセンサーが強化され、歌唱表現や発声システムも向上した。

そして、体内の CPG は最終的に 43 個の空気圧装置を駆動することができます。

CPG のデータ分析はどの程度の精度ですか?つまり、Alter3 がいる部屋の温度が急に下がると、Alter3 は震えて寒いことを知らせます。

これは、GPT-4 を脳として接続した後に、鮮やかな表現をしたり、アクションを完了したりできるようになるための基礎にもなるかもしれません。

もう一つ

ヒューマノイドロボットに関する最新ニュースといえば、Ma の Tesla Optimus の最新の開発について触れなければなりません。

先ほどマスク氏はツイッターに突然オプティマスの動画を投稿し、第2世代オプティマスロボット（Gen 2）が今月発売されると述べた。

小さな改良点としては、第 2 世代のオプティマスの歩行速度が 30% 向上していることです。

バランスと体のコントロールも向上します。

楽しみにしています！

参考リンク:
[1] https://tnoinkwms.github.io/ALTER-LLM/.
[2] https://arxiv.org/abs/2312.06571.
[3]https://twitter.com/elonmusk/status/1734763060244386074.

<<: 人工知能産業は活況を呈しているが、スタートアップ企業は資金調達が難しくなっている

>>:

Tech Neo 11月号: コンテナプラットフォーム管理の実践

ブログ

GPT-4 を搭載した初のヒューマノイドロボット!プログラミングは不要 + ゼロショット学習、口頭フィードバックに基づいて動作を調整可能

大型模型＋ロボットの新たな試み

鍵となるのは2段階のプロンプトワードに頼ることです

東京大学出身

もう一つ

Tech Neo 11月号: コンテナプラットフォーム管理の実践

顔認識: 顔の主要な特徴の認識

心を込めてツイートしましょう！ Synchron 脳コンピューターインターフェースは ALS 患者が自分の考えで携帯電話を閲覧するのを助けます

10社にインタビュー、機械学習のインタビュー内容をまとめました

Tensorflow はディープラーニングに基づいて画像補完をどのように実装するのでしょうか?

コミュニティは顔認証システムを起動し、アクセスカードを無効にしました。情報セキュリティを心配し、登録を望まない所有者は帰宅に困難をきたしています。顔認証の強制適用の境界線はどこにあるのでしょうか？

ALS の少年がアリ数学コンテストで輝く!ブラックホールを研究するためにMITに独学で入学、指導者はホーキングと非常に似ている

旅の途中のハードウェアプロジェクトが公開されました。 Apple Vision Proのエンジニアがスーパーバイザーを務め、かつてはマスクの脳コンピューターインターフェース企業で働いていた

推薦する

自動運転について話しましょう

生成AIを精密コーディングに活用する方法

機械学習を簡単に理解！クラスタリング、回帰、分類アルゴリズムを説明する 3 つのケース

モデルの好みはサイズだけですか？上海交通大学は32の大規模モデルについて人間の嗜好の定量的要素を包括的に分析した。

「天機」が本日ネイチャー誌の表紙を飾る：清華大学のShi Luping氏のチームが世界初の異種融合脳型チップをリリース！

素人の私でも、機械学習コミュニティのこれらの問題が分かります

有機構造の画像を分子構造に変換するトランスフォーマーベースの人工ニューラルネットワーク

Googleは大規模モデルをより「インテリジェント」にし、GPT-4タスクの精度が大幅に向上しました。

人間よりも上手にゲームをプレイする：新しい強化学習アルゴリズムは、AIが真に知的な学習主体に進化するのに役立つ可能性があります

テクノロジー大手が自動運転市場への参入を急いでいる背景に、あなたが知らないことは何でしょうか?