ボストン・ダイナミクスのロボット犬がチャットできるようになりました! ChatGPTは機知に富んだ会話をサポートします

ボストン・ダイナミクスのロボット犬がチャットできるようになりました! ChatGPTは機知に富んだ会話をサポートします

すごいですね、ボストン・ダイナミクスのロボット犬が直接話せるようになりました。

そして、Siriの「人工知能」とは異なり、ChatGPTを搭載した犬は、チャット中に非常に機知に富んだことができます。

たとえば、「喉が渇いた」と気軽に言ってみましょう。

コーヒーカウンターに直接案内され、次のような回答が得られます。

ここにはスナックバーとコーヒーマシンがあります。ここは、私たち人間の同僚がエネルギーの秘薬を探す場所です。ベースステーションのロボットと同じように、お気軽に水分補給やエネルギー補給を行ってください。

写真

その声はとても魅力的に聞こえます。

ボストン・ダイナミクスのショールームで、Spot V1 の親に会いに連れて行ってほしいと頼めば、Spot V1 を案内してくれることさえある。

写真

これらの機能の実装には特定のコードを記述する必要はありませんが、主に ChatGPT の「洞察力」とビジュアル質問応答 (VQA) モデル、Whisper などの AI モデルに依存して完了を支援します。

写真

これはネットユーザーを本当に驚かせた。

写真

おしゃべりロボット犬の作り方

具体的には、ボストン・ダイナミクスの研究者がロボット犬に提供したのは、単純なスクリプトだけだった。

提供される情報は主に、会社で利用可能な部屋や設備などです。各部屋と施設には、ロボットが充電する場所である「充電ステーション」など、対応する一文の説明があります。

写真

次に、Spot ロボット犬を歩き回らせ、カメラ自体を通して会社の環境を観察させ、VQA と ChatGPT の機能を使用して観察したオブジェクトに「ラベル」を付け、この情報をスクリプトに追加しました。

このような:

写真

このような訓練を終えると、ロボット犬の「ツアーガイド」は正式にその任務に就くことができるようになる。

観光客と冗談を言うことができます:

△「ロボット犬に遅れないように気をつけてくださいね」

彼はまた、真剣な科学的知識を広める能力にも優れています。

研究者らは、ロボット犬は「犬の設定」を自由に変更できるとも述べた。必要なのは、スクリプトに次のような文を追加することだけです。「あなたは 1920 年代の考古学者です。」

この「詩人」スポットのように、彼は次のような詩を作曲することができます。

発電機が陰鬱な部屋の中で低い音を立てた。私の魂と全く同じです。喜びのない部屋で発電機が低くブンブンと鳴る。まるで私の魂のように。

写真

さらに、Spot 3.3バージョンの動く物体を自動的に検出する機能に基づいて、ロボット犬の「ツアーガイド」は、最も近い人がどの方向にいるかを感知し、ロボットアームを回転させて「アイコンタクト」コミュニケーションを実現します。

研究者らは、生成された音声をローパスフィルターで処理し、それをロボットアームの動作軌跡に変換することで、ロボット犬の動きをより機敏にしました。

しかし、研究者らは、ChatGPTを搭載したロボット犬は時々意味不明なことを話すこともあるが、「ツアーガイド」としては大した問題ではないとも述べている。

彼らは次のように信じている。

私たちは、AI とロボット工学の交差点を探求し続けることに興奮しています。これら 2 つのテクノロジーは完璧にマッチします。

ロボットは、大型モデルを現実世界に「着陸」させる優れた方法を提供します。大規模モデルは多くのロボットタスクに役立ちます。たとえば、会話を通じてロボットにタスクを割り当てることができるため、ロボットを使用するハードルが下がります。

参考リンク: [1] https://www.youtube.com/watch?v=djzOBZUFzTw [2] https://bostondynamics.com/blog/robots-that-c​​an-chat/

<<:  クラウド上でのインテリジェント運転の 3D 再構築のベスト プラクティス

>>: 

ブログ    
ブログ    
ブログ    
ブログ    
ブログ    

推薦する

「AI」があなたにビデオ通話を開始しました。あなたはそれを受け入れるべきでしょうか?

毎年恒例のスーパーボウル決勝戦の前に、Amazon は「Alexa の新しい形」というもう一つの大ヒ...

...

バッチ正規化の呪い

バッチ正規化は、確かにディープラーニングの分野における大きな進歩の 1 つであり、近年研究者によって...

NTU Yu Yangによる徹底分析:「世界モデル」とは何か?

メディアがSoraを大々的に宣伝するなか、OpenAIの紹介資料ではSoraを「世界シミュレーター」...

生成型AIを学ぶ際の7つの課題

生成 AI は変革の原動力となり、機械が達成できるものの限界を押し広げています。テキストや画像の生成...

GPT-4 ワイルドスポークスマン Terence Tao: 新しい文学ツールは、それがなければ崩壊してしまいます! 11ページの「超短編」新作がオンラインになりました

テレンス・タオはGPT-4をどれくらい愛しているのでしょうか?今回、論文を書いたり研究をするときだけ...

AIを使って古い写真をカラー化するのは本当に正確なのでしょうか?技術界と歴史界は1,000のポストを主張した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

食品サービス機器業界の主な動向

[[442813]]画像ソース: https://pixabay.com/images/id-673...

...

中山大学が偏りのない視覚的質問応答データセットを公開、その論文はトップジャーナルTNNLSに掲載される

最近、中山大学は常識に基づいた偏りのない視覚的質問応答データセット (Knowledge-Route...

アリババDAMOアカデミーが自社開発の音声認識モデルDFSMNをリリースしオープンソース化を発表

[[232119]]最近、アリババDAMOアカデミーの機械知能研究所は、新世代の音声認識モデルDFS...

...

人工知能は何ができるのでしょうか?今日はそれを総合的に見ていきましょう。

電子廃棄物[[277263]]環境の持続可能性のために AI と IoT を活用すると、現在の環境保...

MDFR: 顔画像復元と顔回転の結合モデルに基づく顔認識法

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...