感動して泣きました。ロボットはついに自分で服をたたむことを覚えました。

人間の子どもの最も基本的な運動知能、例えばつかむ、持ち上げる、あるいはキルトや衣服をたたむといった家事などを訓練したい場合、ほとんど指導は必要ありません。

多くの場合、赤ちゃんを日常生活の状況に置き、周囲の環境や物体とやりとりさせれば、ほとんどの赤ちゃんは遊びの中で空間、重力、協調性などを判断する能力を自動的に習得することができます。

[[253015]]

それに比べると、ロボットはもっと「甘やかされている」のです。

現在、ほとんどのロボットは複雑な環境に適応し、一般的な動作能力を学習することができません。

ここで問題が起こります。ロボットは、プログラマーが事前にプログラムしたいくつかのアクションを「不器用に」実行することしかできず、単一のオブジェクトを使用して単一のスキルを完了することしかできません。この特定のタスクと小道具がロボットの世界のすべてです。たとえば、カップを渡すことはできても、キルトを折ることはできません。

つまり、特定のタスクを処理するためだけに何千ものロボットを設計する必要があるかもしれないということです。これは本当に愚かなことだ。しかし、機械が自律的に世界を認識し、環境の変化に応じて対応する行動を取るように教えるのは、大規模なプロジェクトです。

最近、バークレー大学は視覚モデルの強化学習に基づく新しいアルゴリズムを開発し、万能ロボットを可能にしました。

つまり、本来人間に特有であった「メタ運動知能」が、機械においても発揮される可能性があるのだ。

ロボットが一般的なスキルを習得し、それを「経験」として内面化する能力を持つようになると、毎回再学習したりプログラミングしたりすることなく、さまざまな類似のタスクを柔軟に実行できるようになります。その見通しは明らかに驚くべき価値があります。

それで、このような奇跡的なことはどうやって起こったのでしょうか?

新しいアルゴリズムはどのようにして機械を動作させるのでしょうか?

つまり、このアルゴリズムは、ラベルのない感覚データセットを通じてメキシコを予測することができ、機械が多数の多様な画像を自律的に学習し、タスクを完了するときにより柔軟な予測と判断を行うことができます。これにより、各オブジェクトまたはタスクのアルゴリズムを再学習することなく、さまざまなオブジェクトに対してさまざまなタスクを実行できるようになります。

バークレーの研究者にとって、この一般的な運動能力を単一のモードで達成する能力は、知性の基本的な現れです。

では、この方法は具体的にどのようにロボットを誘導して作業を完了させるのでしょうか?

まず、研究者たちは、単一の物体やスキルに限定されない、ロボットのための大規模で豊富なデータセットを作成しました。

ロボットには、画像ピクセル（視覚）、腕の位置（自己認識）を感知し、モーターコマンド（動作）を送信できるさまざまなセンサーが搭載されました。

これらの準備が完了したら、2 台のロボットに同時にリソースライブラリでデータを収集して自律的に学習させ、リアルタイムで共有します。

2 台のロボットは互いの感覚とデータを共有できるため、次の腕の動きを予測する能力を獲得し、可動範囲の柔軟性が向上し、さまざまな種類の物体の操作を含むさまざまなタスクを実行できるようになります。

例えば、リンゴのような硬い物体を動かしたり、衣服のような柔軟な物体を折ったりする作業を機械に実行させたところ、ロボットは非常に優れたパフォーマンスを発揮しました。

[[253016]]

さらに、これまで見たことのないターゲットに直面した場合でも、予測は人間ほど完璧ではないものの、指定されたタスクを効果的に完了することができます。

たとえば、下の図では、研究者から与えられたタスクはリンゴを皿に置くことです。中央にはロボットが立てた計画と、その実行が示されています。

このアルゴリズムモデルは、そのアイデアが間違いなくユニークです。予想される結果に基づいて行動計画を立て、さまざまなステップと観察に基づいてリアルタイムで計画を繰り返して改善することは、複雑な世界で予期せぬ事態に対処するための人間独自のスキルです。最近では、ロボットもこのような「高知能」ゲームを学習することが期待されており、その応用範囲の変化は実に刺激的です。

機械効率の座標系の再構築：新しいモデルの適用シナリオ

実際の環境は複雑かつ多様です。この新しいアルゴリズムにより、ロボットの環境適応能力が向上し、タスクの実行がより柔軟になります。ロボットのアプリケーションに大きな想像力をもたらします。

*** のハイライトは、マシンの機能コンセプトがより現実に沿っていることです。一般的な機能はさまざまなタスクに簡単に転送できるため、特定のタスクを完了するために開発および展開する必要があるアルゴリズムの数が大幅に削減されます。

現時点では、新しいモデルは少なくとも以下の分野でロボットのパフォーマンスに革命をもたらすと思われます。

顧客サービスロボット。ほとんどのカスタマーサービスロボットは環境に適応できず、プログラマーがさまざまな状況を考慮する必要があります。中には、バックグラウンドで手動操作が必要なものもあります。しかし、一般的なモデルアルゴリズムを使用すると、ロボットは人間のユーザーとのやり取りを通じて自律的に学習し、いくつかのオープンエンドの問題を解決する方法を学び、より自律的かつ柔軟になります。
医療機器。現在、医療用ロボットは、外科手術の完了を支援する医師の手の延長として機能することしかできません。高精度な手術を自律的に実行し、医師の負担を軽減するためには、医療用ロボットが手術部位の空間的な位置を感知し、より高度で複雑な手術をこなす必要があります。新しいモデルは、明らかにより多くの可能性を提供します。
産業機械。産業用ロボットはすでにある程度の汎用性と適応性を備えていますが、作業環境の変化に対応するために再プログラムしたり、異なるタスクを実行するために異なるオペレーターを入れ替えたりする必要があり、一定のコストが発生します。新しいアルゴリズムが実際に適用されれば、工業生産のコストと効率は低下するでしょう。
パーソナライズされたビデオ生成。このアルゴリズムは、現実世界での動きの認識と予測の理解に加えて、ビデオ生成の分野でも大きな可能性を秘めています。例えば、ラベル付けを必要としない大量の動画リソースから自律的に学習し、動画内の登場人物の姿勢を認識して模倣することができるため、AIが高度に擬人化された動画をカスタマイズすることが可能になります。

一般的なスキルを習得した機械の用途は多く、その背後にあるビジネスの展望も非常に広いです。結局のところ、効率性は人間が機械を発明した本来の意図です。

果物を味わう前に克服しなければならない課題は何ですか?

いろいろ言ってみたものの、新アルゴリズムの実装は難しくなく、アプリケーション側も十分なサポート能力を備えていると感じています。それはすぐに現実になるのでしょうか？

現時点では、「桃を摘む」前に、アルゴリズムにはまだいくつかの特別な制限があり、実際の適用を妨げる可能性があります。

まず、必要なトレーニングデータの量が膨大です。実用的な予測を行う機械の能力は、大規模で多様なデータセットに完全に依存します。

研究者らは、機械が前のフレームの予測された動きの分布に基づいて次のピクセルの動きを想像し、シミュレートできるようにするために、大規模な自己教師学習のために 59,000 件のロボット相互作用のデータセットを導入しました。

コストを抑えながら、いかにして大量かつ高品質なデータリソースを取得するかが、アルゴリズム実装における最大のハードルとなるでしょう。

2つ目は、教師なし学習によってもたらされる一連の問題です。たとえば、トレーニングデータにはラベルや報酬メカニズムがないため、ロボットが割り当てられたタスクを理解して受け入れ、結果指向のアクションを実行できるようにする方法については、実際には不明な点が多くあります。

バークレーの解決策は、機械が目標に興味を持ち続け、それを追跡し続け、成功するまで再試行し続ける自己監視アルゴリズムを設定することです。しかし、安定した出力が得られるかどうかについては、さらなる研究が必要です。

たとえば、監視のない機械による予測は、人間が経験に基づいて説明することはできません。それらは最善の伝送ソリューションではない可能性があり、「ブラックボックス」による予測不可能なリスクをもたらす可能性があります。

私たち自身の「メタ知能」がどのように機能するかを理解していないのに、どうすれば機械の「メタ知能」をうまく制御できるのでしょうか?

全体として、このアルゴリズムは驚くべきものですが、完璧ではありません。想像力は美しく、実用性も悪くないが、研究室から商業の現場に至るまでにはまだまだ長い道のりがある。

<<: このような秩序だったニューロンは、皆さんがよくご存知の再帰型ニューラルネットワークに似ていますか?

>>: 2019年にロボット競争は減速するでしょうか?

ブログ

感動して泣きました。ロボットはついに自分で服をたたむことを覚えました。

eMule プロトコルスライス選択アルゴリズムの分析

ネットワークの構築から面接の最後の質問まで、AI企業に応募するための包括的なガイドをご紹介します

よく使われる「生成AIライブラリ」の総合ガイド

Jia Jiayaのチームが世界初の70B長文大規模言語モデルをオープンソース化し、ProMaxを使って論文や小説を直接読めるようにした。

解読: ボストンダイナミクスがアルゴリズムを使用してアトラスロボットの感覚世界を構築する方法

YouTube 動画推奨アルゴリズムを破る方法

感情AIが企業のITリーダーに希望をもたらす

推薦する

新たなAI詐欺事件が発覚！「人工知能」は「インテリジェントな人工知能」ほど優れていないのでしょうか?

デンマークのAIモデルは保険会社よりも正確に死亡率を予測し、乱用を懸念

AutoAI: ModelOps と DevOps を同期してデジタル変革を推進

小売業におけるロボット工学

アルトマン氏の地位は再び危険にさらされているのか？！ OpenAIの取締役会が競合他社の参加を呼びかけ、Google Geminiの幹部を引き抜いた

滴滴出行とスタンフォード人工知能研究所が協力

マイクロソフト：新しいアルゴリズムにより Windows 11 の累積アップデートのサイズが 40% 削減

AI アプリケーションをテストするにはどうすればいいですか?

データサイエンスにおける ML+ と DL+ の時代へようこそ

AI は銀行がますます激化する詐欺の競争に勝つためにどう役立つか