天才少年・志慧君が志遠ロボットとともに会場に入場!脳としてAIモデル、目標価格は20万以下

天才少年・志慧君が志遠ロボットとともに会場に入場!脳としてAIモデル、目標価格は20万以下

Huaweiの才能あふれる若者Zhihuiの起業家デビューがついに登場!

観衆の注目が集まる中、「Expedition A1」はステージに上がり、Cポジションにしっかりと立ち、チームスタッフに囲まれて写真を撮りました。

3日前、志会君は「鳩王の半年の期間が到来しました。金曜日に会いましょう」という通知を出した。ほんの数語で業界全体が沸き立った。

今日、彼は我々を失望させなかった。半年も姿を消していた「ワイルド・アイアンマン」が、大きなものを携えて帰ってきた。

ロボットに家事を任せるにはどうすればいいでしょうか?

冒頭、知慧は初めて私たちに「知源」の意味を正式に紹介しました。

「智」は知恵を意味し、「元」は人の象形文字を意味し、人の2本の足を表しています。英語名「AGI+Bot」からも、その大きな野心がうかがえます。

過去6か月間、ChatGPTはLLMのトレンドをリードしてきましたが、Zhiyuanがやりたいのは、人間と同じくらい柔軟性のあるロボットを作成することです。最終的な目標は、インテリジェントロボットを人間の生産性の最大の原動力にすることです。

Zhihui Jun 氏は、誰もがよく言うジョークを引用しました。「私たちが AI にやってほしいことは、料理、部屋の掃除、洗濯、ゴミ出しですが、実際に AI がやっているのは、チャット、絵、文章、作曲、ゲームなどです...」

では、ロボットを家事の手伝いをしたり、人間に代わってお金を稼いでくれたり、娯楽や詩を書いたり絵を描いたりする時間を残してくれたりと、人間にとって本当に役立つものにするにはどうしたらいいのでしょうか。

これには、AI とロボット工学技術の深い統合が必要です。このようなタスクには、環境の理解、文脈的推論、物体認識、動作計画などの複雑な技術的課題が伴います。

これらの複雑なタスクは、ハードウェアやソフトウェアの問題ではなく、システムのハードウェア、ソフトウェア、アルゴリズムの包括的な調整の問題です。

次に、Zhihui氏は、一般的なヒューマノイドロボットのボディと具現化された知能に関して、チームが過去数か月間に達成した段階的な進歩を紹介しました。

なぜヒューマノイドロボットを作るのですか?

ヒューマノイドロボットを作るすべてのチームに、この質問が投げかけられます。「なぜ人間の形をしたロボットを作るのですか?」

知輝軍氏はその理由について、「第一原理から言えば、ヒューマノイド二足歩行ロボットは人間環境における最も普遍的な究極形態である」と述べた。

私たちが暮らす現実世界のさまざまな場面、設備、作業、道具はすべて、人体に合わせて作られています。

ロボットが人間に似ていて、同様の身体構造と能力を持っている場合にのみ、ロボットに何ら変更を加えることなく、人間の生活環境や作業環境にうまく溶け込むことができます。

ロボットが人間のようであれば、人間とコンピュータの相互作用や感情的な友情を実現でき、さらには危険な環境で人間に代わる大きな役割を果たすことさえできるでしょう。

もちろん、特定の構造化されたシナリオでは、他の形態のロボットも実用的な価値をもたらすだろうと志慧軍氏は述べた。

しかし、ロボットが人間の行動を模倣し、微細な動作制御と調整を実行できるようにするのは世界的な課題であり、機械設計、動作制御、感覚フィードバックにおける技術的な進歩が必要です。

有名なモラベックのパラドックスは、ロボットに人間の名人のようにチェスをプレイさせることは比較的簡単だが、機械に 1 歳児の知覚と行動能力を持たせることは非常に難しいということを教えてくれます。

智遠にとって、困難を克服したいのであれば、ロボットのハードウェア設計とアルゴリズムの蓄積において突破口を開く必要がある。

ハードウェア設計

Expedition A1 のハードウェア設計では、ボディ全体に 49 以上の自由度があり、ハーモニック統合ジョイント、リニア アクチュエータ、ブラシレス プラネタリー サーボ、アイドル カップ モーターなどのアクチュエータが装備されています。

これらのアクチュエータは、人間の関節と同様に、さまざまな動きを実行する際の人間の柔軟性を決定しますが、ロボットについても同様です。

コアジョイント

ヒューマノイドロボットにとって最も重要なのは脚の関節、つまりモーターです。

ここで、Zhiyuan は自社開発のコアジョイントである PowerFlow ジョイントモーターも実現しました。

高感度ロボットの関節には、小型、軽量、十分に高い電力密度、高いエネルギー利用効率、高い応答帯域幅などの特性が必要です。

これは従来のホイールモーターの要件とは異なります。

ロボットのコアジョイントは、将来的に大規模量産と低コスト製造を実現するための重要な閾値の1つです。

アルゴリズム制御設計と各種パラメータの順方向解析により、各関節に必要なトルク回転曲線が得られました。

パラメータに基づいて、一連の革新と最適化を施した PowerFlow 多関節モーターを設計しました。ラジアルフラックスアウターローターモーターソリューションを採用しており、将来的には軸方向フラックスバージョンも登場する予定です。

より高い電力密度を実現するために、ジョイントモデルグループは、このような小さなパッケージに液体冷却循環放熱システムを革新的に統合しています。

自社開発のベクトル制御ドライバーを内蔵しており、全体の制御トルクは容易に 350Nm を超えます。

水冷の助けにより、制御されたトルク出力をより長時間維持することができます。

さらに、Expedition A1は人間のように膝を前に曲げるのではなく、「アンチジョイント設計」を採用していることもわかります。

志慧軍氏は、このロボットを設計した当初の意図は、さまざまな実際のミッションシナリオで使用することだったと説明した。

現在のロボット関節の自由度は十分ではないため、反関節設計ではスペースが広くなり、作業に適しています。

器用な手

Zhiyuan の目標はロボットがさまざまな生産性シナリオに参加できるようにすることです。そのため、もう 1 つの重要なコア コンポーネントは「器用な手」です。

この独自開発の「器用な手」には、12 のアクティブ自由度と 5 つのパッシブ自由度があり、すべてのドライブが内蔵されています。

精密製造に使用されるため、チームは、操作する物体の色、形状、材質を識別できる視覚ベースの指先センサーを指先に統合しました。

さらに、アルゴリズムによるデータ融合に基づいて触覚を近似する圧力センサーの効果も実現できます。

同時に、指先センサー視覚閉ループの革新的な設計により、エンドポイント視覚閉ループを実現できるため、モーター全体の精度要件が軽減されます。

上記のコンポーネントに加えて、Expedition A1 には、一連のセンシング要素、コンピューティング システム、およびサポートする具体化されたインテリジェント フレームワークも装備されています。

したがって、これらのコンポーネントを効率的に組み合わせることで、優れた知能と強力な手足を備えたロボットの開発プラットフォームが実現します。

モジュラー設計

デバイスのハードウェア パラメータに加えて、チームはモジュール設計の概念をマシン全体の設計にも取り入れました。

ロボットは足で動くだけでなく、車輪付きのシャーシも備えており、さまざまな形態に自由に組み合わせることができ、将来的には車輪付きと足で動くモデルも登場するでしょう。

これについて、志慧軍は、みんなが哪哪の進捗状況をとても心配していることを知っていると述べ、後で関連ビデオをみんなに見せると語った。

さらに、上半身と下半身の組み合わせに加え、先端の器用なハンドにより自律的な交換もサポートします。

シナリオによっては、ドライバーや電動ドリルなどのさまざまな特殊なツールの方が適している場合があります。

つまり、各主要コンポーネントは個別に使用することも、組み合わせて使用​​することもできます。これらを組み合わせるとロボットが構成され、個別に組み合わせると無数の AI 機械ツールが構成されます。

これは汎用性を反映しています。

操作および制御アルゴリズム

優れたハードウェア プラットフォームを基盤として、次のステップはコア操作と制御アルゴリズムです。

6 か月の研究開発期間中、アルゴリズムは、初期の IQP から CMPC、線形 NMPC、そして最近使用された非線形 NMPC まで、3 つのバージョンの操作および制御アルゴリズムを急速に繰り返しました。

また、現在では様々な学習手法に基づいて強化学習アルゴリズムが開発されています。

Zhiyuan は現在、業界でトップクラスのアルゴリズム研究開発能力を備えていると言えます。

同時に、Zhiyuan はオフライン軌道最適化プラットフォームも構築しています。

ボストン・ダイナミクスの犬のようなトップクラスの海外ロボットチームは、ダンスやパルクールといった一連の難しい動きを実行することができる。これはZhiyuanにとって難しい問題ではありません。

志慧軍氏は、他のチームとの違いは、これらの機能を実現する前に、ロボットのコストを20万元以内に抑えて、実際に実装できるようにしたいと考えていることだと語った。

では、汎用ロボットの量産化を実現するにはどうすればよいのでしょうか?私たちは「具現化された知能技術」について最初に言ったことに立ち返る必要があります。

智遠は、ハードウェアそのものが前提条件であり、それよりも重要なのはその背後にあるロボットの「AI頭脳」であると考えている。

大規模言語モデル技術の急速な発展により、ロボットが自律的に環境を認識し、タスクを理解し、動作を振り付け、一連のプロセスを完了することが可能になりました。

そのため、Zhihuijun氏は「今はChatGPTだけでなくWorkGPTも必要です」と述べました。

ワークGPT

超大規模データに基づいて事前トレーニングされた大規模な言語モデルと画像モデルには、強力な意味理解、論理的推論、画像認識、コード生成機能があることがわかっています。

これらの機能は、現実の物理世界でさまざまな複雑なタスクを実行する必要がある汎用ロボットにとって非常に重要です。

しかし、大規模なマルチモーダルモデルの機能を活用して、ロボットの微妙な動きの振り付けを可能にするにはどうすればよいでしょうか?これも現在非常に注目されている研究分野です。

下のビデオは少し前にとても人気がありました。

チームは、ロボットへの自然言語のエンドツーエンドのマッピングを実現し、ロボットが自然言語を使用してタスク全体を調整し、タスクを動的に調整できるようにしました。

ロボットと大型モデルの組み合わせに関する Zhiyuan の基本的な理解は、ロボット工学の応用における言語と画像の大型モデルの最大の価値は次のとおりであるということです。

1 つ目は、大きなモデルに組み込まれた膨大な事前知識ベースと強力な一般理解能力です。

たとえば、ロボットにテーブルの上のゴミをゴミ箱に捨てるように指示する場合、ゴミとは何か、ゴミ箱とは何かをロボットに伝える必要はもうありません。すべての知識は GPT モデルで事前にトレーニングされており、事前の知識があります。

したがって、大規模モデルの出現により、ロボットは本来の能力をより一般的なシナリオに一般化できるようになります。

2 つ目のポイントは、大規模モデルの複雑な意味的多段階推論能力、いわゆる「思考連鎖」です。

たとえば、ビデオの右側では、ロボットがブロックに対して一連の操作を実行する必要があります。

青いブロックを赤いブロックの上に置くように指示します。非常に簡単です。しかし、青いブロックを赤いブロックの下に置くように指示すると、複雑になります。

重力とは何か、物体は空中に浮かばないということ、そして多段階の操作を通じてこのタスクを達成するにはどうすればよいのかを理解する必要があります。これは典型的な多段階の推論思考連鎖プロセスです。

知慧軍氏は、ビッグモデル時代の到来により、ビッグモデルの一般知識と推論能力を活用することで、汎用ロボットに希望の光が見えてくると語った。

エルブレインフレームワーク

ロボットのエルブレインフレームワークは、クラウドスーパーブレイン、大脳、小脳、脳幹に分けられます。

脳は、論理的推論や思考能力などの AI 支援による抽象的思考機能を提供し、ロボットのタスクレベルおよびスキルレベルのスケジュール作成を完了します。

たとえば、「玄関に荷物があるかどうかを確認する」などのタスクを計画し、その後、経路の計画、ドアの開閉、物体の掴みと放しなどの特定のアクションを実行します。

クライアント側に展開されたモデルの一般化機能が不十分な場合は、クラウドベースのスーパーブレインと組み合わせて、より複雑なタスクスケジューリング機能をオンラインで実現できます。

小脳は運動制御コマンドを生成する役割を担っています。

人間が歩くときと同じように、脳は前進や後退といったマクロ的な命令のみを出し、バランスや運動を制御するには小脳が必要です。

ロボットの場合、小脳は主にコマンドレベルの制御、上半身の姿勢の設定、指の関節の動きの制御、頭の姿勢の制御などを担っています。

脳幹レベルは、基礎にある運動制御能力の問題を解決する役割を主に担っています。

たとえば、すべてのモーターの制御、電流ループ、速度ループ、位置ループなどです。

スキルレベルのモデルレベルでは、チームはメタスキルと呼ばれる一連の言語操作を定義しました。

メタスキルの開発は、知能運転におけるL1からL5までのプロセス全体に似ています。あらゆるシーンで使えるロボットを実現したいのであれば、ワンステップのプロセスでは不十分です。

言語操作ライブラリによって定義された限定された範囲内で、ロボットは自律的な推論と意思決定を実現し、エンドツーエンドのタスクオーケストレーションを完了できます。

言語操作機能ライブラリが拡大し続けると、ロボットが実行できるタスクの領域が飛躍的に拡大する可能性があります。

インタラクション プロセス中に成長を続け、最終的に完全なシナリオ タスク カバレッジを達成します。

商業着陸

知慧軍氏は、知遠ロボットは最もクールなロボットであるだけでなく、最も実用的なロボットでもあると述べた。

また、チームは当初から事業化を目指していたため、3C製造、自動車製造など工業製造分野を主なターゲットとし、迅速に産業化を推進しました。

現在、関連業界における国内有数の企業と既に提携しております。

エコシステム構築

生態環境の構築には、インフラストラクチャと開発者のインセンティブが含まれます。

チームは、開発者にロボット開発キット、HDK、SDK 全体を提供するだけでなく、開発者が二次開発を行うための基本的な事前トレーニング済みの大規模モデル、AgiROS バイオニック プラットフォーム、低コストの教育用ハードウェアも提供します。

同時に、人材を引き付けるために「知源探検隊」と呼ばれる人材計画が開始されます。

半年で0から1へ

最後に、志輝氏は過去6か月間の自身の精神的な旅を振り返りました。

2月末に会社を設立し、プロジェクトが承認されチームが結成されました。

0から1までの完全なプロトタイプの研究開発プロセスを完了するのに、わずか半年しかかかりませんでした。

志慧軍氏は、このような高い研究開発効率は、ロボット業界全体においても非常に爆発的であると述べました。

この 6 か月間、チームは従来の考え方に挑戦し、さまざまな枠組みを打ち破り、これまでにない革新的なソリューションを数多く試しました。各ステップは新たな探求でした。

以下の写真には、過去 6 か月間のチームの進捗の詳細がすべて記録されています。

記者会見の終わりに、智恵氏は「人は夢を持っているからこそ偉大になれる」と個人的な思いを皆に伝えた。

彼は、いつの日か、SF映画のような知能ロボットが本当に実現されることを望んでいます。

これらのロボットはもはや単なる自律型デバイスではなく、私たちの世界を知覚して理解し、人間と深くコミュニケーションして協力できる自己思考能力を備えたインテリジェントなパートナーです。

Yuanzheng A1 の発売は、Zhiyuan の卓越性の追求の出発点であり、人工知能ロボットの分野における重要な一歩となります。

<<: 

>>:  トランスフォーマーを完全に放棄し、八金剛の一人が新たなビジネスを始める!元Google Brainの責任者と協力し、自然にヒントを得た知能モデルを開発

ブログ    
ブログ    
ブログ    

推薦する

違反した企業は売上高の6%の罰金を科せられる可能性がある。EUは人工知能技術の監督を強化する予定だ。

海外メディアの報道によると、欧州委員会は最近、企業がEUの規則に違反し、禁止されている人工知能アプリ...

...

2018 年に人工知能があなたの生活、仕事、遊びに革命を起こす 8 つの方法

2017年、人工知能はあらゆる面でブームを巻き起こしました。イーロン・マスクからマーク・ザッカーバー...

脳コンピューターインターフェースツール:脳波からテキストまで、必要なのは機械翻訳モデルだけ

[[320655]]この記事はLeiphone.comから転載したものです。転載する場合は、Leip...

今年は人工知能と5Gの急速な共同開発が見られました

RedMonk は初めて言語人気ランキングで Java に取って代わり、Python が 2 位にな...

AIをやりたいのですが、開発ツールはどのように選べばいいですか?この入門ガイドはあなたのためのものです

[[207302]]現代の人工知能は企業に多くの利益をもたらすと同時に、機械の認知能力も大幅に向上さ...

2021年の人工知能トレンドに関する5つの予測

人工知能は人々の生活を変える可能性を秘めた分野です。ヘルスケア、ビジネス、金融、その他の分野での応用...

...

クラウドコンピューティングと人工知能の発展により、ITセキュリティは大幅に向上しました。

データ侵害が頻繁に起こるようになるにつれて、IT セキュリティの重要性がますます高まります。幸いなこ...

AI バイアス: なぜ起こるのか、そして企業はどのように修正できるのか

ビジネスや社会で AI の利用が広まるにつれ、企業は機械モデルに現れる人間の偏見に注意を払う必要があ...

RadOcc: レンダリング支援蒸留によるクロスモーダル占有知識の学習

原題: Radocc: レンダリング支援蒸留によるクロスモダリティ占有知識の学習論文リンク: htt...

音声における GPT の瞬間: Meta が複数のタスクを解決するための普遍的なモデルである「画期的な」生成音声システムをリリース

GPT や DALL-E などの大規模な生成モデルが自然言語処理やコンピューター ビジョンの研究に革...

フィンテックとAI: 金融におけるAIの活用方法

フィンテックの人工知能と機械学習技術は、大規模なデータセットをリアルタイムで分析し、改善を図るのに役...