マシンビジョンを超えて、ロボット認識完成計画

マシンビジョンを超えて、ロボット認識完成計画

人工知能の目標の 1 つは、コンピューターが人間の視覚、聴覚、触覚などの知覚能力をシミュレートし、画像、テキスト、音声などを見て、聞いて、読んで、理解できるようにすることです。これに基づいて、人工知能は思考し、行動する能力を持ち、最終的には人間と同じになります。

現在、人工知能ロボットの知覚能力は大きく進歩しました。ロボットは、マシンビジョンに基づいて、画像認識、ターゲット検出、テキスト認識などの一連の機能を実現できます。これらは広く使用されています。自然言語処理に基づいて、ロボットは基本的な音声理解、機械翻訳、音声会話などを実行できます。機械タッチに基づいて、ロボットは柔軟な物体認識、つかむ、押すなどの動作を実現できます。

[[341980]]

単一の知覚または知覚能力が互いに通信できないことが、現在の人工知能ロボットが人間のようなブレークスルーを達成できない主な理由となっています。つまり、単一の知覚能力と単一のタスクに関しては、ロボットの精度、安定性、耐久性は人間をはるかに上回っているかもしれませんが、複数のプロセスを含む複雑なタスクを完了すると、ロボットは人間のパフォーマンスにはるかに劣ります。

人工知能ロボットが質的発展を遂げるためには、感覚機能におけるマルチモーダル知覚融合を実現する必要があります。人工知能ロボットは、私たちがよく知っている機械視覚に加えて、機械触覚と聴覚においても飛躍的な進歩を遂げており、視覚、触覚、聴覚を統合することでロボットの知覚能力を大幅に向上させています。

人工知能ロボットに関して言えば、一般の人々は、ロボット革命がすぐに来るのではないかと高尚で非現実的な空想を抱くか、ロボットの一般的な能力に懐疑的で、ロボットが人間に取って代わることができるのは限られたシナリオだけだと考えているかのどちらかである。

人工知能ロボットの「現場」に深く入り込み、誇張や中傷なしでロボットの知覚能力の発展を見ることによってのみ、現在のロボット知覚完成計画の本当の進捗状況を知ることができます。

マシンビジョンとマシンタッチ

地球上で最も知的な生物である人間は、情報の 83% を視覚から、11% を聴覚から、3.5% を嗅覚から、1.5% を触覚から、1% を味覚から得ています。

これら 5 つの感覚のうち、不幸にも 1 つしか保持できなかったとしたら、おそらく視覚を保持するでしょう。私たちの脳にある約 1,000 億のニューロンのほとんどが視覚情報を処理していることを知っておく必要があります。すべての知覚情報の中で、動的な視覚情報は最も複雑であり、人間は「休息」するために目を閉じて積極的に自分自身を隔離する必要があるほどです。

視覚情報の重要性と複雑さのため、自然言語処理に加えて、当社の人工知能技術の開発は主にマシンビジョンに重点を置いています。

[[341981]]

今回、画像認識の画期的な進歩により、人工知能の波が再び到来しました。現在、マシンビジョンは産業、セキュリティ、日用家電、交通などさまざまな分野で開花しており、AI画像認識機能を搭載したカメラも増えています。

ほとんどの人工知能ロボットには、視覚機能に加えて、触覚の助けを借りて、移動、歩行、把握する能力も必要です。多くの場合、単一の機能しか持たない自動化ロボットの場合、ロボットが休むことなく作業タスクを完了できるように、通常は固定パラメータ、移動軌跡、および把持力を設定するだけで済みます。しかし、人工知能ロボットは、さまざまな材質、形状、硬度の対象物に柔軟に適応する必要があり、このとき、機械視覚認識能力と物体の触覚判断の両方が必要になります。

[[341982]]

これまで、ほとんどのロボットによる把持ソリューションは、ロボットの視覚認識のみに依存していました。主な解決策は、データベースを介して画像マッチングを実行し、対象物体の状態と自身の動きをリアルタイムで監視し、最終的に適切な把持アルゴリズムを調整して物体の把持を完了することです。ただし、把持の接触力はマシンビジョンで置き換えることはできないため、機械には触覚知覚データも必要です。

人間と同じように、私たちは物体をつかもうとするときに、視覚と触覚という最も基本的な感覚能力を組み合わせて使います。視覚は光、影、視線の妨害などの要因により誤った判断につながる可能性があるため、私たちは通常、物体の完全な認識を得るために皮膚の触覚をより効果的に使用します。

[[341983]]

人体の触覚知覚も生体電気信号反応の非常に複雑なプロセスであるため、機械に触覚機能を与えるには、非常に複雑な処理も必要になります。人体の触覚反応をシミュレートするには、ロボットの触覚センサーが物体の質感、滑らかさ、形状をデジタルでシミュレートし、圧力と振動の信号をコンピューターで処理できるデータ信号に変換して、触覚アルゴリズムをトレーニングできる必要があります。

機械タッチの難しさは、触覚センサーで得られる掴みなどの微細な振動を認識することにあります。物体を掴むことで生じる滑り振動と、物体と他の物体との摩擦によって生じる振動を識別できなければなりません。また、異なる物体の振動を区別できなければなりません。これらは、研究者が克服することに重点を置いている難しさです。

[[341984]]

画期的な進歩を遂げるには、既存の圧力センサーよりも優れ、柔軟な素材に埋め込んで人間の皮膚のような人工皮膚を実現できる、より優れた触覚センサーが必要です。

最近、シンガポール国立大学の2人の研究者が、生物学的ニューラルネットワークをシミュレートでき、IntelのLoihiニューロモルフィックプロセッサ上で動作する人工脳に搭載された人工皮膚を開発した。この技術を基に、研究チームはロボットアームの点字読み取りテストに合格しました。同時に、視覚センサーとこの人工皮膚の助けにより、ロボットアームの把持能力も大幅に向上しました。将来、この触覚能力をベースにしたロボットは、アイテムの仕分けのプロセスにおいて、より柔軟で、細心の注意を払い、より安全に作業できるようになります。介護業界では、人間に対してより優れたケアと支援を提供できるようになります。外科用ロボットでは、手術をより自動化できるようになります。

視覚と触覚を組み合わせることでロボットの知覚を向上させることが可能になりました。では、聴覚能力の統合はどのような効果をもたらすのでしょうか。

機械聴覚補完

ここでの機械聴覚は、特に人間の音声の認識を指すものではありません。このタイプの音声認識は、さまざまな消費者向けスマートスピーカーやその他の分野で広く使用されています。ここでの機械聴覚とは、音センサーを通してあらゆる物体が発する音を判断することを指します。

[[341985]]
(大型トラックのギアボックスの聴覚診断)

機械視覚による物体の単純かつ直接的な判断と比較すると、機械聴覚は確かに人々が常に見落としてきた領域です。私たちは日常生活において、視覚を使って物体の距離、色、大きさを判断するだけでなく、聴覚を使って物体の距離や質感を識別したり、出来事の発生を推測したりすることが一般的です。これは視覚障害のある人にとって特に重要です。

最近、カーネギーメロン大学(CMU)の研究者たちは、聴覚知覚を追加することで人工知能ロボットの知覚能力を大幅に向上できることを発見しました。

これは、CMU のロボット工学研究所の研究者による、音とロボットの動きの相互作用に関する初の大規模な研究です。研究者たちは、異なる物体が発する音は、ロボットが金属製のドライバーや金属製のレンチなどの物体を区別するのに役立つことを発見した。機械聴覚は、ロボットがどのような動作で音が出るかを判断したり、音を使って新しい物体の物理的特性を予測したりするのにも役立ちます。テストの結果、ロボットは聴覚を通じて76%の精度で物体を分類することができた。

このテストを実現するために、研究者らは、ロボットのトレイ上で滑ったり、転がったり、ぶつかったりする 60 個の一般的な物体との 15,000 回のやり取りのビデオと音声を記録して、大規模なデータセットを作成しました。

さらに、研究者は容器を振ったり材料をかき混ぜたりする音から、米やパスタなどの粒状物質の量や流れを推定することができます。明らかに、音を比較することで、視覚では予測できない多くの物理的特性を予測できます。

機械の聴覚では赤い四角と緑の四角を区別することはできませんが、2つの異なる物体を視覚的に確認できなくても、衝突の音で区別することができます。ここで機械聴覚が役に立ちます。結局、研究者たち自身も、物体を識別するために音を使うことの有効性に驚きました。

機械聴覚の応用に関して、研究者がまず思いつくのは、将来のロボットの装備に杖を追加し、杖で物体を叩くことで物体を識別するというものです。これは興味深いイメージです。しかし、機械聴覚が将来のスマートセキュリティ、パイプライン検出、身体検出においてより大きな役割を果たすようになると考えられます。さらに、これらのアプリケーションは、音楽、感情、その他のサウンドコンテンツなど、最も意味のある人間の音を識別するという点では、さらに広範囲にわたります。

ロボットにおけるマルチモーダル知覚融合の応用展望

人間にとって感覚器官が重要であるのと同様に、ロボットにとっても知覚システムは同様に重要です。

ご存知のとおり、私たち人間は情報を得るために 1 つの感覚だけを使うことはほとんどなく、行動を導くために 1 つの感覚だけを使うこともほとんどありません。これは「登る・走る・泳ぐ」という3つの要素が1つになった競技のようなもので、1つの競技ではサルやヒョウ、イルカに勝つことはできないかもしれませんが、ゲーム全体では、人間は3つの競技を同時に完了することができます。人間が物事を認識するとき、通常は複数の感覚を同時に使用し、互いに連携し、複数回検証することで外部の対象に対する認識を深めます。より複雑な事柄については、記憶や推論などの合理的な認知能力に頼って知覚したものを処理し、より複雑な認知を得る必要さえあります。

[[341986]]

人間の多感覚応用と比較すると、ロボットの単一の知覚または単純な知覚能力の組み合わせであり、現在のロボットの知覚認識モードは依然としてアルゴリズムモデルによる知覚データの分析と比較に基づいているため、より複雑な推論知識を生成することは困難です。そのため、ロボットは認知の複雑さでは人間よりわずかに劣りますが、物体認識の精度と規模では人間をはるかに上回ります。

現在、マルチモーダル知覚融合の進歩により、ロボットは認知の複雑さの点で徐々に人間の能力に近づくことができるようになります。将来のロボットは、照明や遮蔽、ノイズや残響、動きや類似性などの複雑なインタラクティブなシナリオをより簡単に処理できるようになり、明らかな利点を持つさまざまな現実世界のアプリケーションにつながります。

マルチモーダル知覚融合は、次の分野に適用できます。

  • 精密手術に特化した分野。例えば、難易度の高い外科手術の分野では、手術ロボットは対象を正確に観察し、関連する組織を分離・固定することで、外科医よりも精密な外科手術を行うことができます。
  • 高リスクまたは高難易度のロボット操作。例えば、危険物の取り扱いや除去、パイプラインなど一般人が立ち入ることができない難所の点検や保守、地下墓所や海底からの遺物の取り扱いや引き揚げ、機械聴覚による密閉空間での音の検知などです。

セキュリティ、災害救助、緊急対応など、柔軟な対応が求められるシナリオは、マルチセンサーシステムを搭載したロボットや、人間と機械の協調による遠隔処理に徐々に引き継がれるようになります。

さらに、ロボットの知覚融合能力の向上により、ロボットは包括的な知覚データに基づいてトレーニングすることで、人間自身の複雑さをよりよく理解できるようになり、特に、より複雑な感情コンピューティングモデルを確立し、顔の表情、声、皮膚温度、体の動きなどから人間が伝える感情信号をよりよく理解できるようになり、より高度な人間とコンピューターのインタラクションの新たな可能性が提供されます。

[[341987]]

現在、人工知能ロボットは依然として複雑なシステム工学です。ロボットのマルチモーダル知覚融合を実現するには、センサー性能、アルゴリズム連携、マルチモーダルタスク、環境テストなどの側面に関する総合的な研究が必要です。

このプロセスは間違いなく非常に困難ですが、結果が達成された後の未来は間違いなく明るいものになるでしょう。人間とロボットが調和して暮らす未来を待ち望む私たちは、当然、ロボットが冷たい機械ではなくなることを期待しています。

<<:  6つの主要なソートアルゴリズム

>>:  李開復は「口を滑らせた」と言ったのか? AIデータのプライバシーが心配です!

ブログ    
ブログ    

推薦する

...

QQがスーパーQQショーを開始:3D HDモデルが顔認識AIフェイスピンチをサポート

2月10日、QQ誕生23周年にあたり、テンセントQQチームは、これまでのテスト段階を経て、スーパー...

4つのレベルから見た人工知能の経済分析

[51CTO.com クイック翻訳] 人工知能 (AI) システムは経済を変え、大量の失業と巨大な独...

...

質問応答をより自然にする - コピーと検索メカニズムに基づく自然な回答生成システムの研究

機械を人間と同じくらい賢くすることは、常に研究者の目標でした。知能の概念を正確に定義することは難しい...

...

アリペイは65歳以上の高齢者が直接人間サービスを利用できる専用ホットラインを立ち上げた。

IT Homeは2月9日、「高齢者のデジタル適応力に関する調査報告」によると、スマートフォンを使用...

AIが「ツール人」を救う: RPA+AIがすべてを自動化

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

プリンストン大学とインテルは、ResNetよりも大幅に高速で正確なParNetを提案している。

[[434088]]深さはディープ ニューラル ネットワークの鍵となりますが、深さが増すと、順次計...

ディープラーニングモデルは「大きいほど良い」というわけではなく、気候変動問題を引き起こす可能性がある

今月初め、OpenAIは、史上最大の人工知能モデルを構築したと発表した。これは「GPT-3」と名付け...

人工知能に関してどのような基礎教育が必要でしょうか?

人工知能の基礎教育を強化することは、将来の社会の発展に備えるための避けられない選択であり、要件です。...

2018 年に人工知能アプリケーションはどのように実装されるのでしょうか?

[[229403]]現在の人工知能の発展は「実用的な」段階に入っています。 2018年の初め、国家...

メモリ帯域幅とコンピューティング能力、どちらがディープラーニング実行パフォーマンスの鍵となるのでしょうか?

モデルのハードウェア要件に関して、まず頭に浮かぶのは計算量、つまりディープラーニング モデルがフィー...

130 の大学が人工知能専攻を追加。次の「陥没穴」専攻になるのでしょうか?

大学の専攻の盛衰は、時代の発展と技術の進歩を最もよく物語る証拠でもあります。今日のいわゆる「落とし穴...