ニュースローン賞受賞者 宋 樹蘭: 視覚の観点からロボットの「目」を構築する

ニュースローン賞受賞者 宋 樹蘭: 視覚の観点からロボットの「目」を構築する

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

「洗濯や料理を手伝ってくれるロボットが家にあればいいのにとずっと思っていました。」

宋樹然はそれについて話しました。このビジョンを実現するためには、ロボットビジョンの研究が不可欠です。

近年、人工知能の分野では、コンピュータービジョンとロボットの「融合」が本格的に進んでいます。自動運転に限ってみても、アリババDAMOアカデミーの自動運転研究室の元所長である王剛氏や、中国大手のロボタクシー会社AutoXの創業者シャオ・ジエンシオン氏など、コンピュータービジョンのバックグラウンドを持つ研究者は数多くいる。

アルゴリズムアーキテクチャの観点から見ると、コンピュータービジョンの研究の可能性はすでに限界に達している可能性がありますが、ロボットの応用においては、コンピュータービジョンには依然として大きな可能性があると一般に考えられています。ロボットシステムが物理世界との相互作用を通じて学習し、複雑なタスクを実行するための知覚および操作スキルを自律的に獲得し、人間を支援できるようにする優れたアルゴリズムを設計することは、新世代のコンピュータービジョン研究者の主な目標の 1 つであり、Song Shuran もこの研究分野のメンバーです。

「CVer」である宋樹蘭さんがロボット工学の分野に転向したのはなぜでしょうか?この分野における彼女の研究ストーリーは何ですか?コンピュータービジョンとロボットシステムはどのように相互作用するのでしょうか?私たちはこれらの問題について宋樹然氏と話しました。

1. ロボットビジョンとの出会い

少し前に、2022年度のスローン研究賞が発表され、コンピューターサイエンス分野の中国の女性科学者4人が選ばれました。宋樹蘭さんはその一人で有名になりました。

スローン研究フェローシップは「ノーベル賞の風見鶏」として知られ、主に各分野で最も潜在能力が高いとされる若手科学者に授与されます。過去にこの栄誉を受けた人工知能学者は、AI Technology Reviewの過去の号で紹介された葛栄、馬騰宇、方飛など、いずれも並外れた人々です。宋樹然氏の選挙での勝利は彼の力の証である。

しかし、宋樹然が「目撃」されたのはこれが初めてではなかった。これまで、彼女と彼女のチームは、RSS 2019 Best System Paper Award、CoRL 2021 Best System Paper Award、2020「IEEE Transactions on Robotics」Best Paper Awardなど、数多くの国際ロボット会議で最優秀論文賞を受賞しています。彼女は近年の「ロボティックビジョン」分野で最もよく知られている若手代表の一人です。

さらに素晴らしいのは、博士号を取得して学界に入ってからまだ4年しか経っていなかったことだ。

現在、ソン・シュランはコロンビア大学コンピューターサイエンス学部の助教授です。彼の研究は、コンピュータービジョンとロボット工学の交差点に焦点を当てており、ロボットシステムが物理的な世界との相互作用を通じて学習し、複雑なタスクを実行して人々を支援するための知覚と操作のスキルを自律的に獲得できるようにするアルゴリズムの開発などです。

ソン・シュラン氏は自身の研究経験を振り返り、AI Technology Reviewに対し、新入生として初めて受けた基礎コースで初めてロボットに興味を持ったと語った。

「それがロボットとの初めての出会いでした。このコースでは専門的な知識はあまり教えられませんでした。実践的なコースでした。小さな車を作ってうまく走らせるという単純なプロセスでした。プログラミングも簡単でしたが、プロセス全体を通して予想外の驚きがたくさんあり、私に大きな影響を与えました。」

その後、学校のロボット工学部が新入部員を募集しに来た時、宋樹蘭さんは迷わず入部しました。大学在学中にロボット工学クラブに参加していたときに、コンピュータービジョンについて学ぶ機会もありました。

キャプション: 香港科技大学

宋樹蘭さんは香港科技大学で電子・コンピュータ工学(ECE)を専攻しました。

北京生まれの私にとって、2008年のオリンピックは北京の国際化を加速させ、若き日の宋樹然は世界を探検することに大きな情熱を抱いていました。そこで彼女は、2009年の大学入試前夜に大学の願書を記入した際、北京大学の医学部に加えて、香港科技大学のコンピューターサイエンス専攻にも応募した。

「私たちは大学入試前に入学を申し込みました。第一に、香港の大学への出願には定員がありません。第二に、将来は海外に行くつもりでした。英国や米国に直接留学するよりも、香港はより妥協できる選択肢です。」

ソン・シュランは子供の頃から優秀な生徒であり、重要な試験では常に非常に良い成績を収めています。彼女は自分の学習能力に自信があったため、大学に出願する際に、特に学習が難しい専攻を選択しました。当時、彼女はプログラミングの知識がほとんどなかったにもかかわらず、コンピュータサイエンスを専攻にすることに躊躇しませんでした。

この恐れを知らない精神こそが、男性が支配する分野で宋樹然が無敵であり続けることを可能にしている。

2009年、宋樹然さんは北京から南の国際都市として知られる香港へ移住した。 HKUSTに到着してすぐに、彼女はキャンパスの環境の多様性をはっきりと感じました。

「高校時代、クラスメイトはみんな同じようなことをしたいと思っていた。香港に来てから、みんなが人生で何か違うことを成し遂げたいと思っていることがわかった。みんな違う専攻を勉強していた。人付き合いに重点を置く人もいれば、事前にキャリアを計画する人もいた。私のように研究が好きな学生は多くなかったので、学部時代には研究の機会が多かった。」

大学在学中、宋樹然さんはHKUSTロボットチームに参加する機会を得て、2011年に毎年開催される国際ロボットコンテスト「ABUロボコン」にチーム代表として出場しました。その年、宋樹然選手と彼のチームは香港の地域予選で優勝し、タイでの決勝戦に香港代表として出場した。

「私が覚えている限り、当時のロボット研究で最も困難だったのはコンピュータービジョンでした。私の専攻はコンピュータービジョンではありませんでしたが、視覚的な追跡や検出など、その過程で多くのことを学びました」と宋樹然さんは回想する。

宋樹然さんはロボット工学クラブに参加したほか、大学3年生(2012年)のときに香港科技大学とマサチューセッツ工科大学(MIT)の夏季交換留学プログラムにも参加しました。 「その年は初年度で応募者も少なかったので、この機会を得られたのはとても幸運でした。」

夏休みは短く、交換留学中の研究内容も非常に初歩的なものだったが、その過程全体が宋樹蘭さんに深い印象を残した。

ソン・シュランさんは、毎日 MIT CSAIL ビルに通い、その途中でさまざまな人々に出会ったことを覚えています。この奇妙な形の建物には、ロボットの研究をしている人たちがたくさんいます。彼女は毎日、建物の中でさまざまな奇妙なロボットを目にします。「研究者たちは常に何かをデバッグしています」と、研究全体の雰囲気はとても活発です。

当時の彼女の指導者は、グラフィックス分野の巨匠、フレド・デュランでした。ソン・シュランさんは、フレド教授はやるべきことがたくさんあったにもかかわらず、交換留学生が目標とするコースを学べるよう指導するために、教育と研究に時間を割き、決まった時間に彼らと会って質問に答えてくれたことを思い出します。この過程で、宋樹然はイメージ視覚に関する多くの知識も学びました。

もともと、ソン・シュランさんは研究にしか興味がなかったのですが、MITでの交換留学経験がきっかけで博士号取得を目指す決心をしました。

「大学に入学したばかりの頃は、博士号を取得するかどうかや、学問の分野でどこまで進むかについては考えていませんでした。しかし、MITに到着すると、全員が博士課程の学生たちと出会いました。彼らが行っていた研究は非常に興味深く、研究プロセスは非常に刺激的でした。私も研究をしたいと考えるようになりました。」

2. Answer 2015: 3Dビジョンのブレークスルー

2013年、宋樹然氏は博士号取得を目指してプリンストン大学のコンピュータービジョンおよびロボティクス研究所(コンピュータービジョンの分野で著名な中国人学者、鄧佳氏も共同所長を務めた)に入所し、肖建雄氏(2016年に起業のためプリンストンを去った)とトーマス・ファンクハウザー氏の指導を受けた。トーマス・ファンクハウザーは毎年、博士課程の学生を 1 ~ 2 人しか採用していないと報告されています。

図: プリンストン大学

ソン・シュラン氏がプリンストン大学に最も惹かれたのは、研究室の規模が小さく、教授たちとより多くのコミュニケーションをとる機会があったことだ。

博士課程の間、Song Shuran の研究はコンピューター ビジョンに重点を置いていました。ソン・シュランさんは学部生時代に物体追跡プロジェクトに取り組んでいたものの、博士課程を始めた当初は視覚の基礎が比較的弱かったことを思い出しました。

彼女は指導教官の指導の下、学部の研究を続け、最初に 3D オブジェクトの検出と追跡を学びました。当時、マイクロソフトは新しい 3D 認識カメラ (Kinect 3D カメラ センサー システム) を発売し、これらの新しいデバイスを使用して 2D オブジェクト検出を 3D オブジェクト追跡に拡張できるかどうかを検討していました。

図: マイクロソフトが 2013 年に発表した Kinect 3D カメラ認識システム

2014 年頃、コンピューター ビジョンの分野における重要な研究方向は、2.5D から 3D のオブジェクトの認識、検出、追跡でした。宋樹蘭さんは、このトレンドにちょうど間に合うように、2013年に研究を始めました。彼女自身の努力もあって、彼女の博士課程のキャリアは、ほとんどの人よりもはるかに速いペースで進んでいます。

2015 年は、コンピューター ビジョン研究における Song Shuran にとって「収穫の年」でした。その年、彼女はトップクラスのコンピューター ビジョン カンファレンスで、引用数の多い 4 つの論文を発表しました。そのすべてが古典的論文であり、博士課程に入学してからわずか 2 年でした。

  • 3D ShapeNets: ボリュームシェイプの深層表現 (Google Scholar 引用 3500 件以上)
  • Shapenet: 情報豊富な 3D モデル リポジトリ (Google Scholar 引用 2500 件以上)
  • Sun rgb-d: rgb-d シーン理解ベンチマーク スイート (Google Scholar 引用 1100 件以上)
  • Lsun: 人間を巻き込んだディープラーニングによる大規模画像データセットの構築 (Google Scholar 引用 1000 件以上)

ソン・シュラン氏はAIテクノロジーレビューに対し、彼女がディープラーニングに初めて触れたのは、タン・シャオウ氏とウー・ジーロン氏の指導の下で取り組んだ「3D ShapeNets: ボリューム形状のディープ表現」の研究だったと語った。当時、香港中文大学に在学していた呉志栄さんが交換留学でプリンストンに行き、宋樹然さんは彼と知り合った。

「当時、ディープラーニングはそれほど人気が​​ありませんでした。2Dビジョンは人気が出始めていましたが、ディープラーニングを3Dビジョンに適用する研究はほとんどありませんでした。当時、私はディープラーニングの研究をしたことがありませんでした。より伝統的な2D認識と検出をしただけです。ZhirongはTang Xiaoouのグループでディープラーニングの研究をたくさんしていたので、私たちは彼を引き入れて一緒に仕事をすることにしました。」とSong Shuranは回想する。

開拓的な仕事は往々にして困難を伴います。宋樹然氏は、協力中に多くの困難に直面したと回想する。最大の困難は、ディープラーニングシステムの構築をサポートする成熟した機械学習ライブラリやフレームワークがなかったことだ。「当時は賈洋青氏が提案したCaffeしかなく、初期のCaffeはコンピュータービジョン操作をサポートしていませんでした。」

そのため、当時の研究の焦点は、2D アルゴリズムを許容可能な 3D データに変換するシステムを開発することにありました。当時の彼らのアイデアは実は非常にシンプルで、2D ピクセル表現から 3D ボクセル表現に変換するというものでした。この方法には多くの明らかな欠陥があるように見えますが (大量のビデオ メモリ領域が必要)、畳み込みなどの従来の 2D アルゴリズムを多数使用できるという利点があります。

図1: 3D ShapeNetsの変換原理(2015年)

これはディープラーニングの手法により 2.5D を 3D に拡張することに成功した初の映像作品です。これまで、ディープラーニングは主に 2D 画像や自然言語処理に使用されていました。 「3D ShapeNets」は、ディープラーニング システムが形状表現を学習する方法を初めて実証しました。これは汎用性が高く、さまざまなタスクに適用できるため、コンピューター ビジョンの分野に大きな影響を与えます。

宋樹蘭にとって、この研究は研究キャリアにおける画期的な出来事であるだけでなく、研究に「シンプルで効率的な」方法論を採用するきっかけとなった。

「シンプルですが非常に効率的です。唯一の制限は、コンピューティング能力の要求です。データの次元が増えると、計算量も増えます。また、3D を研究するのは今回が初めてです。その後の私の作品の多くは、このプロジェクトのアイデア、つまり形状表現に 3D ディープラーニング システムを使用するというアイデアを引き継いでいます。」

コンピューター ビジョン (特にデータ駆動型 3D シーン理解) における優れた業績により、Song Shuran 氏は 2015 年の Facebook PhD 奨学金を獲得しました。彼女の研究はプリンストン・リサーチ・ジャーナルに掲載され、プリンストンの「25歳未満の25人のイノベーター」の一人に選ばれました。

キャプション:プリンストン大学で博士課程を研究中のソン・シュラン

3. 視覚からロボット工学へ

ロボットが現実世界を認識する精度は、視覚における 3D セマンティック シーン補完テクノロジに依存します。宋樹然の 3D ビジョンに関する研究の躍進は、ロボットビジョンに関する研究の基礎を築きました。

彼女は2016年に「Deep Sliding Shapes」を提案して以来、視覚の研究に加えて、3Dビジョンを使用してロボットが周囲の環境にある物体を推論する能力を向上させる方法を模索し始めました。当時、コンピューター ビジョンは単一の静止画像の分析からビデオや空間データの理解へと移行しつつあり、これはロボットの知能向上に大きなメリットをもたらしました。

図: プリンストン大学のシュラン・ソンが研究したロボット(「室内のロボット:閉鎖環境における完璧な物体認識に向けて」)

ロボットが部屋を掃除したい場合、掃き掃除、片付け、整理整頓などの作業を実行する前に、空間ナビゲーション機能、移動先を把握する機能、さらに部屋の中のさまざまな物体を認識する機能が必要になります。

このとき、ロボットは 2 つのレベルの情報を理解する必要があります。第 1 レベルは、ロボットが周囲の環境と対話し、移動のための空きスペースを識別し、操作するオブジェクトを見つけるのに役立ちます。第 2 レベル以上は、ロボットがオブジェクトが何であるかを理解し、そのオブジェクトを使用してタスクを実行できるようにします。

この問題に関して、これまでの研究では、この 2 つを「シーンの完了」と「オブジェクトのラベル付け」に分ける傾向があります。しかし、2017年に宋樹然氏と彼のチームは「SSCNet」システムを提案しました。このシステムは、2つを組み合わせて、単一の2D画像からシーンの完全な3D表現とシーンオブジェクトのラベルを生成することで、より優れたアルゴリズム結果を達成しました。

この研究はまだ 3D ビジョンから始まったものですが、これは宋樹然が後にロボットビジョンの研究で使用する重要な概念、つまりロボットが現実世界との相互作用を通じて世界を理解するという概念を予見するものでした。たとえば、部屋にある椅子の視界がテーブルによって部分的に遮られている場合でも、ロボットが椅子の形状に関する基本的な認識と部屋のレイアウトを組み合わせることができれば、テーブルの横にある形状が椅子であるとも判断できます。こうした予測の精度は大幅に向上するでしょう。

図キャプション:「SSCNet」では、「テーブル」の画像を入力するだけで、テーブルの周りのオブジェクトの配置を予測できます。

宋樹然氏は、3D物体検出と追跡に関する多くの研究を行った後、2017年にMITのロボット工学チームと協力してAmazon Robotics Challenge - Amazon Picking Challengeに参加し、視覚とロボット工学の「ソフトとハードの組み合わせ」を試し始めました。

「当初の協力案は非常に単純なものでした。彼らはロボットに取り組んでおり、私たちは視覚に取り組んでいました。私たちはそれぞれのシステムを組み合わせて競争に参加しました。それが私たちが最初の年にやったことです」とソン・シュラン氏はAIテクノロジーレビューに語った。

しかし、この「大まかな組み合わせ」のアプローチでは良い結果は得られませんでした。

2017 年の彼らのコラボレーションは次のようなものでした。まず、宋樹然のコンピューター ビジョン グループがアルゴリズム出力 (オブジェクトの姿勢など) を定義し、次に MIT のロボット グループが視覚出力アルゴリズムを使用して動作計画を立て、ロボットがターゲット オブジェクトをつかむ方法を計算しました。

しかし、このコラボレーションは効率的ではありませんでした。プリンストン大学とMITは別々の都市に位置しており、両チーム間のコミュニケーションは主に電子メールによるコード交換で行われていた。ソン・シュラン氏のチームがMITのロボットで視覚アルゴリズムをテストするのに1か月かかった。

実験中に、彼らは多くの問題も発見しました。たとえば、宋樹然のチームが提案した視覚アルゴリズムは非常に遅く、システム全体も遅くなりました。トレーニングに使用できるラベル付きデータは非常に限られていたため、モデルは実行できませんでした。アルゴリズムの精度が十分ではありませんでした。コンピュータービジョンの場合、5度5センチメートル以内のアルゴリズム精度はすでに非常に優れています。しかし、このエラーが実際にロボット操作に適用されると、ロボット環境全体が崩壊する可能性があります。

そのため、2017年の大会では3位に留まりました。しかし、このコラボレーションは、ソン・シュラン氏のロボットビジョン研究への情熱にも火をつけました。彼らは多くの興味深い問題を発見し、システムを改善するための多くのアイデアを生み出したため、コラボレーションを継続し、2018年のコンテストに参加することを決めました。

図: アマゾン ロボティクス コンペティションでの MIT-プリンストン チーム (2018)

今回、宋樹然氏とチーム全体が物体姿勢のアルゴリズムを再統合し、中間物体姿勢を予測に使用せず、画像に基づいてロボットが取るべき行動を直接予測しました。その結果、アルゴリズムシステム全体の速度が大幅に向上し、汎用性も高まりました。

Amazonチャレンジの内容は、ロボットがさまざまな物体が入った箱から目的の物体を取り出すというものです。このとき、ボックス内のオブジェクトが互いに遮られ、ロボットの視界が遮られる可能性があります。

この問題に対処するため、宋樹然氏のチームは「まず物体を識別する」というこれまでのステップを廃止し、代わりに「まず物体を掴む」というプロセスを設定して、物体を取り出してから識別するようにした。このとき、ロボットは物体が何であるかを判断する必要がなく、物体のどの部分を掴みやすいかを知るだけでよく、システムの堅牢性が大幅に向上します。

アルゴリズムを改良した後、ロボットの掴む速度が急速に向上し、2018 Amazon Grabbing Robot Challenge と 2018 Amazon Best Operating System Paper Award を受賞しました。

それ以来、ソン・シュランは、コンピュータービジョンを利用してロボットが物理的な世界を認識し、相互作用できるようにする研究の道を正式に歩み始めました。

4. シンプルだが効率的

2018 年、ソン・シュランはプリンストン大学でコンピューターサイエンスの博士号を取得し、その後コロンビア大学のコンピューターサイエンス学部に助教授として加わりました。コロンビア大学を選んだ理由を尋ねられた彼女は、次のように答えました。

「コロンビア大学を選んだ大きな理由は、その立地条件です。私は今でも都会に住むのが好きです。私は北京で育ち、大学は香港にありました。プリンストン大学に通った後、田舎暮らしは自分に向いていないと感じたので、大都市に戻りたいと思い、ニューヨークにあるコロンビア大学を選びました。」

図:コロンビア大学

宋樹然氏は教職に就いてから、ロボットビジョンの研究で大きな成果を上げています。3年間で、RSS 2019 Best System Paper Award、T-RO 2020 Best Paper Award、CoRL 2021 Best System Paper Awardを受賞しました。彼の関連研究は、IROS 2018、RSS 2019、CVPR 2019、ICRA 2020などのトップカンファレンスでも最優秀論文にノミネートされました。

2018年、宋樹然氏のチームはアマゾンチャレンジのアイデアを引き継ぎ、「押す」と「つかむ」という2つの動作におけるロボットの協調をさらに研究しました。当時、強化学習は非常に人気がありましたが、宋書然氏の研究はロボットビジョン研究に強化学習手法を直接導入した最初の研究であり、IROS 2018 Best Perception Robotics Paper Award にノミネートされました。

キャプション: 知覚ロボットはまず物体を「押し」、次に「つかむ」

「当時、私たちの最終目標は、物体をつかむことができることでした。『つかむ』という動作は評価しやすく、物体をつかむことができれば、それはポジティブな報酬です。しかし、『押す』という動作は評価が難しいです。どのような『押す』が良い『押す』とみなされるのでしょうか?そこで、強化学習の手法を使用して、『押す』を定義するための適切な評価関数を提供しました。最終的には、最終的な報酬(つまり、押す動作が物体をつかむのに役立つ)を記述するだけで済みます。」と宋樹然氏はAI Technology Reviewに説明した。

宋樹蘭氏によると、彼女とチームが「直感に基づいて」このプロジェクトを行う前は、強化学習法には大量のデータが必要であり、実際のロボットで直接トレーニングするのは難しいと多くの人が信じていたという。強化学習は今でもロボットに応用する主流の方法ではなく、宋樹然氏らはそれが「本当に機能する」とは予想していなかった。彼らは不可能の呪いを打ち破り、この分野の研究者に大きな自信を与えたと言える。

宋書然のロボットビジョンシステムに関する最初の画期的な研究は「TossingBot」であり、RSS 2019 Best System Paper Award を受賞しました。この研究ではGoogleの研究チームと協力し、最終結果はニューヨーク・タイムズのビジネス欄の表紙に掲載されました。

TossingBotがニューヨークタイムズビジネス版の表紙を飾る

この投擲ロボットの「必殺技」は、あらゆる物体を素早く正確に拾い上げ、近くのターゲットボックスに投げ込むことを学習できることです。研究者たちは、投げる動作は力学を利用してロボットハンドの能力を向上させる優れた方法だと考えています。たとえば、「ピックアンドプレースの例では、投げることでロボットアームは最大可動範囲外で選択したボックスにオブジェクトを素早く配置できるようになり、物理的な到達範囲とピッキング速度が向上します。」

この研究の背後にある重要なアイデアは「残差物理学」であり、単純な物理学とディープラーニングを組み合わせることで、試行錯誤を通じてシステムを迅速にトレーニングし、新しいシナリオに一般化できるようにします。

物理学は世界がどのように機能するかについての先験的モデルを提供し、ソン氏と彼のチームはそれを初期のコントローラーの開発に使用することができます。たとえば、投擲では、弾道学を使用して物体を目標の場所に着地させるために必要な投擲速度を推定し、ニューラル ネットワークを使用して物理的な推定値に加えて調整を予測し、未知のダイナミクスや現実世界のノイズや変動性を補正することができます。

コンピューター ビジョンを専攻する専門学生である Song Shuran 氏は、研究するプロジェクトごとに、ビジョンとロボット工学の相互統合によって生み出される魔法のような効果にますます驚かされています。 TossingBot の作品が出版された後、彼女はニューヨークタイムズ紙のインタビューでこう語った。「このロボットは、私が考えていたよりもずっと複雑なことを学んでいます。」

しかし、明らかにこれで終わりではありません。 「TossingBot」の発売から2年後、宋樹然はロボットの高速ダイナミックな動きを新たなレベルに引き上げることに挑戦しました。彼女はコロンビア大学で最初の博士課程の学生であるフイ・ハを率いて、別のロボット「FlingBot」で第2回ベストシステムペーパー賞、CoRL 2021ベストシステムペーパー賞を受賞しました。

当時、CoRL 2021 選考委員会は「FlingBot」という作品に非常に高い評価を与えました。「この論文は、シミュレーションと現実世界の布の操作に関して私がこれまで見た中で最も素晴らしい作品です。」

論文アドレス: https://arxiv.org/pdf/2105.03655.pdf

「FlingBot」チャレンジの課題は、シーツやキルトなどを作るなど、日常生活に応用できる生地の加工です。このタスクに関するこれまでの研究のほとんどは、布を操作するために片腕の準静的動作を使用していましたが、これには初期の布の構成に挑戦するために多数の相互作用が必要であり、ロボットが到達できる布の最大サイズが大幅に制限されます。

そこで、宋樹然氏と彼の学生たちは、自己教師学習フレームワークFlingBotを使用し、視覚観察に基づいて双腕操作を設定し、布を拾い、伸ばし、投げるという初期構成を採用しました。実験によると、FlingBot の 3 つのアクションの組み合わせにより、布地の面積の 80% 以上をカバーでき、これは静的ベースラインの面積の 4 倍以上になります。

図: FlingBot

簡単そうですよね?

「アルゴリズムは確かに難しくないので、方法があまりにも『単純』すぎるという理由で、RSSはこの研究を拒否したのです」と宋樹然氏は笑顔で語った。

彼らの当初のアイデアはシンプルでした。彼らはたくさんの文献を読み、作業はすべて摘み取って配置するだけで済ませるというものでした。これは人々の日常生活の習慣とはまったく異なっていました。 「朝のベッドメイキングという非常に簡単な例を取り上げてみましょう。私たちは慎重に「場所を片付ける」ことはできません。通常、シーツを敷いて捨て、また敷きますが、ロボットシステムではそれを行うことはできません。」

そこで彼らは、投げるなどの高く投げたり広げたりする動作をロボットに行わせることができないだろうかと考えました。最終的にシステムを完成させたとき、彼らはシステム全体が実にシンプルで、3 つのステップに分解できることも発見しました。最初のステップは布をつかむこと、2 番目のステップは布を広げること、3 番目のステップは布を「投げる」ことでした。 「広げる」と「投げる」という 2 つの動作は、基本的に習得する必要はありません。習得しても習得しなくても大きな違いはありません。習得する必要がある唯一のステップは「つかむ」ステップです。つかむ方法は、その後の「広げる」と「投げる」に直接影響するためです。

「掴む」ステップでは従来のアルゴリズムに画期的な進歩がもたらされましたが、全体としては「FlingBot」のシステム全体は比較的シンプルです。そのため、論文が初めて提出されたとき、査読者は同じ理由で論文を却下しました。結果は素晴らしく、システムも素晴らしかったのですが、アルゴリズムが非常に単純だったからです。

このとき、宋樹然の逆転の発想が再び現れた。二度目の論文提出の際、彼らは論文の中で「シンプルだが効率的」というハイライトを強調した。

「このような複雑なタスクを解決するには、非常に複雑なシステムを設計するよりも、単純なアルゴリズムを使用する方がよいのではないでしょうか。そして、これは非常にうまく機能しており、高速で動的な動作における効率性を証明しています。」

これは、彼女が博士課程時代にTang Xiaoou氏らと共同研究した「シンプルだが効率的」という3D ShapeNetsの研究理念と一致しています。その後、FlingBot は実際に CoRL に受け入れられ、Best System Paper Award を受賞しました。

5. いくつかの考え

今では、構造化された環境のロボット(アマゾンの工場の生産ラインのロボットなど)と比較して、宋樹然のロボット作品は、「TossingBot」であれ「FlingBot」であれ、まず物理的環境を知覚し、環境情報を把握し、次に環境に適応する動作を実行する必要があることを誰もが発見したに違いありません。

「工場や倉庫では、ロボットが毎日遭遇する物体、場所、カテゴリは非常に似ています。そのようなシナリオでは、ロボットの認識と計画は非常に成熟した状態に達しています。多くの工場では、組み立てラインに自動化ロボットを導入しています。しかし、よく見ると、これらのロボットのほとんどには「ビジョン」がありません。特定の動作を記憶して同じ動作を繰り返すだけなので、新しい環境に移行することはできません。」

そのため、宋樹然氏は、ロボットを非構造化環境に適応させる方法が、ロボットビジョンの次の重要な研究方向であると考えています。彼女の研究では、人間の観察からロボットの進化の経験を学ぶか、ロボットと現実世界の相互作用を重視するか、この方向に向かって取り組んでいます。

たとえば、FlingBot では、オブジェクトを展開するために「投げる」アクションが使用されるのはなぜでしょうか?宋樹然氏は「物体が広げられていると、識別しやすくなります。衣服が丸まってしまっている場合、広げられなければそれがTシャツなのかズボンなのかはわかりません」と説明した。この観点から、ロボットと物理世界との相互作用は、知覚の精度の向上にも役立つ。

つまり、視覚とロボットの融合では、ロボットの知覚を助けるのは視覚だけではなく、ロボットの動きによっても視覚認識が強化されるのです。

6. 「汎用人工知能」を探る

AI テクノロジーレビュー: Yann LeCun 氏は、自己教師あり学習が次世代の人工知能にとって重要な方向性であると常に強調しています。あなたはどう思いますか?

宋樹蘭:全く同感です。そう思います。 ImageNet や多くの既存のベンチマークなど、教師あり学習は大きく進歩しました。次にもっと大きなデータセットを使いたい場合、実際にはより多くのデータにラベルを付けるのは難しいです。必要なのはアルゴリズムの改善、つまりラベルのないデータをどのように活用するかです。

この方向では、異なるフィールドには異なる定義方法があります。自己教師学習をどのように定義するのでしょうか?これが最も核心的な問題だと思います。コンピュータービジョンの分野ではビデオ予測を行うことができ、自然言語処理の分野では言語コンピューティングを行うことができます。私が疑問に思っているのは、ロボット工学の分野では、自己教師あり学習をどのように定義するかということです。自律学習と自己教師学習のための統一フレームワークをどのように定義するのでしょうか?

AI テクノロジーレビュー: 以前、多くの人がこの方向性を強調したとき、現実との相互作用については言及されていなかったようです。

宋書然:はい、確かにコストが比較的高いですから。ロボットを持っていない場合は、購入する必要があります。また、ロボットを使用する場合でも、対話を通じてデータを収集する方が、データにラベルを付けるよりもはるかに遅いように感じられます。しかし、これは見通しがないという意味ではありません。むしろ、より大きな可能性を秘めた方向だと私は考えています。

特に、人工知能の将来の発展を考えると、ロボットが高価なデバイスではなくなり、価格が下がり、どこにでも存在し、多くのタスクを実行できるようになると、インタラクションによる自己教師学習がより主流のアプローチになると思います。

AI技術レビュー:分かりました。教師、このインタラクティブで自己監視された学習方法の過去の開発、現在のボトルネック、将来の傾向をさらに要約していただけませんか?

Song Shuran:現在、「Self-Supervision + Interaction」方法は、まだ多くの人間の経験と混ざっています。 「把握」などの現在の作業の多くは、オブジェクトが把握されているかどうかを非常によく計算できるため、自己監視の方法で行うことができます。 「拡張」アクションにも同じことが言えます。オブジェクトの表面と領域を監督情報として使用できます。ただし、これらの報酬は自立しており、画像から直接計算できますが、人間によって定義されており、経験はそのような情報を取得できることを示しています。

そして、どのアルゴリズムでも、人間のエンジニアが物事を定義しなければならない場合、それはしばしばボトルネックになると思います。今後、この人工的な体験をどのようにして作るのでしょうか?将来の予測モデル、またはより一般的な世界モデルを学び、より統一された方法でそれを見るか、より直感的な方法で設計することは可能ですか?代わりに、各タスクに対して特定の世界モデルを設計する必要があります。これは、将来より興味深い開発の方向になるかもしれないと思います。

AIテクノロジーレビュー:一般的な人工知能の現在の実現について理解やアイデアはありますか?

Song Shuran:私は非常に明確な理解とアイデアを持っているとは思わない(笑)。一般的な人工知能は究極の目標ですが、私たちはまだそこから長い道のりです。多くのアイデアは興味深いものですが、私の現在の限られた理解に基づいて、それらはまだ開発に長い時間が必要であり、どの方向がより有望であるか、より意味があるかを言うことは困難です。雷峰ネットワーク

しかし、埋め込まれた知能を学ぶことは非常に重要なステップだと思います。なぜなら、一般的な人工知能は、画像や抽象データを理解するだけでなく、物理学や3D環境を理解することについても、ネットワーク情報を理解することだけでなく、環境を理解することについても考えているからです。

AIテクノロジーレビュー:一般的な人工知能がどのように見えるかについて話しないでください。

Song Shuran:はい、機械学習モデルを抽象化することを検討することはできません。

人工知能について話しているのではなく、私たちの(人間の)知性について話しているだけです。実際、私たちは多くの知性を学びましたが、インターネットだけでなく、読書、写真を見たり、ビデオを視聴したりすることで学習します。

ですから、私の理解では、一般的な人工知能、ロボット工学、または埋め込みインテリジェンスを達成することが非常に重要なステップです。

<<:  この記事では機械学習における3つの特徴選択手法を紹介します。

>>:  ラブライブ!AI論文発表:生成モデルが楽譜を自動生成

ブログ    
ブログ    
ブログ    

推薦する

...

機械学習から最も恩恵を受ける4つの業界

機械学習は、将来性が最も高く、業界に最大のメリットをもたらす AI の分野です。関連レポートによると...

C# バイナリ ツリー トラバーサル アルゴリズムの実装の簡単な分析

C# アルゴリズムは、バイナリ ツリーの定義、既知のバイナリ ツリーの構築方法、および C# でバイ...

機械学習アルゴリズムの実践: 決定木

序文最近、欲張りになりすぎないように、機械学習の基本的なアルゴリズムを体系的に勉強しようと思っていま...

チューリング賞受賞者ジョン・ヘネシー氏:データと機械学習は世界をより良い場所にする

5月26日、チューリング賞受賞者で米国工学アカデミー会員のジョン・ヘネシー氏が、2021年中国国際ビ...

人材不足は数百万人に達し、人工知能+教育が一般的なトレンドとなっている

近年、人工知能の急速な発展は各国から大きな注目を集めており、教育界からも大きな注目を集めています。ま...

LLMが互いに戦うことを学ぶと、基本モデルは集団進化の先駆けとなるかもしれない

金庸の武侠小説には両手で戦うという武術が登場します。これは周伯同が桃花島の洞窟で10年以上の厳しい修...

キッシンジャー:今やAIは人間が世界を理解するための第3の方法となっている

2023年、ChatGPTは人工知能に対する世界的な注目を集めました。科学界、知識人界、産業界は、A...

IBM Cloud Pack for Data が Wunderman Thompson の再開ガイドの作成を支援

[[338356]]世界中のコミュニティや企業がコロナウイルスの経済的影響を理解し、最終的な回復に備...

ロボットは人間の労働に取って代わることができるでしょうか?アディダスは悲惨な教訓を学び、涙ながらにスマート工場を閉鎖した

科学技術は主要な生産力であると言われています。いつの時代になっても、この言葉は決して古くなることはあ...

PromptAppGPT メジャーアップデート! AIアシスタントの開発と運用のハードルはゼロ:AutoGPTはわずか数十行のコードで実装可能

最近、初めて自社開発した完全にオープンソースの自然言語ローコード GPT アプリケーション迅速開発フ...

ワイヤレス ネットワーク戦略に必要な 6 つの AI 要素

人工知能 (AI) の進歩により、組織は予測可能で信頼性が高く、測定可能な WiFi を使用してワイ...

Java 実装と読み取り/書き込みロック アルゴリズムの考え方

問題の背景: 複数のスレッドが共有リソースへの読み取りおよび書き込みアクセスを実行します。書き込みス...

データセンターから発電所まで: 人工知能がエネルギー利用に与える影響

人工知能 (AI) は急速に現代生活に欠かせないものとなり、産業を変革し、私たちの生活、仕事、コミュ...

ニューラルネットワークに基づくマルウェア検出分析

今日、あらゆる業界にとって、「マルウェアを効果的に検出する方法」は、ネットワーク セキュリティに関す...