被験者が特定の行動をとったとき、その脳はそれに対応する安定した脳神経パターンのマッピングを生成するでしょうか?安定したマッピングが存在する場合、機械学習手法を使用して未知の行動神経回路を発見できるでしょうか? 行動理解に関するこの一連の重要な疑問に答えるために、最近 Nature に掲載された研究では、行動理解のメカニズムが研究されました。この論文の共同責任著者は、上海交通大学の Lu Cewu 教授とソーク研究所の Kay M. Tye 教授の 2 名です。 論文リンク: https://www.nature.com/articles/s41586-022-04507-5 この成果は、コンピュータービジョン技術に基づいて、マシンビジョンの動作理解と脳神経との本質的なつながりを定量的に説明し、その安定したマッピングモデルを初めて確立しました。コンピュータビジョンの行動分析を使用して行動神経回路を発見することにより、人工知能を使用して神経科学の基礎問題を解決する新しい研究パラダイムが形成されました。具体的には、コンピュータインテリジェントアルゴリズムは、マウスの社会的および競争的行動ビデオの大規模な理解を通じて、「動物の社会的階層行動」を制御する神経回路を発見しました。これは、哺乳類が社会的グループ内の他の個体の状態をどのように判断し、行動決定を下すかという疑問に答えることを目的としています。新しい研究パラダイムは、人工知能と基礎科学問題(AI for Science)の最先端の交差点の発展もさらに促進しました。 具体的な研究内容は以下のとおりです。 図 1. 視覚行動検出-脳神経信号関連モデル: (a) マウスの視覚行動理解 (b) システムフレームワークとモデル学習。 視覚行動検出と脳神経信号相関モデル: マウスのグループを実験対象として使用し、各マウスに無線生理学的記録装置を装備して、社会的活動中の特定の脳領域である内側前頭前皮質 (mPFC) の連続的な脳神経信号を記録しました。同時に、複数のカメラを通じて各マウスを追跡・位置特定し、Lu Cewu教授のチームが開発した姿勢推定(アルファポーズなど)と行動分類の研究成果に基づいて行動意味ラベルを抽出し、人間の目の高さよりも高いマウスの姿勢推定精度を実現しました。提案システムによって自動的に収集された大量のデータに基づいて、隠れマルコフモデルをトレーニングし、「マウスのmPFC脳領域の神経活動信号」から「行動ラベル」への回帰モデルを形成しました。トレーニング後のテストセット上でも安定したマッピング関係が存在することがわかり、行動対象の脳内で行動視覚型と脳神経信号パターンの間に安定したマッピング関係が存在することが明らかになりました。 モデルの応用:動物の社会的階層を制御する行動神経回路の発見:視覚行動検出-脳神経信号関連モデルに基づいて、新しい行動神経回路を発見できます。 「動物の社会的階層」(例えば、下位のネズミは上位のネズミに先に食事をさせてあげる、下位のネズミは従順な行動をとる)の行動神経制御機構は、哺乳類が自身の社会集団内の他の個体の地位をどのように判断するかという、学術界で常に重要な問題となってきました。その背後にある神経制御メカニズムとは何でしょうか?動物の社会的階層行動は複雑な行動概念であるため、この問題は学術界によって解決されていない困難な問題となっています。上記のシステムとモデルに基づき、マウスの集団間の競争の大規模ビデオにおいて「動物の社会的階層」行動の位置を特定し、同時に動物の社会的階層行動の脳活動状態を記録しました。動物の社会的階層行動の脳内形成メカニズムを深く分析した結果、内側前頭前皮質-外側視床下部(mPFC-LH)回路が動物の社会的階層行動を制御する機能を持っていることを発見し、厳密な生物学的実験によって確認されました。この研究は、未知の行動機能を持つ神経回路を発見するための機械視覚学習に基づく新しい研究パラダイムを形成し、基礎科学問題を解決するための人工知能の開発をさらに促進しました(AI for Science)。 Lu Cewu によるチーム行動理解に関する研究上記の研究は、Lu Cewu 氏のチームが長年にわたり蓄積してきた行動理解の一部です。機械が行動を理解するには、次の 3 つの質問に対する包括的な答えが必要です。 1. 機械認知の観点から:機械に行動を理解させるにはどうすればよいでしょうか? 2. 神経認知の観点: 機械認知セマンティクスと神経認知の間にはどのような本質的な関係があるのでしょうか? 3. 具体化された認知の観点:行動理解の知識をロボットシステムにどのように転送するか? 図2. ル・セウのチームによる行動理解に関する主な研究 今回ネイチャー誌に掲載された研究は、2番目の疑問に答えることを目指しています。他の2つの疑問については、チームの主な研究は次のとおりです。 1. 機械に行動を理解させるにはどうすればよいでしょうか? 主なタスクは次のとおりです。
一般化可能で説明可能かつスケーラブルな行動認識手法を探求するためには、行動パターンと意味のあいまいなつながりや、データ分布のロングテールなどの問題を克服する必要があります。一般的な直接的なディープラーニング「ブラックボックス」モデルとは異なり、チームは知識誘導型でデータ駆動型の行動推論エンジン HAKE (オープンソース Web サイト: http://hake-mvig.cn/home/) を構築しました。 図3. HAKEシステムのフレームワーク HAKE は、行動理解タスクを 2 つの段階に分けます。まず、視覚パターンを人体の局所状態のプリミティブ空間にマッピングし、さまざまな行動パターンを有限かつほぼ完全なアトミック プリミティブで表現します。次に、プリミティブを論理ルールに従ってプログラムし、行動の意味を推測します。 HAKE は、効率的なプリミティブ分解をサポートする大規模な動作プリミティブ知識ベースを提供し、組み合わせ一般化と微分可能なニューラル記号推論を使用して動作理解を実現します。次の機能があります (TPAMI や CVPR などのトップクラスのコンピューター ビジョン ジャーナルやカンファレンスで 10 件以上の論文が発表されています)。 (1)学習可能なルール:HAKEは、人間の行動プリミティブに関する少量の事前知識に基づいて、論理ルールを自動的にマイニングして検証することができます。つまり、プリミティブな組み合わせルールを要約し、実際のデータに対して演繹検証を実行して、効果的で一般化可能なルールと未知の行動ルールを発見します(図4を参照)。 図4. 目に見えない行動ルールの学習 (2)人間のパフォーマンスの上限:87の複雑な行動インスタンスレベルの行動検出のテストセット(画像10,000枚)では、完全なプリミティブ検出を備えたHAKEシステムのパフォーマンスは、行動認識において人間のパフォーマンスに非常に近く、その大きな可能性を示しています。 (3)行動理解「チューリングテスト」 図 5. 機械 (HAKE) と人間がいくつかのピクセルを消去して、画像内の動作を理解できないようにします。チューリング テストでは、HAEK の「消去手法」が人間のものと非常に似ていることが示されています。 また、私たちは特別な「チューリングテスト」も提案しました。つまり、機械が画像から重要なピクセルを消去して、人間の被験者がその行動を区別できない場合、機械は行動をよく理解しているとみなされるというものです。この消去操作をHAKEと人間が別々に行うようにします。そして、別のボランティア グループにチューリング テストを実施してもらい、この消去操作が人間によって行われたのか、それとも HAKE によって行われたのかを尋ねます。人間の識別精度は約59.55%(ランダム推測は50%)であり、これはHAKEの「消去技術」が人間のものと非常に類似していることを示しており、行動の「説明可能性」に対する理解が人間と類似していることを間接的に裏付けています。
特定の行動(「洗濯」など)の場合、人間の脳は一般化された行動の動的概念を抽象化し、それをさまざまな視覚的オブジェクト(衣服、ティーセット、靴など)に適用して、その行動を識別することができます。神経科学分野の研究により、人間の記憶形成過程において、連続的な視覚信号入力に対して、時空間の動的情報と物体情報が2つの比較的独立した情報経路を通じて海馬に到達し、完全な記憶を形成し、行動物体の一般化の可能性をもたらすことがわかっています。 図 6. 行動オブジェクトの概念と行動ダイナミクスの概念を切り離すことによってもたらされる一般化。 脳科学にヒントを得て、Lu Cewu 氏のチームは、人間の認知行動オブジェクトと動的概念が脳のさまざまな領域で独立して機能するメカニズムを模倣することで、高次元情報に適した半結合構造モデル (SCS) を提案しました。このモデルは、行動視覚オブジェクト概念と行動動的概念の自律的な発見 (認識) を可能にし、2 つの概念をニューロンの比較的独立した 2 つの部分に別々に保存します。ディープカップリングモデルのフレームワーク内で、分離されたバックプロパゲーションメカニズムが設計されており、2 種類のニューロンがそれぞれの概念にのみ焦点を合わせるように制限することで、行動理解の行動主体への一般化を予備的に実現します。提案された半結合構造モデルは、Nature Machine Intelligence に掲載され、2020 年世界人工知能会議で優秀若手論文賞を受賞しました。 ビデオシーケンス オブジェクトニューロン ダイナミックニューロン 図7. 「視覚的オブジェクト」と「行動の動的概念」を視覚化するニューロン Nature Machine Intelligence
人間の姿勢推定は行動理解の重要な基礎です。この問題は構造的制約下で正確な知覚を得ることです。構造的制約下での知覚問題に焦点を当て、グラフ競合マッチング、姿勢フローの大域的最適化、ニューラル解析ハイブリッドの逆動作最適化などのアルゴリズムを提案し、密集した群衆からの大きな干渉、不安定な姿勢追跡、人間の動作構造の意味で3次元人体の重大な常識エラーなどの問題を体系的に解決しました。CVPRやICCVなどのトップコンピュータービジョンカンファレンスで20以上の論文を発表しています。 図8. 構造を考慮した作業。関連する研究成果は、オープンソースシステムAlphaPose(https://github.com/MVIG-SJTU/AlphaPose)の形成に蓄積され、オープンソースコミュニティGitHubで5954個のスター(1656個のフォーク)を獲得し、GitHubのトップ100,000の中で1.6位にランクされています。センサー、ロボット工学、医療、都市建設などの分野で広く使用されています。姿勢推定の後、チームはオープンソースのビデオアクション理解オープンソースフレームワークAlfaction(https://github.com/MVIG-SJTU/AlphAction)をさらに開発しました。 2. 行動理解の知識をロボットシステムにどのように転送するか? 単に「あの人は何をしているのか」を考えることから「私は何をしているのか」を一緒に考えることまで、一人称視点の組み合わせを探り、人間の行動の本質を理解します。この研究パラダイムは、「具現化された知能」(Embodied AI)の研究理念でもあります。この理解能力と学習した行動知識を具現化された知的存在(ヒューマノイドロボット)に移転する方法を模索し、ロボットが最初に「人間の行動能力」を備え、最終的にロボットを駆動して現実世界でいくつかのタスクを完了できるようにすることで、一般的なサービスロボットの基礎を築きます。 上記の科学的問題を解決することで、(1)行動意味検出のパフォーマンスが大幅に向上し、意味理解の範囲が拡大します。(2)インテリジェントエージェント(特にヒューマノイドロボット)の現実世界を理解する能力が効果的に強化され、同時に、タスク完了中の現実世界のフィードバックに基づいて機械が行動概念の本質を理解しているかどうかをテストし、汎用インテリジェントロボットの実現に向けた重要な基礎が築かれます。 近年、Lu Cewu氏のチームはFeixi Technologyと協力して、具現化知能の分野で汎用物体把持フレームワークGraspNet(https://graspnet.net/anygrasp.html)を構築し、あらゆるシーンで剛体、変形可能物体、透明物体などさまざまな種類の目に見えない物体を把持することを実現しました。初めてPPH(1時間あたりのピック数)指標が人間のレベルを超え、これはこれまでの最高性能のDexNetアルゴリズムの3倍です。関連論文は発表から1年以内に70回引用されました。物体の把持はロボット操作の最初のステップであり、このプロジェクトのための優れた基盤となります。 ロボットの動作とオブジェクトモデルのインタラクティブな認識は、ロボットの動作実行能力とオブジェクト知識の理解の共同学習と反復的な改善を実現します。ロボットの相互作用を通じてオブジェクトモデルの認識推定エラーを大幅に削減し、オブジェクト知識の理解に基づいてロボットの動作実行能力をさらに向上させます。これまでの純粋に視覚的な物体認識と比較して、インタラクションによって新しい情報源がもたらされ、知覚パフォーマンスが大幅に向上します。図9とビデオに示すように、 図9. 物体知識モデル - ロボット行動意思決定の反復的改善 図10. インタラクティブな知覚:ロボットの行動能力(上)とモデル理解能力(下)の共同学習(行動実行中の修正知覚の改善) 関連する研究は、ICRA 2022 で発表された論文「SAGCI システム: サンプル効率が高く、一般化可能、構成的、かつ増分的なロボット学習に向けて」です。
Lu Cewu 氏は上海交通大学の教授兼博士課程の指導者であり、人工知能を研究分野としています。 2018年にMITテクノロジーレビューにより中国の35歳未満の革新的エリート35人(MIT TR35)の一人に選ばれ、2019年には求是優秀若手学者賞を受賞した。 |
<<: 2022 年ソフトウェア エンジニア レポートが公開されました。最も高い年収はサイバーセキュリティ業界、機械学習はNLPに勝てない
>>: AIは都市部の地震監視のノイズ問題を解決すると期待されている
丸一日待った後、ついに答えが明らかになりました!先ほど、2021年のチューリング賞が発表されました。...
ディープフェイクの世界では、真実と虚偽を区別することが難しい場合があります。 AIアルゴリズム「ディ...
「サイバーセキュリティ」という用語は、ネットワークシステムにおけるハードウェア、ソフトウェア、データ...
データは今やさまざまな産業に統合され、世界市場のハイライトとなっています。現在の経済成長はデータと切...
効率性、俊敏性、生産性に対する需要が高まるにつれ、新しいテクノロジーとアプリケーションが、企業と企業...
8月9日、BlackBerryは新たな調査レポートを発表し、現在、世界中の企業の75%が職場でのCh...
この立方体の男が、目の前にいる「招かれざる客」の正体について素早く考えている様子を、注意深く見てくだ...
編纂者:ヤン・ジェン制作:51CTO テクノロジースタック(WeChat ID:blog)次世代のス...
今日、サイバー犯罪者は機械学習や人工知能などの新しいテクノロジーを使用して、標的の行動をより深く理解...
人工知能は過去10年間で急速に発展し、徐々に私たちの生活に入り込んできました。現在、人工知能はさまざ...
大規模言語モデル (LLM) は、さまざまな自然言語タスクで優れたパフォーマンスを発揮しています。た...
Amazon Rekognition を使用すると、アプリケーションに画像およびビデオ分析機能を簡単...
世界中の企業は、競合他社に対して競争上の優位性を獲得するのに役立つ高度なテクノロジーを常に探していま...