MITの新しい研究により、物体間の潜在的な関係性を理解し、AIが人間のように世界を「見る」ことが可能になった。

MITの新しい研究により、物体間の潜在的な関係性を理解し、AIが人間のように世界を「見る」ことが可能になった。

[[441262]]

人々がシーンを観察するとき、通常はシーン内のオブジェクトとそれらの間の関係を観察します。たとえば、次のようなシーンを説明することがよくあります。机の上にノートパソコンがあり、ノートパソコンの右側に携帯電話があります。

しかし、ディープラーニング モデルでは各オブジェクト間の関係を理解し​​ていないため、このタイプの観察を実現するのは困難です。これらの関係を理解し​​なければ、機能的なロボットがタスクを完了することは困難です。たとえば、キッチンロボットは、「中華鍋の左側にあるフルーツナイフを持ち上げてまな板の上に置く」などのコマンドを実行することが困難です。

この問題に対処するため、NeurIPS 2021 Spotlight 論文で、MIT の研究者らは、シーン内のオブジェクト間の根本的な関係を理解できるモデルを開発しました。モデルは一度に 1 つの個別の関係を特徴付け、これらの表現を組み合わせてシーン全体を記述し、テキスト記述からより正確な画像を生成できるようにします。

論文アドレス: https://arxiv.org/abs/2111.09297

現実の世界では、人々は座標によって物体の位置を特定するのではなく、物体間の相対的な位置関係に依存します。この研究の成果は、倉庫での品物の積み重ねや電化製品の組み立てなど、産業用ロボットが複雑で多段階の操作タスクを実行しなければならない状況に応用できる可能性があります。さらに、この研究は、機械が人間のように環境から学習し、環境とやりとりできるようになることに役立つ可能性があります。

一度に1つの関係を表す

この研究では、エネルギーベースのモデルを使用して個々の関係を表現し、非正規化密度に分解することを提案しています。関係シーンの記述は、関係上の独立した確率分布として特徴付けられ、個々の関係はそれぞれ別の画像上の確率分布を指定します。このような組み合わせたアプローチにより、複数の関係間の相互作用をモデル化できます。

この研究では、提案されたフレームワークが複数の構成関係を持つ画像を確実にキャプチャおよび生成し、潜在的な関係シーンの記述を推測し、意味的に同等な関係シーンの記述を堅牢に理解できることが実証されています。

一般化の点では、この方法は、トレーニング中に見られなかったデータセットからのオブジェクトや説明など、これまで見られなかった関係の説明に一般化できます。この種の一般化は、一般的な AI システムが周囲の世界の無限の変化に適応するために不可欠です。

以前のシステムの中には、すべての関係を全体として捉え、説明から一度に画像を生成するものもありました。ただし、これらのモデルは、より多くの関係が追加された画像に実際には適応できません。対照的に、私たちのアプローチでは、個別の小さなモデルを組み合わせることで、より多くの関係をモデル化し、関係の新しい組み合わせに適応できるようになります。

さらに、このシステムは逆方向にも動作することができ、画像が与えられると、シーン内のオブジェクト間の関係に一致するテキストの説明を見つけることができます。モデルは、シーン内のオブジェクトを新しい説明と一致するように並べ替えることで、画像を編集することもできます。

研究者らは、自分たちのモデルをいくつかの類似したディープラーニング手法と比較し、いずれの場合も自分たちのモデルがベースラインを上回る性能を示したことを示しました。

また、生成された画像が元のシーンの説明と一致しているかどうかを評価するよう人々に呼びかけました。 3 つの関係を説明した例では、参加者の 91% が、このモデルは以前のモデルよりもパフォーマンスが優れていると考えました。

これらの初期の結果は有望であり、研究者たちは将来、物体の遮蔽やシーンの乱雑さなどの問題を解決する必要のある、より複雑な現実世界の画像に対してモデルを実行できるようになることを期待しています。

また、このモデルが最終的にはロボットシステムに統合され、ロボットが現実世界の物体間の関係を推測し、インタラクティブなタスクをより適切に完了できるようになることも期待されています。

興味のある読者は、研究の詳細について原著論文を読むことができます。

<<:  壁を登る毛虫のように、上海交通大学の新しいソフトロボットは水平にも垂直にも動くことができる

>>:  データは1/5000に縮小されたが、モデルの精度は2倍に。Googleの新しい「蒸留法」が人気に

ブログ    

推薦する

顔認識の「レッドライン」と「ボトムライン」を理解していますか?

顔認識技術の応用を標準化するため、2023年8月8日、中国サイバースペース管理局が起草した「顔認識技...

流行後、生体認証はどこに向かうのでしょうか? 焦点は「手」に移るのでしょうか、それとも「頭」に移るのでしょうか?

庚子年の初めに、突然の疫病が中国全土に広がり、人々は突然「2003年を夢見ている」ような気分になった...

映画での演技から運転まで、人工知能の実装の5つの主要な方向性は次のとおりです。

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

99.9%の精度!小園口算は算数の問題をAIで訂正しており、誤り率は小学校教師の10分の1に過ぎない。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人民大学高陵人工知能学院はAIに音楽を聴くことを教え、9,288本のビデオデータセットも公開した。

AIが自らコンサートを楽しめることをご存知ですか?さらに、演奏シーンでは各楽器の演奏状況もAIが把...

Nature: 室温超伝導体はなぜ持続できないのか?

世界中で白熱した議論を巻き起こしたLK-99論争が終結した後、ネイチャー誌の見出しに再び「室温超伝導...

中国の顔認識技術が世界を震撼させている! (顔認証調査報告書を添付します)

顔認識は皆さんもよくご存知だと思います。過去2年間、顔認識技術の急速な発展に伴い、「顔スキャン」は徐...

重みでターゲットを選択するための Java アルゴリズム

私は現在、軍事司令官システムに取り組んでいますが、これは多くのユースケースがあるかなり複雑なシステム...

AIoTは単なる発言ではない

みなさんこんにちは。今日はAIoTについてお話します。 AIoT、つまり AI + IoT は、人工...

...

...

MIT、指の爪ほどの大きさのドローンを作れるマイクロチップを設計

MITの研究者らが、指の爪ほどの小さなドローン用コンピューターチップを設計6月21日、Venture...

...

12 の主要な AI ホットテクノロジーの方向性を網羅する、AISummit グローバル人工知能テクノロジーカンファレンス 2022 が開催されます。

人工知能は、60年以上にわたる発展の中で、数々の浮き沈みを経験してきました。近年、モバイルインターネ...