コーネル大学コンピューティング学部学部長、カビタ・バラ氏: メタバースとは何ですか? AIによって神の目が誕生するかも

コーネル大学コンピューティング学部学部長、カビタ・バラ氏: メタバースとは何ですか? AIによって神の目が誕生するかも

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

近年の私の研究は、ミクロンの解像度から世界クラスまでの視覚的な外観と理解に焦点を当てています。スピーチを始める前に、非常に興味深い例をお見せしましょう。この映画で主人公が世界とやりとりするビジュアルインターフェースは非常に興味深いものです。

この人が現実世界を歩いていると、一連のテキストが視覚インターフェースに表示されることがわかります。主人公は車愛好家なので、ビジュアル インターフェースには車に関する豊富な情報が表示されます。

写真だけで、ビジュアルインターフェースが車に関するすべての情報を伝えます。この技術を進歩させるには、コンピュータービジョンと視覚理解の研究が必要です。

主人公は歩き続け、これらのモデルに近づくと、彼らは非常にリアルに見えますが、実際の人々ではないことがわかります。このような技術を実現するには、リアルな外観を研究する必要があります。

それから主人公はショッピングウィンドウまで歩いて行き、ウィンドウ内の商品をすべて見ました。今回は、ビジュアル インターフェースによって、内部の製品に関するすべての情報が表示され、製品を着用した際の効果もシミュレートされるため、主人公は実際に製品に触れることなく製品を体験できます。

ビデオで紹介した効果を実現するには、製品のすべての属性をデジタル化して操作できるようにする「インバース グラフィックス」と呼ばれるテクノロジが必要です。

これらの例を挙げて、私たちが開発しているさまざまな技術を皆さんにご紹介したいと思います。皆さんは、拡張現実/複合現実という言葉をよく耳にしたことがあると思います。今お話しした技術は、現在、拡張現実の開発を牽引している技術です。今日はビジュアルテクノロジーに焦点を当てます。

モデルは非常にリアルに見えるため、本物か偽物か見分けることができません。これがコンピュータ グラフィックスの分野におけるリアルな外観です。この分野には別の方向性があり、物体の写真を撮り、写真に写っている物体のすべての特性を理解することです。その後、これを基にして世界の特性を理解し続けることができます。

本日お話しする主なポイントは次の 3 つです。

  • 物理ベースの外観モデル
  • グラフィックス
  • 世界規模のビジュアル発見

1物理ベースの外観モデル

まずは物理ベースのグラフィックスから始めましょう。

まず、有名なテストであるコーネル ボックス テストを紹介します。このテストは、レンダリングされたシーンを同じシーンの実際の写真と比較することで、レンダリング ソフトウェアの精度を判断することを目的としています。私が皆さんにお見せした 2 枚の写真は、1 枚は人工的にレンダリングされたもので、もう 1 枚は実際のものです。実際、左側は実際のシーンで、右側は仮想の写真です。

何年もの間、人々はこのテストでは偽物だと検出できない画像を作成するために取り組んできました。しかし、現実の世界はコーネルボックスの絵ほど単純ではありません。現実の世界には、この絵に示されている布地、皮膚、葉、食べ物など、さまざまな素材が存在します。人々は常に世界と関わり、見ているものが現実であるかどうかを判断しています。下の左の写真のモデルのリアルな視覚効果をシミュレートしたい場合、これらの複雑なマテリアルをどのように表現するかが大きな課題であり、これは私が長年研究してきた問題でもあります。

そこで、生地や布地の見た目を適切に捉える方法についてお話します。まず質問から始めましょう。この 2 枚の写真を見てください。人間であれば、左側がベルベットで、右側が光沢のあるシルクのような素材であることがすぐにわかります。なぜすぐにわかるのでしょうか。ベルベットがベルベットのように見えるのはなぜでしょうか。また、シルクがベルベットと違ってシルクのように見えるのはなぜでしょうか。

答えは「構造」です。

2 つの生地は表面が異なるだけでなく、構造が異なるため視覚効果も異なります。この構造を理解すれば、彼らのビジョンの本質を捉えたことになります。

そこで、私たちが最初のプロジェクトで行ったのは、これらの材料のマイクロ CT スキャンを調べることでした。

ベルベットのマイクロ CT スキャンでは、ベルベットが毛皮のような素材であることがわかります。

シルクの構造はまったく異なります。シルクは非常に密に織り合わされており、縦糸と横糸が特定のパターンを形成しています。シルクの構造が非常に密であるため、シルクに光沢のある効果が生じます。

この時点で、材料の微細構造を把握していれば、基本的に材料の外観モデルを把握できることがわかります。材料が非常に複雑であっても、本質的には同じままです。

構造がわかれば、色などの光学特性に関する情報もわかります。この情報は、この素材のリアルな視覚効果を再現できる完全なモデルを提供するのに十分です。

写真に示すように、2つの生地の構造的特徴を理解することで、ベルベットとシルクの視覚効果を復元することに成功しました。

私たちは、実際にこれらのモデルを一般化し、それが現実世界でどのような応用ができるかを考えるために多くの研究を行っています。このツールにより、工業デザイナーやテキスタイルデザイナーなどがデジタルプロトタイピングをより簡単に行えるようになり、実際の織物の外観をシミュレートできるようになると私たちは考えています。

工業用織機では、ボビンに実際の糸が使用され、織り模様が追加された後、工業用織機は右下に示すような布地を生産します。私たちが作成したい現代の視覚的チューリングテストは、本質的には、CT スキャンと写真の組み合わせを使用して工業用織機と同じ効果を実現できる完全にデジタルなパイプラインです

この仮想的でありながらリアルなビジュアルにより、デザイナーは実際に生地を製造することなく重要な決定を下すことができます。

実際に、材料構造をより直感的に表現する低次元モデルと 22 個のパラメータを作成しましたが、このツールを活用できればデザイナーの力はさらに大きくなります。

これら 22 個のパラメータは、私がこれから説明する 2 番目のトピックである逆グラフィックスにつながります。

2逆グラフィック

私たちが直面する 2 番目の問題は、これらのモデルを作成した後、どのようにそれに適応するかということです。これはコンピュータグラフィックス研究においても重要なトピックです。

まず、光と物体の表面の関係から始めましょう。

光が金属の表面に当たると反射されます。皮膚、食品、布地などの他の材料の場合、光がそれらの表面に当たると、光は表面に入り、ある程度物体と相互作用します。これを表面下散乱と呼びます。

上の写真のように、お寿司が美味しいかどうかを判断する方法は、そのツヤと鮮度で判断することです。したがって、特定のオブジェクトの視覚効果をシミュレートする場合は、光がオブジェクトの表面に当たったときに何が起こるかを理解する必要があります。

図1: エンドツーエンドのパイプライン

理想的には、写真を撮った後に、写真内の物体がどのような物質特性を持っているか、どのような物質パラメータを持っているかがわかるような、ある種の学習された表現があり、また、異なる散乱に関する 3 つのパラメータ(光が媒体内をどれだけ移動したか、どれだけ散乱したか、散乱時の物質のアルベドはどの程度だったかなど)もわかるようになるでしょう。

今では、光が表面に当たる物理現象全体をシミュレートできる非常に優れた物理ベースのレンダラーがあるので、このようなパイプラインを作成する能力があると思います。

物理ベースのレンダラーと学習した表現を組み合わせてこのエンドツーエンドのパイプラインを取得し、出力画像を入力画像と一致させて損失を最小限に抑えると、マテリアル プロパティ (つまり、上の図の中央にあるマテリアル π) を取得できます。

これを効果的に行うには、学習と物理学を効果的に組み合わせ、世界の物理的なレンダリング プロセスをひっくり返し、逆のパラメーターを取得するために懸命に取り組む必要があります。

しかし、形状や材質を復元することは困難であり、上記の処理にはレンダリングエンジンRが微分可能であることが必要であり、この問題については近年多くの研究が行われている。

映画のシーンのような製品の視覚効果を復元するには、微分化可能なレンダリング パイプラインが必要です。つまり、復元する属性の損失を区別できる必要があります。以下は、マテリアルとジオメトリを復元する例です。チェーン メソッドを使用して、サーフェスのエッジを単純にサンプリングし、必要な情報を取得できます。

すると、次の図に示すように、オブジェクトの視覚効果を復元するプロセスを思いつくことができます。まず、携帯電話を使用して、復元したいオブジェクトの一連の写真を撮影し、写真を初期化し、材質と形状を最適化し、微分レンダリングを通じて再度最適化します。最終的に、オブジェクトはリアルなシミュレーション効果を提示し、拡張現実/仮想現実などのアプリケーションで使用できるようになります。

表面下散乱は視覚シミュレーションにおいて非常に重要な現象です。下の写真はCubesと呼ばれる多くのアーティストの作品です。これらは実際には98種類の食品から作られた2.5cmの立方体です。 98 種類の食品の表面はそれぞれ異なっており、複雑であるため、探索への興味が掻き立てられました。

食品の表面は非常に複雑なので、材質の特性を再現する際には表面下散乱を考慮する必要があります。この点の詳細については、後ほど論文で紹介します。私たちは、完全に差分化されたレンダリング パイプラインを開発しました。このパイプラインを使用して、表面下散乱を中心とした材料特性を回復します。最後に、2 つの果物の異なる素材と形状を復元し、キウイ キューブとドラゴン フルーツ キューブの視覚効果をうまく表現しました。

図1: キウイとドラゴンフルーツのキューブを復元するプロセス

上記の研究では、学習と物理学を組み合わせて、次の3つの重要な点をまとめました。

  • 視覚現象を理解する;
  • オブジェクトの視覚効果を復元する前に、まずその視覚効果を予測します。
  • ユーザーが制御します。

3世界規模の視覚的発見

映画のシーンで、主人公が通りを歩いていて、ショーウィンドウの商品を眺めていると、視覚的なインターフェースが、見た物に関するすべての情報を主人公に伝えるシーンを覚えていますか?

これは、コンピュータビジョンにおける大きな研究分野である細粒度物体認識です。細粒度物体認識は、製品認識や不動産など多くの業界で応用されています。

キャプション: きめ細かな物体認識により正確な情報を提供

たとえば、この写真では、きめ細かい物体認識により、この人が x を持っていることがわかります。この x はハンドバッグを指しているわけではありません (ほとんどの人はわかります)。ただし、ここでは x は特定のブランドのハンドバッグを指しています。このような正確な知識は、ほとんどの普通の人にはわかりません。

本質的には、視覚認識を通じて専門家レベルの情報、さらには複数の分野の専門家レベルの情報を提供できるため、非常にエキサイティングな研究だと思います。

この写真にはキャンプファイヤーストーブが写っています。視覚だけではこの物体の用途を判断できない人もいるかもしれません。きめ細かい物体認識により、これがキャンプファイヤーストーブであることが分かるだけでなく、作品名、購入場所、デザイナーに関する情報も得られます。

図: IKEA アプリ

私たちはこの使い方をIKEAの拡張現実アプリで開始しました。私たちは、視覚認識と仮想レンダリングを拡張現実アプリに組み合わせ、視覚インターフェースに関するこれまでのアイデアが徐々に現実のものになり始めました。

図1: MetaのショッピングAI GrokNetインターフェース

上記の調査は、実際にはMetaのショッピングAI「GrokNet」の一部です。 GrokNet のモットーは、すべての画像を購入可能にすることです。一方、私の研究チームと私は、すべての画像を理解可能にすることを目指しています。

上で述べたのは比較的基本的な研究ですが、現在私たちが行っているのは、写真、ビデオ、さらには衛星画像など、前例のない規模で視覚情報を収集することです。近年、私たちの衛星の数は大幅に増加しました。現在、約 1,500 基の衛星があり、毎日 100 テラバイトのデータをアップロードしています。衛星画像を理解できれば、世界全体の発展の方向性を理解し、世界で何が起きているかを知ることができます。これは非常にエキサイティングな研究分野です。

キャプション: 地球規模のイメージを理解できるでしょうか?

世界レベルでこの絵を理解できれば、絵の中の「私たちはどう生きるべきか」という問いに答えることができます。何を着ればいいですか?何を食べようか?私たちの行動は時間の経過とともにどのように変化するのでしょうか?地球は時間の経過とともにどのように変化してきましたか?

そこで私たちは人類学者や社会学者と協力してこの問題を研究し始めました。彼らはこれらの問題に関心を持っていましたが、研究するための強力なツールがありませんでした。私たちが一緒に研究していた人類学者の一人は、世界中で衣服がどのように変化したかに非常に興味を持っていました。そして、この疑問は実際には多くの側面に関係していることがわかりました。

世界のさまざまな地域の人々はなぜ服装が違うのでしょうか?理由はいくつかあると考えています:

  • 天気は非常に重要な理由です。ここの天気はカリフォルニアよりも涼しいので、私たちは夏にカリフォルニアの人々とは違った服装をします。
  • パーティーやスポーツイベント、さまざまなアクティビティや行事に参加する場合も、特定の服を着る必要があります。
  • 文化の違いにより、世界中で服装が異なる場合があります。
  • ファッショントレンドも影響を与える要因です。

そこで私たちはこの問題の調査に乗り出し、世界中の人々の約 800 万枚の画像セットを分析し始めました。私たちは、人がどんな服を着ているかを識別するための、12 個の属性を含むシンプルな認識アルゴリズムを開発しました。

それで、この研究から何がわかったのでしょうか?

私たちの分析から、右上隅の人々は緑色を着用する傾向があり、左下隅の人々は赤色を着用する傾向があるなど、特定のパターンがわかります。

ビッグデータの分析を通じて、いくつかのデータは私たちの想定と一致していることがわかりました。たとえば、天気は人々の服装に影響を与えます。人々は冬には厚手の服を選び、夏には涼しい服を着ます。これは論理的です。しかし、いくつかの側面では奇妙なデータ現象があります。下の図に示すように、過去数年間のシカゴでは、人々が緑色の服を選んだ時期がいくつかありました。

これらの日付はすべて毎年 3 月です。調査の結果、これらの日付がシカゴの聖パトリックの日であることがわかりました。

これは非常に重要な地元の祝日であり、シカゴの人々はこの日に緑色の服を着ることを選択します。地元の人でないと、この文化活動について知らないかもしれません。

図:世界中で重要な文化イベント。人々はこれらのイベントのためにさまざまな色の服を着ます

ビッグデータから人々の服装の変化を特定することで、地域の文化・政治活動を把握し、世界中のさまざまな地域文化を理解することができます。以上が、世界の観点から画像情報の意味を理解する方法です。

オリジナル動画リンク: https://www.youtube.com/watch?v=kaQSc4iFaxc

<<:  AIカメラとLiDARがスマート道路にとって重要な理由

>>:  AI 開発の加速: 企業はどのように MLOps を使用して生産効率を向上できるでしょうか?

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

研究:インターネットには低品質の機械翻訳コンテンツが溢れており、大規模な言語モデルのトレーニングではデータの罠に注意する必要がある

2月4日、アマゾンクラウドコンピューティング人工知能研究所の研究者らは、インターネット上の大量のコン...

効果的なITセキュリティにとってAIと機械学習がますます重要になる理由

セキュリティ専門家の観点から見ると、現在、AI と機械学習を導入する必要性が高まっています。彼らは、...

Kubernetes上の機械学習プラットフォームの実践

背景これまで、音楽アルゴリズムのモデル トレーニング タスクは、物理マシン上で開発、デバッグ、スケジ...

「ビッグモデルは基本的に2つのファイルです!」テスラの元AIディレクターが一般向けに1時間にわたるLLMポピュラーサイエンスを披露

テスラの元AIディレクター、アンドレイ・カルパシー氏の新しいチュートリアルが話題になっている。今回、...

人工知能とクラウドコンピューティングの組み合わせは、企業ビジネスの飛躍的成長をどのように促進するのでしょうか?

Statistaの最近のレポートによると、「AI市場の世界的価値は2025年までに年間890億ドル...

...

Uber Ludwig は、ローコード機械学習用のオープンソース フレームワークです。

[[330500]] 【51CTO.com クイック翻訳】ディープラーニング モデルのトレーニング...

Baidu Shen Dou: AIネイティブアプリケーションを作成するには2つのステップが重要

2024年1月10日、Honor MagicOS 8.0発表会と開発者会議において、Honor Te...

CIIE 2019 サノフィと朱江知能が共同で医療のデジタル未来を創造

第2回中国国際輸入博覧会が11月10日に成功裏に終了した。医療機器と医薬健康展示エリアでは、世界有数...

AIと機械学習に切り替えるには、次の5つのスキルを習得する必要があります

1. 機械学習をスキルとして扱うソフトウェア エンジニアとして、私たちは常に学習し、進化するフレーム...

...

AIを実際にどのように実装するかまだ検討中ですか? OpenPOWERは未来がここにあることを伝えます

[51CTO.com からのオリジナル記事] モノのインターネットの普及とセンサーの広範な使用により...

ベセット氏との対話:自動運転車が人間の信頼を勝ち取るのはいつでしょうか?

[[257915]]編集者注:自動運転車が私たちの信頼を得られるのはいつでしょうか? 「十分に安全...

美団テイクアウト広告のためのインテリジェントコンピューティングパワーの探求と実践

著者 | 嘉宏、舜慧、郭良 他ディープラーニングの時代では、コンピューティングパワーの需要と消費が増...

2019年の自動運転のキーワード:冬眠と迂回による救国

何年もの間大騒ぎされていた自動運転の人気も、ようやく落ち着いてきた。世界の資本市場が寒い冬の時期に入...