写真から五感を生成できる AI モデルはどうやってそれを実現するのでしょうか?

MetaImage は最近、テクノロジー界で大きな話題を呼んでいます。論文「IMAGEBIND: すべてを結合する 1 つの埋め込みスペース」では、Meta の ImageBind が埋め込みスペースを介して 5 つの異なるモダリティを画像に接続してペアリングしており、非常に興味深いです。

1. 五感を網羅するモデルの出現

たとえば、ビーチの写真を見せられたら、波の音、潮風、周囲の熱波を連想するかもしれません。逆に、いびきの音が聞こえたら、人が横になって深い眠りについている姿を想像するかもしれません。

これはまさに常識です。人間は画像から匂いや音、空間の感覚を想像することができ、逆もまた同様です。

では、AI は人間のように、さまざまな無関係なパターンを結び付けることができるのでしょうか? Meta AI が公開した ImageBind 論文はこの問題を解決します。

写真

論文の研究者らは、テキストと画像だけでなく複数のモダリティを「結合」するために、画像を主要データとして使用し、音声、サーマルマップ（サーマルイメージャー）、テキスト、IMU（慣性測定、一連の加速度計、ジャイロスコープなど）と深度をテストしました。

深さとテキストのような無関係な2つのモダリティを結び付けるために、研究者は対照学習を使用しました。この論文では、画像データを主な要件として、特定のデータで利用可能な画像への実際のリンクを表す太い実線を示しています。

写真

次に研究者らは、音声とテキストのデータポイントを取得して正しい画像やビデオを取得できる、創発的リンクがどのように発生するかを示しました。この機能は以前は存在しなかったが、新たに出現した。整列した観測値のペア（たとえば、吠える音と「犬」というテキスト）を使用して、犬の画像を正しく出力します。論文で示されているもう一つの例は、コウノトリの画像と海の波の音を組み合わせたもので、このモダリティを組み合わせて水中のコウノトリの画像を表示します。

写真

この論文の根底にあるのは、実際にはデータペアを画像と連結する必要がないということです。たとえば、深度情報やヒートマップ情報をテキスト（画像と実際に関連している）と組み合わせるだけで、ユーザーはこれら 3 つすべてを含む画像を作成できます。この論文ではこの現象を「創発的整合」と呼んでいる。

2. Meta のデータセットを使用しないのはなぜですか?

Meta の Facebook には、画像とテキストのペアのデータセットが最大規模で存在します。興味深いことに、研究者たちは独自のデータセットではなく、OpenAI の CLIP データセットを使用しましたが、過去 10 年間に収集した Meta 独自のデータセットを使用してモデルをトレーニングしても意味があったでしょう。一方、GPT-4 のマルチモーダルアーキテクチャの兆候は見られません。

しかし、ロボット工学研究者のヒューゴ・ポンテ氏はそうは考えておらず、Meta による CLIP の使用は賢明な動きだと考えている。

まず、CLIP は画像と言語の共有埋め込みスペースを作成する非常に強力なモデルです。 CLIP データセットに ImageBind を追加すると、モデルはテキストだけでなく、論文に記載されているほぼすべての他のモダリティにも適用できるようになります。ユーザーがオーディオ、IMU、ヒートマップ、深度、テキストデータを持っている場合、開発者はそのデータに最も近い画像を作成できます。

ポンテ氏はさらに論文と著者らが CLIP を選択した理由を分析しました。「これは賢い選択だったと思います。なぜなら、著者らは CLIP の埋め込みスペースを変更しなかったからです。つまり、過去 3 年間に発表された CLIP を使用するすべての論文に戻って、代わりに ImageBind をプラグインするだけでよいのです。」

ImageBind を使用すると、何でも CLIP に投影できます。「彼らはCLIPを置き換えたのではなく、CLIPを拡張した。CLIPは画像とそれと一緒に表示されるテキストのペア例を必要とする対照学習にも適用できるため、さらに優れている」とポンテ氏は付け加えた。

さらに、ImageBind の作者は、Vision Transformer (ViT) を採用しました。これは、犬の画像に「犬」を関連付けるなど、さまざまなモダリティにわたる関連概念に対して同様の埋め込みを作成できる、今日の一般的なアーキテクチャです。

3. 次は何ですか?

予想通り、Meta もコードをオープンソース化しましたが、興味深いことに、商用目的に対しても厳しい制限を設け、商用利用を許可しませんでした。しかし、開発者は ImageBind を使用して巧妙な検索エンジンのデモを構築しました。検索エンジンは、テキスト、音声、さらには視覚的な入力を使用して AI によって生成された画像を取得します。

Meta AIの責任者であるヤン・ルカン氏は、このモデルが公表されなかったのは、おそらく法的な理由か、あるいはこのような幅広いパターンを扱った最初の論文だったためだと述べた。これにより、この論文の採用が遅れ、この論文に基づいて開発されたデモはわずかでした。

しかし、この大まかなパターンは、Yann Lecun の AGI アプローチへの一歩のように見えます。これまでのところ、このモデルはさまざまな「感覚」から学習し、人間が世界を認識する方法を模倣した正しい画像を生成することができます。

<<: 今日の AI 開発者にとって必須のローコードツール 22 選

>>: ILO: 生成型AIは大量失業を引き起こす可能性は低いが、雇用を創出するだろう

Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、これは Sora の再現に役立つでしょうか?

写真から五感を生成できる AI モデルはどうやってそれを実現するのでしょうか?

1. 五感を網羅するモデルの出現

2. Meta のデータセットを使用しないのはなぜですか?

3. 次は何ですか?

Stable Diffusion 3 の論文がついに公開され、アーキテクチャの詳細が明らかになりましたが、これは Sora の再現に役立つでしょうか?

医療業界における人工知能の5つの主要な応用シナリオと典型的な事例

一般開発者もBaidu Brain Industry Application Innovation Challengeに参加して大きな賞金を獲得できる

作業の重複をなくしましょう！ 30分で独自のディープラーニングマシンを作成する方法を教えます

カメラを開くと、2Dイラストがリアルタイムでアニメーション化されます。中国のプログラマーが制作し、デモはオンラインで入手できます。

クラウドコンピューティングと人工知能が、先進的な企業に前例のない機会を生み出す方法

グラフのディープラーニングのための 7 つのオープンソースライブラリ

ChatGPTコードインタープリターとJupyter Notebookを組み合わせてコーディング機能を強化

推薦する

Google の最新 AI モデル「Gemini」について知っておくべきことすべて

宮崎駿のアニメで新垣結衣を見たことがありますか？このオープンソースのアニメジェネレーターは、写真を数秒で手描きの日本のアニメに変換します

マイクロソフトの深夜革命、GPT-4 Office フルパッケージが登場!月30ドルで10億人の労働者の雇用が奪われる？

AIを使ってAIを評価する上海交通大学の新しい大規模モデルは、いくつかのタスクでGPT-4を上回り、モデルデータはオープンソースです

「脳コンピューターインターフェースドレス」とはどのようなものでしょうか？ 1024個の独立した電極、機械学習、カスタムチップ

ストーリーを伝えれば、動画が編集されます。AI による動画編集の自動化により、パンダの目を持つ編集者が解放されます。

ハーバード大学とMITがあるボストンは、政府が顔認識を禁止したと公式に発表した。

AIの次の目的地はどこでしょうか?

GPT-4の数学スコアがさらに30ポイント増加、コードパーサーの仁経絡と杜経絡が開き、ネットユーザー：それは脳の働きのようです

Canalys：2027年までにPCの60％がAI機能に対応し、出荷台数は1億7500万台を超える見込み