写真から五感を生成できる AI モデルはどうやってそれを実現するのでしょうか?

写真から五感を生成できる AI モデルはどうやってそれを実現するのでしょうか?

MetaImage は最近、テクノロジー界で大きな話題を呼んでいます。論文「IMAGEBIND: すべてを結合する 1 つの埋め込みスペース」では、Meta の ImageBind が埋め込みスペースを介して 5 つの異なるモダリティを画像に接続してペアリングしており、非常に興味深いです。

1. 五感を網羅するモデルの出現

たとえば、ビーチの写真を見せられたら、波の音、潮風、周囲の熱波を連想するかもしれません。逆に、いびきの音が聞こえたら、人が横になって深い眠りについている姿を想像するかもしれません。

これはまさに常識です。人間は画像から匂いや音、空間の感覚を想像することができ、逆もまた同様です。

では、AI は人間のように、さまざまな無関係なパターンを結び付けることができるのでしょうか? Meta AI が公開した ImageBind 論文はこの問題を解決します。

写真

論文の研究者らは、テキストと画像だけでなく複数のモダリティを「結合」するために、画像を主要データとして使用し、音声、サーマルマップ(サーマルイメージャー)、テキスト、IMU(慣性測定、一連の加速度計、ジャイロスコープなど)と深度をテストしました。

深さとテキストのような無関係な2つのモダリティを結び付けるために、研究者は対照学習を使用しました。この論文では、画像データを主な要件として、特定のデータで利用可能な画像への実際のリンクを表す太い実線を示しています。

写真

次に研究者らは、音声とテキストのデータポイントを取得して正しい画像やビデオを取得できる、創発的リンクがどのように発生するかを示しました。この機能は以前は存在しなかったが、新たに出現した。整列した観測値のペア(たとえば、吠える音と「犬」というテキスト)を使用して、犬の画像を正しく出力します。論文で示されているもう一つの例は、コウノトリの画像と海の波の音を組み合わせたもので、このモダリティを組み合わせて水中のコウノトリの画像を表示します。

写真

この論文の根底にあるのは、実際にはデータ ペアを画像と連結する必要がないということです。たとえば、深度情報やヒートマップ情報をテキスト(画像と実際に関連している)と組み合わせるだけで、ユーザーはこれら 3 つすべてを含む画像を作成できます。この論文ではこの現象を「創発的整合」と呼んでいる。

2. Meta のデータセットを使用しないのはなぜですか?

Meta の Facebook には、画像とテキストのペアのデータセットが最大規模で存在します。興味深いことに、研究者たちは独自のデータセットではなく、OpenAI の CLIP データセットを使用しましたが、過去 10 年間に収集した Meta 独自のデータセットを使用してモデルをトレーニングしても意味があったでしょう。一方、GPT-4 のマルチモーダル アーキテクチャの兆候は見られません。

しかし、ロボット工学研究者のヒューゴ・ポンテ氏はそうは考えておらず、Meta による CLIP の使用は賢明な動きだと考えている。

まず、CLIP は画像と言語の共有埋め込みスペースを作成する非常に強力なモデルです。 CLIP データセットに ImageBind を追加すると、モデルはテキストだけでなく、論文に記載されているほぼすべての他のモダリティにも適用できるようになります。ユーザーがオーディオ、IMU、ヒートマップ、深度、テキストデータを持っている場合、開発者はそのデータに最も近い画像を作成できます。

ポンテ氏はさらに論文と著者らが CLIP を選択した理由を分析しました。「これは賢い選択だったと思います。なぜなら、著者らは CLIP の埋め込みスペースを変更しなかったからです。つまり、過去 3 年間に発表された CLIP を使用するすべての論文に戻って、代わりに ImageBind をプラグインするだけでよいのです。」

ImageBind を使用すると、何でも CLIP に投影できます。 「彼らはCLIPを置き換えたのではなく、CLIPを拡張した。CLIPは画像とそれと一緒に表示されるテキストのペア例を必要とする対照学習にも適用できるため、さらに優れている」とポンテ氏は付け加えた。

さらに、ImageBind の作者は、Vision Transformer (ViT) を採用しました。これは、犬の画像に「犬」を関連付けるなど、さまざまなモダリティにわたる関連概念に対して同様の埋め込みを作成できる、今日の一般的なアーキテクチャです。

3. 次は何ですか?

予想通り、Meta もコードをオープンソース化しましたが、興味深いことに、商用目的に対しても厳しい制限を設け、商用利用を許可しませんでした。しかし、開発者は ImageBind を使用して巧妙な検索エンジンのデモを構築しました。検索エンジンは、テキスト、音声、さらには視覚的な入力を使用して AI によって生成された画像を取得します。

Meta AIの責任者であるヤン・ルカン氏は、このモデルが公表されなかったのは、おそらく法的な理由か、あるいはこのような幅広いパターンを扱った最初の論文だったためだと述べた。これにより、この論文の採用が遅れ、この論文に基づいて開発されたデモはわずかでした。

しかし、この大まかなパターンは、Yann Lecun の AGI アプローチへの一歩のように見えます。これまでのところ、このモデルはさまざまな「感覚」から学習し、人間が世界を認識する方法を模倣した正しい画像を生成することができます。

<<:  今日の AI 開発者にとって必須のローコード ツール 22 選

>>:  ILO: 生成型AIは大量失業を引き起こす可能性は低いが、雇用を創出するだろう

ブログ    

推薦する

マスク氏はOpenAIを訴えた。彼らはAGIを作成し、それをマイクロソフトにライセンス供与したが、これは設立協定に対する露骨な裏切りである。

つい先日、「劇的な対立に耽溺する」マスク氏は新たな行動を起こした。共同設立者の一人であるOpenAI...

AIは黄金時代を迎えているのか、それとも冬を迎えようとしているのか?

人工知能開発の世界的なブームは今も急速に進んでおり、止まる気配はありません。現在、数十カ国が経済成長...

...

ビッグニュース! ChatGPTの2つの主要イベント

1 つ目は、GPT-4 API です。完全にオープンに使用できます。 7月7日、OpenAIは公式ウ...

人工知能がドローンを「護衛」

事故の原因は特定されていないが(その後の報道では機械の故障だったとされている)、ドローンがハッカー攻...

農家は収穫を祝い、秋分の日にドローンがその技を披露するのを見てください!

黄金の秋、収穫の季節です。また秋分の日を迎え、わが国では4回目の「農民収穫祭」を迎えます。畑や広場、...

2021 年に注目すべき 9 つの IoT トレンド

[[373805]]画像ソース: https://pixabay.com/images/id-577...

2023年の7つの主要なAI技術トレンド

人工知能は現在世界を席巻しており、サプライチェーンの完全な自動化、仮想アシスタンスの提供などにより、...

ドローンは将来のスマートシティで重要な役割を果たすだろう

「スマートシティ」という概念は何十年も前から存在していたが、その最新版では、住民の生活を向上させるた...

ByteDance、最大6.9倍のパフォーマンス向上を実現した大規模モデルトレーニングフレームワークveGiantModelをオープンソース化

背景近年、NLPの応用分野では大きな進歩がありました。Bert、GPT、GPT-3などの超大規模モデ...

人民日報オンライン:「初の顔認証事件」の最終判決は極めて重要な意味を持つ

[[392372]] 4月9日、注目されていた「初の顔認証事件」の最終判決が下された。被告杭州野生動...

AlphaGoの仕組み:マルチエージェント強化学習の詳細な説明

このレビュー記事では、著者はマルチインテリジェンス強化学習の理論的基礎を詳細に紹介し、さまざまなマル...

Wi-Fi の AI がワイヤレス接続をどのように形作るか

2023年までに、おそらく人工知能ほど普及するテクノロジーはなくなるでしょう。生成型 AI の爆発的...