レア! Apple のオープンソース写真編集ツール MGIE が iPhone に登場?

レア! Apple のオープンソース写真編集ツール MGIE が iPhone に登場?

写真を撮り、テキストコマンドを入力すると、携帯電話が自動的に写真の編集を開始しますか?

この魔法のような機能は、Apple が最近オープンソース化した写真編集ツール「MGIE」から生まれました。

背景から人物を削除する

テーブルにピザを加える

近年、AI は画像編集の応用において大きな進歩を遂げています。一方、LLM に基づくマルチモーダル ラージ モデル (MLLM) は、画像を自然に入力と見なし、視覚知覚応答を提供できます。一方、指示ベースの編集技術では、詳細な説明や領域マスクに依存せず、画像のどの部分をどのように編集するかを直接表現する指示を人間が与えることができます。この方法は人間の直感に合致しているため、非常に実用的です。

上記の技術に触発されて、Apple は MLLM を使用して指示ガイダンスの不足の問題を解決する MGIE (MLLM-Guided Image Editing) を提案しました。

  • 論文タイトル: マルチモーダル大規模言語モデルによる指示ベースの画像編集のガイド
  • 論文リンク: https://openreview.net/pdf?id=S1RKWSyZ2Y
  • プロジェクトホームページ: https://mllm-ie.github.io/

図2に示すように、MGIEはMLLMと拡散モデルで構成されています。 MLLM は簡潔な指示を表現することを学習し、明確な視覚的なガイダンスを提供します。エンドツーエンドのトレーニングを通じて、拡散モデルは同期的に更新され、対象者の潜在的な想像力を活用して画像編集を実行します。このようにして、MGIE は固有の視覚的推論の恩恵を受け、あいまいな人間の指示を解決して、合理的な編集を実現できます。

MGIE は、人間の指示に従って、Photoshop スタイルの変更、写真全体の最適化、およびローカル オブジェクトの変更を実行できます。次の写真を例にとると、追加のコンテキストなしで「健康的」の意味を捉えることは困難ですが、MGIE は「野菜のトッピング」をピザに正確に関連付け、人間の期待に応じて適切な編集を行うことができます。

これは、少し前の決算発表でクック氏が表明した「野心」を思い出させる。「Appleは生成AIに大きなチャンスがあると思うが、詳細については話したくない」。同氏が明らかにした情報には、Appleが生成AIソフトウェア機能を積極的に開発しており、これらの機能は2024年後半に顧客に提供される予定であることも含まれている。

最近Appleが発表した一連の生成AI理論研究成果と合わせると、Appleが次にリリースする新しいAI機能に期待できそうだ。

論文の詳細

本研究で提案されたMGIE法は、与えられた指示Xを通じて入力画像Vを目標画像に編集することができる。これらの不正確な指示に対して、MGIE の MLLM は学習推論を実行して簡潔な表現指示 ε を取得します。言語と視覚的モダリティ間のギャップを埋めるために、εの後に特別なトークン[IMG]を追加し、編集ヘッドを使用してそれらを変換しました。変換された情報は、MLLM 内の潜在的な視覚イメージとして機能し、拡散モデルをガイドして目的の編集目標を達成します。 MGIE は視覚的に認識されたファジー コマンドを理解して、適切な画像編集を実行できるようになります (アーキテクチャ図は上記の図 2 に示されています)。

簡潔な表現指示

MLLM は、機能の調整と指示の調整を通じて、モーダル知覚全体にわたって視覚関連の応答を提供できます。画像編集については、この研究では画像の言語入力として「[指示]の場合、この画像はどのようになるでしょうか」というプロンプトを使用し、編集コマンドの詳細な説明を導き出しました。しかし、これらの説明は長すぎたり、誤解を招く場合も多々あります。より簡潔な説明を得るために、本研究では事前トレーニング済みの要約ツールを適用し、MLLM に要約出力の生成を学習させました。このプロセスは次のように要約できます。

潜在的想像力による画像編集

この研究では、編集ヘッドを使用して[IMG] を実際のビジュアルガイドに変換します。ここで、MLLM からの連続的な視覚トークンを意味的に意味のある潜在トークン U = {u_1、u_2、...、u_L} にマッピングし、編集ガイドとして機能するシーケンスツーシーケンス モデルです。

視覚的想像力Uを通じて画像編集を導くプロセスを実現するために、本研究では、変分オートエンコーダ(VAE)を含むだけでなく、潜在空間におけるノイズ除去拡散問題を解決する拡散モデルの使用を検討します。

アルゴリズム 1 は MGIE 学習プロセスを示しています。 MLLMは命令損失L_insを通じて簡潔な命令εを導出します。 [IMG]の潜在的な想像力の助けを借りて、その様相は変換され、結果として得られるイメージが導かれます。編集損失 L_edit は拡散トレーニングに使用されます。ほとんどの重みを固定できるため(MLLM 内の自己注意ブロック)、パラメータ効率の高いエンドツーエンドのトレーニングが可能になります。

実験的評価

入力画像の場合、同じ命令の下で、最初の行の命令が「昼を夜に変える」などの異なる方法を比較します。

表 1 は、データセット IPr2Pr のみでトレーニングされたモデルのゼロショット編集の結果を示しています。 Photoshop スタイルの変更を伴う EVR および GIER の場合、編集結果はガイダンスの意図に近くなります (例: LGIE は EVR で 82.0 というより高い CVS を取得します)。 MA5k でのグローバル画像最適化の場合、関連するトレーニング トリプレットが不足しているため、InsPix2Pix の処理は困難です。 LGIE と MGIE は LLM の学習を通じて詳細な説明を提供できますが、LGIE はまだ単一のモダリティに制限されています。 MGIE は画像にアクセスすることで、どの領域を明るくするか、どのオブジェクトを鮮明にするかなどの明示的な指示を導き出すことができ、パフォーマンスが大幅に向上します (例: SSIM が 66.3 に上昇し、カメラ距離が 0.3 に低下)。MagicBrush でも同様の結果が得られました。 MGIE は、正確な視覚画像から最高のパフォーマンスを実現し、指定されたターゲットを目標として修正します (例: より高い 82.2 DINO 視覚類似性、より高い 30.4 CTS グローバル キャプション配置)。

特定の目的のための指示ベースの画像編集を研究するために、表 2 のモデルは各データセットで微調整されています。 EVR と GIER の場合、すべてのモデルは Photoshop スタイルの編集タスクに適応した後に改善されました。 MGIE は編集のあらゆる面で一貫して LGIE を上回ります。これはまた、表現的な指示による学習が画像編集を効果的に強化できること、そして視覚知覚が最大限の強化のための明確なガイダンスを得る上で重要な役割を果たすことを示しています。

α_Xとα_Vの間のトレードオフ。画像編集には、ターゲットを命令として操作することと、画像の残りの部分を入力として保存するという 2 つの目標があります。図3は、命令(α_X)と入力一貫性(α_V)間のトレードオフ曲線を示しています。この研究ではα_Xを7.5に固定し、α_Vを[1.0, 2.2]の範囲で変化させた。 α_V が大きいほど、編集結果は入力に類似しますが、指示との一貫性は低くなります。 X 軸は CLIP 方向の類似度、つまり編集結果と指示の一貫性を計算し、Y 軸は CLIP ビジュアル エンコーダーと入力画像間の特徴の類似度です。特定の表現指示を使用すると、実験はすべての設定で InsPix2Pix よりも優れたパフォーマンスを発揮します。さらに、MGIE は明示的な視覚関連のガイダンスで学習できるため、全体的な改善につながります。これにより、より高い入力関連性または編集関連性が必要かどうかに関係なく、堅牢な改善がサポートされます。

アブレーション研究

さらに、研究者らは、命令を表現する際の異なるアーキテクチャ FZ、FT、E2E のパフォーマンスを考慮したアブレーション実験も実施しました。結果は、MGIE が FZ、FT、E2E で一貫して LGIE を上回っていることを示しています。これは、主要な視覚知覚を伴う表現指示が、すべてのアブレーション設定において一貫して利点があることを示しています。

MLLM ブートストラップが役立つのはなぜですか?図5は、入力または真のターゲット画像と表現指示の間のCLIPスコア値を示しています。入力画像の CLIP-S スコアが高いほど、指示が編集ソースに関連していることを示し、ターゲット画像との整合性が高いほど、明確で関連性のある編集ガイダンスが提供されます。図に示すように、MGIE は入力/ターゲットとの一貫性が高く、それがその表現指示が役立つ理由を説明しています。期待される成果を明確に説明することで、MGIE は画像編集における最大の改善を実現できます。

手動評価。自動測定に加えて、研究者らは手動評価も実行しました。図 6 は生成された表現指示の品質を示しており、図 7 は指示の追従性、真実の関連性、全体的な品質の観点から InsPix2Pix、LGIE、MGIE の画像編集結果を比較しています。

推論の効率。 MGIE は画像編集を容易にするために MLLM に依存していますが、簡潔な表現命令 (32 トークン未満) のみを導入しているため、その効率は InsPix2Pix に匹敵します。表 4 に、NVIDIA A100 GPU での推論時間コストを示します。 MGIE は、1 回の入力に対して 10 秒以内に編集タスクを完了できます。データの並列性を高めると、必要な時間は同様になります (バッチ サイズ 8 の場合は 37 秒)。プロセス全体は 1 つの GPU (40 GB) だけで完了できます。

定性的な比較。図 8 は使用されたすべてのデータセットの視覚的な比較を示しており、図 9 はさらに LGIE または MGIE の表現指示を比較しています。

プロジェクトのホームページでは、研究者らがさらに多くのデモも提供しています (https://mllm-ie.github.io/)。研究の詳細については原著論文を参照してください。

<<:  CMU と ETH が画期的な成果を達成: 敏捷性が最大限に高められたロボット犬は、スピードと安全性を兼ね備え、超高速で障害物を乗り越えることができます。

>>:  ネットワーク人工知能とは何ですか?

ブログ    
ブログ    
ブログ    

推薦する

テンセントクラウドが高性能アプリケーションサービスHAIを開始、すべての開発者が独自のAIアプリケーションを開発可能に

AIGC アプリケーション開発のハードルを下げることによってのみ、次の AIGC 驚異的アプリケーシ...

AI、機械学習、RPA業界への期待

毎年、IT 業界メディアの eWEEK では、新製品、革新的なサービス、開発動向など、IT 業界の今...

ウェブ開発のための機械学習フレームワークトップ 5

この記事では、TensorFlow や Caffe など、Web 開発用の主要な機械学習フレームワー...

ディープラーニングにも欠陥があり、同質のAIスタートアップ間の競争は熾烈になるだろう

[[186262]]この人工知能の波は急速に到来し、画像認識、音声認識、自動運転など、多くの難題を次...

CMU、清華大学、MITが世界初のエージェント無限フローをリリース。ロボット「007」は残業して勉強が止まらない!具現化された知能は革命を起こしている

世界初の生成型ロボットエージェントがリリースされました!長い間、大規模なインターネットデータでトレー...

人工知能技術は、インターホンを構築する主流の技術の1つになると期待されています

現在、人工知能、ビッグデータ、顔認識技術、クラウドコンピューティングなどの新技術が急速に発展し、産業...

3分レビュー:2021年11月の自動運転業界の完全な概要

チップ不足と疫病の影響により、今年初めから自動運転産業の発展は減速を余儀なくされたが、数か月の回復を...

...

...

商用 AI をマスターする: RAG と CRAG を使用したエンタープライズ レベルの AI プラットフォームの構築

当社のガイドで、ビジネスに AI の力を活用する方法を学びましょう。 RAG と CRAG の統合、...

2021 年に AI と ML に参入する前に知っておくべき 10 のこと

高度な新しい AI アルゴリズムを使用して複雑な問題を解決し、高い給料を得られるというのは魅力的に思...

止まらないAIブームに一部の企業は慌てている

AMD は、世界中の IT リーダーを対象にした新しい調査の結果を発表し、多くのリーダーが最近の人工...

エントリーレベルのデータベースアルゴリズム [パート 2]

前回の記事「エントリーレベルのデータベースのアルゴリズム [I]」では、いくつかのデータ アルゴリズ...