ワイツマンとNVIDIAは、自然言語を使って写真を編集できるText2LIVEを共同でリリースした。

ワイツマンとNVIDIAは、自然言語を使って写真を編集できるText2LIVEを共同でリリースした。

Photoshop のようなソフトウェアを使用することは、創造的な作業とみなされますか、それとも反復的な作業とみなされますか?

PS を使用する人にとって、画像を切り抜くなどの繰り返し作業は、特に髪の毛や不規則な形状、背景色に近い画像の場合、悪夢になる可能性があります。

画像の切り抜きやテクスチャの置き換え、マテリアルの追加などの作業を手伝ってくれる AI モデルがあれば、制作にかかる時間を大幅に節約できるのではないでしょうか。

視覚効果(VFX)を専門とする専門家の中には、画像や動画の合成における新たな取り組みや革新に興奮している人もいますが、一方で、絵画から動画の生成まであらゆることを実行できる人工知能の急速な発展に脅威を感じている人もいます。

例えば、初心者が偽の動画を生成するには、多くの学習と操作時間がかかります。ディープフェイクを使用すれば、閾値がなく、効率がはるかに高くなります。

しかし、幸いなことに、AI は現時点では全知全能ではありません。モデルはソフトウェア内の作業のごく一部しか実行できません。複数のモデルをパイプラインに組み立てる場合、それを操作するには依然として人が必要です。より複雑なタスクには、依然として人間の創造性が必要です。

ワイツマン科学研究所と NVIDIA の研究者は、Text2Live と呼ばれるモデルを提案しました。このモデルにより、ユーザーは自然言語のテキストをコマンドとして入力するだけで、特定の画像やビデオを処理できるようになります。モデルの目的は、既存のオブジェクトの外観 (オブジェクトのテクスチャなど) を編集したり、シーンに視覚効果 (煙、火など) をセマンティックな方法で追加したりすることです。

論文リンク: https://arxiv.org/pdf/2204.02491.pdf

Text2Live は、画像内の無関係なコンテンツを変更することなく、複雑な半透明効果で入力シーンを強化できます。

例えば、モデルに「煙」や「火」という呪文を唱えると、対応する効果を画像上に合成することができ、非常にリアルです。

パンの絵に「アイス」と言うと、アイスパンや「オレオケーキ」に変わります。

あるいは、動画に対して「キリンにスカーフを巻いて」と指示すると、キリンの首を正確に識別してフレームごとにスカーフを巻いたり、さまざまなエフェクトに変化させたりすることもできます。

自然言語によるプロット

視覚言語モデルの強力な意味表現機能に触発され、研究者たちは、なぜ自然言語コマンドを使って画像を編集できないのかと考えました。これにより、ユーザーは編集対象の外観やオブジェクト、領域を簡単かつ直感的に指定できますが、開発されたモデルは、テキストの手がかりに基づいてローカルで意味的な編集を認識できる必要があります。

マルチモーダル性については、4 億のテキストと画像のペアで学習された CLIP モデルがすぐに利用可能であり、視覚的およびテキスト空間におけるその膨大な豊かさは、さまざまな画像編集方法によって実証されています。

しかし、もう一つの難しさがあります。それは、現実世界のすべての画像で CLIP を使用して完璧なパフォーマンスを達成するのは簡単ではないということです。

既存の方法のほとんどは、事前トレーニング済みのジェネレーター (GAN や拡散モデルなど) と CLIP を組み合わせています。しかし、GAN では画像の領域が制限されており、入力画像を GAN の潜在空間に反転する必要があり、それ自体が困難な作業です。拡散モデルはこれらの障害を克服しますが、編集目標の達成と元のコンテンツに対する高い忠実度の維持との間でトレードオフに直面します。しかし、これらの方法をビデオに拡張するのは簡単ではありません。

Text2LIVE は異なる方法を採用し、単一の入力 (画像またはビデオとテキストプロンプト) からジェネレーターを学習することを提案します。

新たな疑問が生じます。外部の生成事前確率を使用せずに、ジェネレーターを意味のある高品質の画像編集操作に導くにはどうすればよいのでしょうか?

Text2LIVE には、この目標を達成するために設計された 2 つの主要コンポーネントがあります。

1. このモデルには、新しいテキストガイドの階層化編集が含まれています。つまり、編集された画像を直接生成するのではなく、入力レイヤーの上に RGBA レイヤー (色と不透明度) を合成して編集を表現します。

これにより、モデルは、編集レイヤーに直接適用されるテキスト駆動型の損失で構成される新しい目的関数を通じて、生成された編集コンテンツとローカリゼーションをガイドすることもできます。

たとえば、前の例では、テキストプロンプト「smoke」が使用され、編集された最終的な画像を出力するだけでなく、編集レイヤーによって表されるターゲット効果も表現されます。

2. モデルは、入力画像とテキストに対してさまざまなデータ拡張を実行して、さまざまな画像とテキストのトレーニング例で構成される「内部データセット」でジェネレーターをトレーニングします。実験結果では、この「内部学習法」が、複雑なテクスチャや半透明効果を高品質で生成できる強力な正規化として機能できることも示されています。

テキスト拡張では、主に 14 個の定義済みテンプレート プロンプトを使用して、CLIP ベクトルに多様性を提供します。

画像データのパイプラインは、単一の入力画像とターゲット テキスト プロンプトでトレーニングされたジェネレーターで構成されます。

左側は、内部データセット、つまり、異なるトレーニングインスタンスとデータ拡張で構成された内部 (画像、テキスト) ペアの後に取得されたデータセットを生成するプロセスです。

右側では、ジェネレーターが画像を入力として受け取り、RGBA 編集可能なレイヤー (色 + 透明度) を出力し、入力に基づいて合成されて最終的な編集済み画像が形成されます。

ジェネレータの最適化機能は、複数の損失項の合計であり、各損失項は CLIP 空間で定義され、主なターゲットが含まれます。画像とターゲットテキストプロンプトの一致度を反映する構成損失、生成された編集レイヤーに適用されるスクリーン損失。主な技術は、純粋な緑の背景にノイズの多い背景画像を合成して、切り抜きの精度を判断することです。構造損失は、置き換えられたテクスチャと表示効果が元のターゲットの空間分布と形状を維持できることを保証します。

研究者らは、画像に加えて、Text2LIVE をテキストガイドによるビデオ編集の分野にも拡張しました。

現実世界のビデオは通常、複雑なオブジェクトとカメラの動きで構成され、シーンに関する豊富な情報が含まれています。しかし、一貫したビデオ編集を実現することは難しく、画像のすべてのフレームに同じ操作を単純に適用することはできません。

そこで研究者たちは、ビデオを2次元アトラスのセットに分解することを提案した。各アトラスは、ビデオ全体の前景オブジェクトまたは背景を表す統合された 2D 画像として表示できます。この表現方法により、ビデオ編集の作業が大幅に簡素化されます。単一の 2D アトラスに適用された編集は、ビデオ全体にわたって一貫した方法でマッピングされます。

ビデオトレーニングパイプラインには、(a) 2D アトラスのセット、ピクセルからアトラスへのマッピング関数、および各ピクセルの前景/背景の透明度値を含む「ビデオレンダラー」として使用できる事前トレーニング済みの固定階層型ニューラルアトラスモデル、(b) フレームワークが、選択された離散アトラス IA を入力として受け取り、それを出力するジェネレーターをトレーニングする、(c) アトラス編集レイヤー EA、(d) 事前トレーニング済みのマッピングネットワーク M を使用して、編集されたアトラスを各フレームにレンダリングする、(e) 元のビデオでの合成が含まれます。

実験の定量的評価では、研究者は人間の知覚評価の方法を選択し、参加者には参照画像とターゲット編集プロンプト、および 2 つの代替オプションが示されました。

参加者は、「テキストプロンプトに基づいて、どの写真が参照画像をより適切に編集したか」を選択する必要がありました。

実験データには 82 組の (画像、テキスト) が含まれており、画像編集方法に関する 12,450 人のユーザーの判断が収集されています。投票結果によると、Text2LIVE はすべてのベースライン モデルを大幅に上回っています。

動画実験では、参加者は「テキストをよりよく反映した、より品質の高い動画」を選択する必要があります。実験データには、19 組の (動画、テキスト) と 2,400 人のユーザーの判断結果が含まれています。ご覧のとおり、Frames ベースライン モデルはタイムラインに沿って一貫性のない結果を生成しますが、Atlas ベースラインはより一貫性のある結果を生成しますが、高品質のテクスチャを生成するパフォーマンスが低く、ぼやけた結果を生成することがよくあります。

<<:  美団における短編動画コンテンツ理解・生成技術の革新的実践

>>:  世界的EDA大手のシノプシスは米国から情報漏洩の疑いで捜査を受けており、ファーウェイとSMICもその渦中に巻き込まれている。

ブログ    
ブログ    

推薦する

...

人工知能はますますあらゆる分野に浸透しつつある

近年、人工知能技術は急速に発展し、ますます多くの分野でその急速な発展の勢いと大きな可能性を発揮してい...

失敗が頻発する中、AI 翻訳者はどのように進歩の道を続けるべきでしょうか?

[[248512]]当時、英語に支配されていた恐怖を覚えている人がどれだけいるでしょうか?前日に覚...

マイクロソフトの「Office の新時代」イベント プレビューでは AI が紹介される: 新しい描画アプリ、ゲーム フレーム レートの向上など

マイクロソフトは3月8日、北京時間3月22日午前1時にオンライン新製品発表会を開催することを決定した...

無料の Python 機械学習コース パート 2: 多重線形回帰

Python で任意の数の変数に対する多重線形回帰をゼロから開発する方法を学びます。線形回帰はおそら...

人工知能を活用して機密情報を安全に保つ 5 つの方法

人工知能は企業や消費者にとって非常に便利なツールですが、この技術をどのように活用して機密情報を保護で...

...

なぜ機械学習エンジニアになりたいのですか?それは情熱や熱のせいでしょうか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...

お伝えする 5 つの理由: セキュリティ監視はなぜ人工知能なしでは実現できないのか?

人工知能は、特にセキュリティ分野において業界に大きな影響を与え始めています。成熟したセキュリティ サ...

詳細 | ビッグデータアルゴリズムアプリケーションのテストの開発

[[324462]]アリ姉の紹介:近年、データコンピューティング能力と機械知能アルゴリズムの台頭によ...

人工知能AIが創り出す素晴らしい「世界」を見に来てください

[[229314]]テキスト/ローリング1760 年代から 19 世紀半ばにかけての第一次産業革命に...

ヨシュア・ベンジオ:私は国家間のAI競争を見たくないし、現在のAIの考え方を心配している。

[[250218]]ヨシュア・ベンジオ氏は、間違いなく現代の人工知能技術分野の第一人者です。ベンジ...

2021年第2四半期の人工知能へのベンチャーキャピタル投資は200億ドルを超え、新たな記録を樹立した。

CB Insightsが発表した2021年第2四半期のAI(人工知能)レポートによると、疫病の刺激...

...