2月8日、マイクロソフトの急速な発展と比較すると、AppleのAI分野における展開ははるかに控えめであるように思われるが、これはAppleがこの分野で成果を上げていないことを意味するものではない。 Appleは最近、自然言語の指示に基づいて画像を編集できる「MGIE」と呼ばれる新しいオープンソースの人工知能モデルをリリースした。 画像出典: VentureBeat および Midjourney MGIE の正式名称は MLLM ガイド付き画像編集であり、マルチモーダル大規模言語モデル (MLLM) を使用してユーザーの指示を解釈し、ピクセルレベルの操作を実行します。 MGIE は、ユーザーが指定した自然言語コマンドを理解し、Photoshop スタイルの変更、写真のグローバル最適化、ローカル編集などの操作を実行できます。 Appleとカリフォルニア大学サンタバーバラ校の研究者は協力し、人工知能研究のトップカンファレンスの1つである2024年国際学習表現会議(ICLR)でMGIE関連の研究成果を発表する予定です。 MGIE を紹介する前に、まず MLLM を紹介したいと思います。 MLLM は、テキストと画像を同時に処理できる強力な AI モデルであり、指示ベースの画像編集機能を強化します。 MLLM はクロスモーダル理解と視覚知覚応答生成において優れた能力を示していますが、画像編集タスクではまだ広く使用されていません。 MGIE は、2 つの方法で MLLM を画像編集プロセスに統合します。まず、MLLM を使用して、ユーザー入力から表現指示を導き出します。説明は簡潔で、編集プロセスに関する明確なガイダンスを提供します。 たとえば、入力が「空をもっと青くする」である場合、MGIE は「空の領域の彩度を 20% 上げる」という命令を生成できます。 次に、MLLM を使用して、望ましい編集の潜在的な表現である視覚的な想像力を生成します。この表現は編集の本質を捉えており、ピクセルレベルの操作をガイドするために使用できます。 MGIE は、命令推論、視覚的想像力、画像編集モジュールを共同で最適化するための新しいエンドツーエンドのトレーニング スキームを採用しています。 MGIE は、単純な色調整から複雑なオブジェクト操作まで、幅広い編集状況に対応できます。モデルは、ユーザーの好みに応じてグローバル編集とローカル編集を実行することもできます。 MGIE の機能と特徴の一部を以下に示します。
MGIE は GitHub 上のオープンソース プロジェクトであり、ユーザーはコード、データ、事前トレーニング済みモデルを見つけることができます。このプロジェクトでは、MGIE を使用してさまざまな編集タスクを実行する方法を示すデモ ノートブックも提供されます。 |
>>: 今日から彼は、黄仁訓院士です!米国工学アカデミーの2024年会員リストが発表され、清華大学の黄一東氏らが外国人会員に選出される
今月初め、OpenAIは、史上最大の人工知能モデルを構築したと発表した。これは「GPT-3」と名付け...
10月10日、最近のレポートによると、OpenAIの人工知能チャットボットChatGPTの収益成長が...
コンピューター ビジョンでは、オブジェクト レベルの 3D サーフェス再構築テクノロジは多くの課題に...
RSA 暗号化は、かつては最も信頼性の高い暗号化アルゴリズムと考えられていましたが、Shor のア...
OpenAIは新たな発表を行った。取締役会はアルトマン氏の決定を拒否する権限を持つようになった。特に...
活性化関数(変換関数とも呼ばれる)は、ニューラル ネットワークを設計するための鍵となります。活性化関...
近年、人工知能技術は急速に発展し、ますます多くの分野でその急速な発展の勢いと大きな可能性を発揮してい...
[[265146]]自然言語処理の基礎を学び、2 つの便利な Python パッケージを調べます。自...
2016年3月にアルファ碁が囲碁の世界チャンピオン、イ・セドルを破って以来、人工知能は大きな注目を集...
研究者らが開発した新しい技術は、機械学習モデルの推論と人間の推論を比較し、ユーザーがモデルの行動パタ...
清華大学とカリフォルニア大学バークレー校の共同研究により、アルゴリズムやネットワークアーキテクチャに...