GPT-4 の RAW 画像はまだリリースされていないのですか? CMUの中国人医師の新作、大型モデルGILLは画像生成や検索が可能で誰でも遊べる

GPT-4 のマルチモーダル機能については、もう少し待たなければならないかもしれません。

最近、CMU の研究者らは新しいマルチモーダルモデル GILL を提案しました。

論文アドレス: https://arxiv.org/pdf/2305.17216.pdf

テキストや画像をプロンプトとして使用し、マルチモーダルな会話を完了できます。具体的には、テキストの生成、画像の取得、新しい画像の生成が可能です。

GILL は、事前に指定されたデータセットから画像を取得し、推論中に画像を取得するか生成するかを決定することもできます。

埋め込み空間間のマッピングを通じて、CMU チームが凍結された大規模モデルと事前トレーニング済みの Wensheng グラフモデルを組み合わせたことは注目に値します。

このようにして、GILL は幅広いアプリケーションを実現し、複数のテキストから画像へのタスクにおいて Stable Diffusion などの生成モデルよりも優れたパフォーマンスを発揮します。

まずはデモを見てみましょう。

デモ

GILL は、LLM の事前トレーニングおよびフリーズ機能をさまざまなタスクに一般化できます。具体的には以下が含まれます:

https://huggingface.co/spaces/jykoh/gill

マルチモーダル対話生成

GILL に会話のようなテキストを生成するよう指示することができ、画像の検索、画像の生成、さらにはマルチモーダルな会話も実行できます。

例えば、ラーメンをもっと栄養価の高いものにするにはどうしたらいいかと尋ねることができます。 GILLは野菜を加えることについてアドバイスをくれます。

タトゥーを入れたい。 GILL は、要件を満たすパターンを即座に生成します。

これらのケーキを市場でどのように宣伝すればよいでしょうか? GILL 氏は、店名とカップケーキの写真が入ったシンプルな看板を提案しています。

ビジュアルストーリーから画像を生成する

さらに、GILL はインターリーブされた画像とテキスト入力に基づいて、より関連性の高い画像を生成することもできます。

マルチモーダル大型モデル GILL

GILL の正式名称は「Generating Images with Large Language Models」で、大規模言語モデルを使用して画像を生成することを意味します。

任意のインターリーブされた画像とテキストの入力を処理して、テキストを生成したり、画像を取得したり、新しい画像を生成したりできます。

GILL モデルアーキテクチャの概要。画像の処理を学習するために記述損失でトレーニング（左）、画像の検索と画像の生成を学習するために画像検索損失と画像生成損失でトレーニング（右）

この研究では、2 つのモデルがまったく異なるテキストエンコーダーを使用しているにもかかわらず、凍結プレーンテキスト LLM の出力埋め込み空間を、凍結テキスト画像生成モデル、つまり Stable Diffusion の埋め込み空間に効果的にマッピングできることが示されています。

インターリーブされた画像とテキストのトレーニングデータを必要とする他の方法と比較して、研究者は画像と説明のペアの少数のパラメータを微調整することによってこれを実現します。

このアプローチは計算効率が高く、トレーニング中に画像生成モデルを実行する必要がありません。

GILL の推論の時間経過。このモデルは画像とテキストの入力を受け取り、画像埋め込みとインターリーブされたテキストを生成します。特定のトークンセットを取得するか生成するかを決定した後、適切な画像出力を返します。

推論中、モデルは任意のインターリーブされた画像とテキストの入力を受け入れ、画像埋め込みとインターリーブされたテキストを生成します。特定のトークンセットを取得するか生成するかを決定した後、適切な画像出力（取得または生成）を返します。

推論中に、モデルは任意のインターリーブされた画像とテキストの入力を受け取り、インターリーブされた画像に埋め込まれたテキストを生成します。特定のトークンのセットを取得するか生成するかを決定した後、対応するイメージ出力（取得または生成）を返します。

実験結果

コンテキスト画像生成

新しい画像生成のベースライン手法に対するモデルの機能をテストするために、研究者らは VIST および VisDial データセットで実験を実施しました。

これらのデータセットは、マルチモーダルテキストおよび画像コンテキストでの画像検索をベンチマークするために以前の研究で使用されたものと同じです。

GILL モデルは、マルチモーダル情報を組み合わせて関連画像とテキスト出力を生成し、画像検索に限定されたベースラインモデルよりも優れたパフォーマンスを発揮します。

評価指標

評価は、生成モデルが複雑な言語記述を処理する能力に焦点を当てています。そこで研究者らは、生成された画像の内容の関連性を測定する指標を計算した。

ここでは、モデルを評価するための 2 つの指標があります。

1. CLIP 類似度: CLIP ViT-L 画像エンコーダーを使用して、生成された画像と対応する実際の画像の結合表現を生成し、それらのコサイン類似度を導出します。スコアが高いほど、生成された画像が実際の画像に似ていることを意味します。

2. 知覚パッチ類似性の学習 (LPIPS): LPIPS は画像パッチ間の距離を評価します。実際の画像と生成された画像間の LPIPS を測定します。値が低いほど、2 つの画像が知覚空間内でより近いことを意味し、値が高いほど、2 つの画像が類似していないことを意味します。

ビジュアルストーリーから生成

VIST は、ストーリーを構成する 5 つの画像とテキストのシーケンスの例を含む、連続的な視覚および言語タスク用のデータセットです。

GILL とテキストから画像への生成ベースラインを比較した評価結果が表示されます。

両方のモデルにストーリーの説明を入力すると、パフォーマンスは同等となり、SD はより優れた CLIP 類似性スコアを達成し、両方のモデルは同様の LPIPS を達成しました。

ただし、5 つのストーリーの説明すべてが入力として提供されると、GILL は SD よりも優れ、CLIP 類似度は 0.598 から 0.612 に、LPIPS は 0.704 から 0.6 に向上します。

興味深いことに、完全なマルチモーダルコンテキストがさらに提供されると、GILL は大幅に改善され、CLIP 類似度 0.641、LPIPS 0.3 を達成しました。

ビジュアルダイアログから生成

研究者らは、VisDial データセットでもモデルをテストしました。

VIST と同様に、モデルは記述された画像を正確に合成する能力に基づいて評価され、入力として増加する量の質問応答対話コンテキストが提供されます。

評価結果によると、入力長が短い場合、SD は GILL よりも優れていることがわかります。

しかし、入力コンテキストが増えると、GILL は徐々に改善され、より実際の画像に近い画像を合成できるようになります。

完全な 10 ターンのダイアログが提供されると、GILL のパフォーマンスは SD よりも大幅に向上し、CLIP 類似度 (0.622-0.645) と LPIPS (0.723-0.714) の両方が向上します。

これらの結果は、長い会話のようなテキスト入力を処理する際の GILL の有効性をさらに強調しています。

研究者らは GILLMapper モジュールも導入し、モデルが安定拡散画像生成バックボーンに効率的にマッピングできるようにし、PartiPrompts の多くの例で SD を上回るか同等のパフォーマンスを発揮しました。

GILLMapper モデルアーキテクチャは、隠された [IMG] 表現と学習されたクエリ埋め込みベクトルのシーケンスに基づいています。

制限

GILL は多くの魅力的な機能を導入していますが、いくつかの制限がある初期の研究プロトタイプです。

- GILL の多くの機能は LLM マスターアーキテクチャに依存しています。そのため、LLM に典型的な多くの問題も引き継いでいます。

- GILL は、プロンプトが表示されたときや、会話に役立つときに必ずしも画像を生成するわけではありません。

- GILL の制限は、視覚処理が限られていることです。現在、研究では各入力画像を表すために 4 つの視覚ベクトルのみを使用しています (計算上の制限のため)。これでは、下流のタスクに必要なすべての関連視覚情報を取得できない可能性があります。

- GILL は、生成されるコンテンツが間違っていたり、入力データと関係がなかったりする潜在的な幻覚など、LLM の予期しない動作を継承します。また、繰り返しのテキストが生成される場合もあり、必ずしも一貫した会話テキストが生成されるわけではありません。

著者について

ジン・ユー・コー

Jing Yu Koh は、CMU の機械学習部門の 2 年目の博士課程の学生で、Daniel Fried と Ruslan Salakhutdinov が指導教員です。

現在、彼の主な研究分野は基礎言語理解です。

ダニエル・フリード氏とルスラン・サラクティノフ氏からアドバイスを受けました。私は視覚と言語の問題という文脈で、基本的な言語理解に取り組んでいます。

それ以前は、Google Research の研究エンジニアとして、視覚と言語の問題や生成モデルに取り組んでいました。

<<: AIが70年間で急成長した理由が明らかに！タイム誌の4枚の写真がアルゴリズムの進化の謎を明らかにする

>>: 涼宮ハルヒや李雲龍など32人のキャラクターをプレイ可能。このチャットボットはストーリーを非常によく理解しており、コードは商業的に使用できます。

GPT-4 の RAW 画像はまだリリースされていないのですか? CMUの中国人医師の新作、大型モデルGILLは画像生成や検索が可能で誰でも遊べる

デモ

マルチモーダル大型モデル GILL

実験結果

評価指標

著者について

金融を専攻する学生は人工知能をどのように学ぶべきでしょうか?

2時間で人間を超えることができます！ DeepMind の最新 AI が 26 の Atari ゲームをスピードラン

タイム誌のAI分野で最も影響力のある100人：フェイフェイ・リー、ジェンスン・ファン、ロビン・リー、イー・ゼンらが選出

2019 ディープラーニングフレームワーク対決: PyTorch がトップ AI カンファレンスを席巻し、NeurIPS 2019 で再び優勝!

Llama 2 の中国語版はオープンソースであり、言語モデルとマルチモーダルモデルの両方を備えているため、完全に商用利用可能です。

MITが組み立てロボットを開発：将来的には宇宙コロニーを建設できる

機械翻訳から読心術まで、AIは人類のバベルの塔を再建できるのか？

グラフィカルな説明 | Linux メモリリサイクル LRU アルゴリズム

推薦する

ChatGPTのメタバージョンが登場: Llama 2がサポートされ、Bing検索に接続され、ザッカーバーグがライブでデモを実施

実践的な知識 | 教師なし学習の基礎に関する包括的な理解

人工知能がスマートな警察活動を可能にする

AIがPythonの記述を手助けし、インストールはたった5ステップで完了し、自由に調整できます。

機械学習が詐欺防止に優れたツールである理由は何ですか?

優秀な AI 技術者が不足しています。学生たちはこの波にまだ追いつくことができるでしょうか?

VSCodeでChatGPTを実行すると、ファイルを直接生成できます。

学生がChatGPTで不正行為をするのを防ぐために、大学の教授たちは紙ベースの試験を復活させたり、口頭試験に切り替えたりし始めている。ネットユーザー：幸いにも私は卒業した

ついにAI、BI、ビッグデータ、データサイエンスをわかりやすく説明する人が出てきた

テクノロジーがコロナウイルスと戦う10の方法

マスク氏はOpenAIを訴えた。彼らはAGIを作成し、それをマイクロソフトにライセンス供与したが、これは設立協定に対する露骨な裏切りである。

求人検索サイトIndeedの統計：AI採用は減速、求職者の関心は低下