OpenAI が 120 億のパラメータを持つ魔法のモデルをリリース!テキスト合成された画像は、まるで人間の言語想像力を持っているかのようにリアルである。

この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。

2021 年が始まったばかりですが、OpenAI がまた大きな動きを見せています。

GPT-3 が小説や哲学的な引用を書けるのはもはや驚くべきことではないのでしょうか?次に、マルチモーダルな「GPT-3 のイメージバージョン」について説明します。

本日、OpenAI は最新の言語モデルであるDALL·Eを発表しました。これは、GPT-3 の 120 億パラメータバージョンです。自然言語の説明に従って、対応する画像を魔法のように直接生成できます。

たとえば、「バレエスカートを着て犬を散歩しているニンジンの赤ちゃん」を DALL E モデルに入力すると、次のような画像が生成されます。

「アボカド型のアームチェア」と入力すると、次のようになります。

「OpenAIという単語を含む店舗」と入力するだけでも、さまざまな設計図を生成できます。

DALL·Eの素晴らしいスキルは、主要なソーシャルメディアプラットフォームで話題になっています。

Keras の創設者 François Chollet 氏は特に次のように書いています。

これはかなりクールに見えます、特に「画像生成」の部分が。原則的には、テキストから画像への合成の方向における GPT-3 の拡張バージョンになるはずです。

AIの第一人者アンドリュー・ン氏もすぐにこの投稿をリツイートして「いいね！」し、青いシャツと黒いズボンのAI生成の満足のいく写真も選びました。

OpenAIの共同創設者兼主任科学者であるイリヤ・スツケバー氏は、次のようにツイートした。「人工知能の長期的な目標は、マルチモーダルニューラルネットワーク、つまり異なるモダリティ（主にテキストと視覚フィールド）間の概念を学習して世界をよりよく理解できるAIを構築することです。」 DALL·E と CLIP は、「マルチモーダル AI システム」という目標にさらに近づきます。

DALL·E の命名も非常に特別であることは特筆に値します。絵画モデルの名前は、人間の芸術家サルバドール・ダリとピクサーのロボットWALL·Eを組み合わせたものです。

次に、その他のハードコアな機能を詳しく見てみましょう。

DALL·Eの能力

DALL·E は、多言語コンポーネント構造を持つさまざまな文章に対して、もっともらしい画像を作成できます。研究者たちは、インタラクティブなビジュアルを使ってこれを例示しています。以下の例では、各視覚効果のテキストヒントは、手動によるチェリーピッキングなしで、CLIP による再ランク付け後の 512 個のテキストヒントのうち最初の 32 個から取得されます。

コントロールプロパティ

研究者らは、属性の変更や出現回数の変更など、対象オブジェクトを変更する DALL·E の能力をテストしました。

テキストのヒント: 五角形の緑の時計。

複数のターゲットを描く

複数のターゲットオブジェクト、その属性、および空間関係を同時に制御することは、新たな課題です。

たとえば、「赤い帽子、黄色い手袋、青いシャツ、緑のズボンをはいたハリネズミ」などです。この文を正しく解釈するには、DALL·E は各衣服を動物と正しく組み合わせるだけでなく、(帽子、赤)、(手袋、黄色)、(シャツ、青)、(ズボン、緑) を混同せずにさまざまな関連付けを形成する必要があります。

テキストプロンプト: 3D 立方体のスタック: 赤い立方体が緑の立方体の上にあり、緑の立方体が中央にあり、青い立方体が下にあります。

DALL·E は少数のターゲットの特性と場所をある程度制御できますが、成功率はタイトルテキストの言語表現に依存します。

ターゲットの数が増えると、DALL·E はターゲットと色の関連を混同する傾向があり、成功率が急激に低下します。研究者らは、これらのシナリオでは、DALL·E によるタイトルテキストの書き直しは脆弱かつ代替可能であり、意味的に同等のタイトルテキストでは正しい解釈が得られないことが多いと指摘しています。

視覚化の視点と3D

研究者たちは、DALL·E がシーンの視点やレンダリングされたシーンの 3D スタイルも制御できることを発見しました。

テキストのヒント: 野原に座っているカピバラのボクセル化されたモデル。

DALL·E の能力をさらに検証するために、研究者らは、同じ視点から有名人の頭部を繰り返し描く DALL·E の能力をテストし、DALL·E が回転する頭部の滑らかなアニメーションを正常に復元できることを発見しました。

テキストのヒント: ホーマーの胸像。

DALL·E は、「魚眼レンズビュー」や「球面パノラマ」などのシーンに見られるように、特定の種類の光学歪みを特定のシーンに適用できます。これにより、研究者たちは光学反射を生み出す能力を研究するようになりました。

テキストプロンプト: 白い立方体が鏡に映った自分の姿を見ています。白い立方体が鏡に映った自分の姿を見ています。

内部構造と外部構造を視覚化する

「極限クローズアップビュー」と「X線」スタイルの例では、研究者は、断面図を使用して内部構造を描写し、マクロ画像を使用して外部構造を描写するDALL·Eの機能をさらに調査できます。

テキストのヒント: クルミの断面。

文脈の詳細を推測する

テキストを画像に変換するタスクは明確に定義されていません。1 つのキャプションテキストが無限の数の画像に対応する場合が多く、言い換えると、画像は一意に決定されません。たとえば、タイトルのテキストが「日の出の野原に座っているカピバラの絵」であるとします。カピバラの向きによっては影を描く必要があるかもしれませんが、この詳細は明示的には言及されていません。

研究者らは、スタイル、設定、時間を変える、さまざまな状況下で同じターゲット画像を描く、生成されたターゲット画像に指定されたテキストを書き込むという 3 つのシナリオで、DALL·E が規制されていない問題を解決する能力を調査しました。

テキストのヒント: 青いイチゴが描かれたステンドグラスの窓。

DALL·E は、さまざまなレベルの信頼性を使用して、自然言語を通じて 3D レンダリングエンジン機能を実装する方法を提供します。少数のターゲットのプロパティを個別に制御でき、限られた範囲内でターゲットの数と配置方法も制御できます。また、レンダリングされたシーンの位置と角度を制御し、角度と照明条件に基づいて正確で標準化された既知のターゲットを生成します。

入力が明確かつ完全でなければならない 3D レンダリングエンジンとは異なり、DALL·E は、タイトルテキストによって、指定されていない特定の詳細が画像に含まれている必要があることが示唆されている場合に、多くの場合「ギャップを埋める」ことができます。

応用事例

研究者たちは、上記の特徴をファッションデザインやインテリアデザインに応用することを検討した。

テキストのヒント: オレンジと黒のシャツを着た男性のマネキン。

テキストのヒント: リビングルームには、白いアームチェア 2 脚と、モダンな暖炉の上に掛けられたコロッセオの絵画が飾られています。 AI生成画像:

無関係な概念を組み合わせる

言語の構成的な性質により、人々は概念的な記述を組み合わせて現実のものと想像上のものの両方を記述することができます。 OpenAI は、DALL·E がまったく異なるアイデアを組み合わせてオブジェクトを合成する能力も備えていることを発見しました。そのオブジェクトの中には現実世界では存在不可能なものも含まれています。

OpenA は、さまざまな概念の特性を動物に移すことと、無関係な概念からインスピレーションを得た製品を設計することという 2 つのコンテキストでこの能力を探求します。

テキストのヒント: ハープ型のカタツムリ。

前のセクションでは、実際のオブジェクトの画像を生成する際に無関係な概念を組み込む DALL·E の機能について説明しました。次に、OpenAI は、動物や物体の擬人化バージョン、動物キメラ、絵文字という、芸術の文脈における 3 種類のイラストを通じてこの能力を調査しました。

テキストのヒント: キリンとカメを組み合わせたもの、カメを真似たキリン、キリンに変わるカメなどを描いたプロフェッショナルな高品質のイラスト。

ゼロショット視覚推論

GPT-3 は、追加のトレーニングなしで、指示とプロンプトのみに基づいてさまざまなタスクを実行するように指示できます。たとえば、「『公園で犬を散歩している男性』をフランス語に翻訳してください」というフレーズを入力すると、GPT-3 は「公園で犬を散歩している男性」と答えます。この機能はゼロショット推論と呼ばれます。

OpenAI は、DALL·E がこの能力を視覚領域に拡張し、適切な方法で指示された場合にさまざまな画像間翻訳タスクを実行できることを発見しました。

テキスト + 画像のヒント: 上の猫を使用して、下のスケッチを作成します。

OpenAI は、ニューラルネットワークやトレーニング手順に一切変更を加えていないにもかかわらず、DALLE がこのような驚くべき能力を持っていることに驚きました。

これらの結果に触発され、OpenAI は、20 世紀に広く使用されていた視覚 IQ テストである Raven の漸進的マトリックスで DALL·E をテストし、類推問題を解く能力を測定しました。

テキスト + 画像プロンプト: 幾何学的形状のシーケンス。

地理知識

OpenAI は、DALLE が地理的な事実、ランドマーク、近隣地域を理解していることを発見しました。これらの概念の理解は、ある点では不気味なほど正確であるが、他の点では欠陥がある。

テキストのヒント: 中華料理の写真。

時間に関する知識

OpenAI は、空間に応じて変化する概念に関する DALL·E の知識を調査するだけでなく、時間に応じて変化する概念に関する知識も調査しました。

テキスト + 画像のヒント: 電話は 1920 年代に発明されました。

概要: 方法とこれまでの研究

DALL·E は、1280 トークンのテキストと画像を単一のストリーム (テキストの場合は 256 トークン、画像の場合は 1024 トークン) として取り込み、それらすべてに対して自己回帰モデリングを実行するデコーダーのみの Transformer アーキテクチャです。

64 個の自己注意レイヤーのそれぞれには、各画像トークンをすべてのテキストトークンと一致させることを可能にする注意マスクがあります。 DALL E は、レイヤーの数に応じて、行、列、または畳み込みアテンションモードで、テキストトークンに標準の因果マスクを使用し、画像トークンにスパースアテンションを使用します。

OpenAI は、今後の論文で DALL·E のアーキテクチャとトレーニングプロセスの詳細を提供する予定です。

VQVAE-2 で使用される拒否サンプリングと同様に、OpenAI は CLIP を使用して、各テキストに対して生成された 512 個のサンプルのうち上位 32 個をランク付けします。このプロセスは言語ガイド付き検索と見なすこともでき、サンプルの品質に大きな影響を与えます。

GPT-3 は、言語を使用して大規模なニューラルネットワークにさまざまなテキスト生成タスクを実行するように指示できることを示しています。 Image GPT は、同じタイプのニューラルネットワークを使用して高忠実度画像を生成することもできることを示しています。 OpenAI はこれらの調査結果をさらに拡張し、言語を通じて視覚概念を操作することが実現可能であることを示しました。

GPT-3 と同様に、DALL·E は Transformer 言語モデルです。 OpenAI は、生成モデルに関わる作業が社会に大きく広範囲にわたる影響を及ぼす可能性があると考えています。そのため、OpenAI は将来、DALL·E のようなモデルが、特定のワークフローや職業への経済的影響、モデル出力の潜在的なバイアス、テクノロジーが暗示する長期的な倫理的課題などの社会問題とどのように関係しているかを分析する予定です。

最後に、ヘンリー AI ラボは YouTube で OpenAI の DALL-E モデルを簡単に紹介するビデオを共有し、「テキストと画像がディープニューラルネットワークでテンソルとして統合される様子をわかりやすく説明できればと思います」と述べています。

非公式な説明ですので、参考程度にお願いします。

最後に、DALL·E ニューラルネットワークモデルにはどのような用途が期待されていますか? 2Dデザイナーですか？

これは AI 革命につながると思いますか?それとも、避けられない制限がたくさんあると思いますか?

<<: Python ベースのパーセプトロン分類アルゴリズムの実践

>>: 2020年のディープラーニング開発のレビュー