この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式サイトにアクセスして許可を申請してください。 2021 年が始まったばかりですが、OpenAI がまた大きな動きを見せています。 GPT-3 が小説や哲学的な引用を書けるのはもはや驚くべきことではないのでしょうか?次に、マルチモーダルな「GPT-3 のイメージ バージョン」について説明します。 本日、OpenAI は最新の言語モデルであるDALL·Eを発表しました。これは、GPT-3 の 120 億パラメータ バージョンです。自然言語の説明に従って、対応する画像を魔法のように直接生成できます。 たとえば、「バレエスカートを着て犬を散歩しているニンジンの赤ちゃん」を DALL E モデルに入力すると、次のような画像が生成されます。 「アボカド型のアームチェア」と入力すると、次のようになります。 「OpenAIという単語を含む店舗」と入力するだけでも、さまざまな設計図を生成できます。 DALL·Eの素晴らしいスキルは、主要なソーシャルメディアプラットフォームで話題になっています。 Keras の創設者 François Chollet 氏は特に次のように書いています。
AIの第一人者アンドリュー・ン氏もすぐにこの投稿をリツイートして「いいね!」し、青いシャツと黒いズボンのAI生成の満足のいく写真も選びました。 OpenAIの共同創設者兼主任科学者であるイリヤ・スツケバー氏は、次のようにツイートした。「人工知能の長期的な目標は、マルチモーダルニューラルネットワーク、つまり異なるモダリティ(主にテキストと視覚フィールド)間の概念を学習して世界をよりよく理解できるAIを構築することです。」 DALL·E と CLIP は、「マルチモーダル AI システム」という目標にさらに近づきます。 DALL·E の命名も非常に特別であることは特筆に値します。絵画モデルの名前は、人間の芸術家サルバドール・ダリとピクサーのロボットWALL·Eを組み合わせたものです。 次に、その他のハードコアな機能を詳しく見てみましょう。 DALL·Eの能力DALL·E は、多言語コンポーネント構造を持つさまざまな文章に対して、もっともらしい画像を作成できます。研究者たちは、インタラクティブなビジュアルを使ってこれを例示しています。以下の例では、各視覚効果のテキストヒントは、手動によるチェリーピッキングなしで、CLIP による再ランク付け後の 512 個のテキストヒントのうち最初の 32 個から取得されます。 コントロールプロパティ 研究者らは、属性の変更や出現回数の変更など、対象オブジェクトを変更する DALL·E の能力をテストしました。
複数のターゲットを描く 複数のターゲット オブジェクト、その属性、および空間関係を同時に制御することは、新たな課題です。 たとえば、「赤い帽子、黄色い手袋、青いシャツ、緑のズボンをはいたハリネズミ」などです。この文を正しく解釈するには、DALL·E は各衣服を動物と正しく組み合わせるだけでなく、(帽子、赤)、(手袋、黄色)、(シャツ、青)、(ズボン、緑) を混同せずにさまざまな関連付けを形成する必要があります。
DALL·E は少数のターゲットの特性と場所をある程度制御できますが、成功率はタイトル テキストの言語表現に依存します。 ターゲットの数が増えると、DALL·E はターゲットと色の関連を混同する傾向があり、成功率が急激に低下します。研究者らは、これらのシナリオでは、DALL·E によるタイトル テキストの書き直しは脆弱かつ代替可能であり、意味的に同等のタイトル テキストでは正しい解釈が得られないことが多いと指摘しています。 視覚化の視点と3D 研究者たちは、DALL·E がシーンの視点やレンダリングされたシーンの 3D スタイルも制御できることを発見しました。
DALL·E の能力をさらに検証するために、研究者らは、同じ視点から有名人の頭部を繰り返し描く DALL·E の能力をテストし、DALL·E が回転する頭部の滑らかなアニメーションを正常に復元できることを発見しました。
DALL·E は、「魚眼レンズビュー」や「球面パノラマ」などのシーンに見られるように、特定の種類の光学歪みを特定のシーンに適用できます。これにより、研究者たちは光学反射を生み出す能力を研究するようになりました。
内部構造と外部構造を視覚化する 「極限クローズアップビュー」と「X線」スタイルの例では、研究者は、断面図を使用して内部構造を描写し、マクロ画像を使用して外部構造を描写するDALL·Eの機能をさらに調査できます。
文脈の詳細を推測する テキストを画像に変換するタスクは明確に定義されていません。1 つのキャプション テキストが無限の数の画像に対応する場合が多く、言い換えると、画像は一意に決定されません。たとえば、タイトルのテキストが「日の出の野原に座っているカピバラの絵」であるとします。カピバラの向きによっては影を描く必要があるかもしれませんが、この詳細は明示的には言及されていません。 研究者らは、スタイル、設定、時間を変える、さまざまな状況下で同じターゲット画像を描く、生成されたターゲット画像に指定されたテキストを書き込むという 3 つのシナリオで、DALL·E が規制されていない問題を解決する能力を調査しました。
DALL·E は、さまざまなレベルの信頼性を使用して、自然言語を通じて 3D レンダリング エンジン機能を実装する方法を提供します。少数のターゲットのプロパティを個別に制御でき、限られた範囲内でターゲットの数と配置方法も制御できます。また、レンダリングされたシーンの位置と角度を制御し、角度と照明条件に基づいて正確で標準化された既知のターゲットを生成します。 入力が明確かつ完全でなければならない 3D レンダリング エンジンとは異なり、DALL·E は、タイトル テキストによって、指定されていない特定の詳細が画像に含まれている必要があることが示唆されている場合に、多くの場合「ギャップを埋める」ことができます。 応用事例 研究者たちは、上記の特徴をファッションデザインやインテリアデザインに応用することを検討した。
無関係な概念を組み合わせる 言語の構成的な性質により、人々は概念的な記述を組み合わせて現実のものと想像上のものの両方を記述することができます。 OpenAI は、DALL·E がまったく異なるアイデアを組み合わせてオブジェクトを合成する能力も備えていることを発見しました。そのオブジェクトの中には現実世界では存在不可能なものも含まれています。 OpenA は、さまざまな概念の特性を動物に移すことと、無関係な概念からインスピレーションを得た製品を設計することという 2 つのコンテキストでこの能力を探求します。
前のセクションでは、実際のオブジェクトの画像を生成する際に無関係な概念を組み込む DALL·E の機能について説明しました。 次に、OpenAI は、動物や物体の擬人化バージョン、動物キメラ、絵文字という、芸術の文脈における 3 種類のイラストを通じてこの能力を調査しました。
ゼロショット視覚推論 GPT-3 は、追加のトレーニングなしで、指示とプロンプトのみに基づいてさまざまなタスクを実行するように指示できます。たとえば、「『公園で犬を散歩している男性』をフランス語に翻訳してください」というフレーズを入力すると、GPT-3 は「公園で犬を散歩している男性」と答えます。この機能はゼロショット推論と呼ばれます。 OpenAI は、DALL·E がこの能力を視覚領域に拡張し、適切な方法で指示された場合にさまざまな画像間翻訳タスクを実行できることを発見しました。
OpenAI は、ニューラル ネットワークやトレーニング手順に一切変更を加えていないにもかかわらず、DALLE がこのような驚くべき能力を持っていることに驚きました。 これらの結果に触発され、OpenAI は、20 世紀に広く使用されていた視覚 IQ テストである Raven の漸進的マトリックスで DALL·E をテストし、類推問題を解く能力を測定しました。
地理知識 OpenAI は、DALLE が地理的な事実、ランドマーク、近隣地域を理解していることを発見しました。 これらの概念の理解は、ある点では不気味なほど正確であるが、他の点では欠陥がある。
時間に関する知識 OpenAI は、空間に応じて変化する概念に関する DALL·E の知識を調査するだけでなく、時間に応じて変化する概念に関する知識も調査しました。
概要: 方法とこれまでの研究DALL·E は、1280 トークンのテキストと画像を単一のストリーム (テキストの場合は 256 トークン、画像の場合は 1024 トークン) として取り込み、それらすべてに対して自己回帰モデリングを実行するデコーダーのみの Transformer アーキテクチャです。 64 個の自己注意レイヤーのそれぞれには、各画像トークンをすべてのテキスト トークンと一致させることを可能にする注意マスクがあります。 DALL E は、レイヤーの数に応じて、行、列、または畳み込みアテンション モードで、テキスト トークンに標準の因果マスクを使用し、画像トークンにスパース アテンションを使用します。 OpenAI は、今後の論文で DALL·E のアーキテクチャとトレーニング プロセスの詳細を提供する予定です。 VQVAE-2 で使用される拒否サンプリングと同様に、OpenAI は CLIP を使用して、各テキストに対して生成された 512 個のサンプルのうち上位 32 個をランク付けします。このプロセスは言語ガイド付き検索と見なすこともでき、サンプルの品質に大きな影響を与えます。 GPT-3 は、言語を使用して大規模なニューラル ネットワークにさまざまなテキスト生成タスクを実行するように指示できることを示しています。 Image GPT は、同じタイプのニューラル ネットワークを使用して高忠実度画像を生成することもできることを示しています。 OpenAI はこれらの調査結果をさらに拡張し、言語を通じて視覚概念を操作することが実現可能であることを示しました。 GPT-3 と同様に、DALL·E は Transformer 言語モデルです。 OpenAI は、生成モデルに関わる作業が社会に大きく広範囲にわたる影響を及ぼす可能性があると考えています。そのため、OpenAI は将来、DALL·E のようなモデルが、特定のワークフローや職業への経済的影響、モデル出力の潜在的なバイアス、テクノロジーが暗示する長期的な倫理的課題などの社会問題とどのように関係しているかを分析する予定です。 最後に、ヘンリー AI ラボは YouTube で OpenAI の DALL-E モデルを簡単に紹介するビデオを共有し、「テキストと画像がディープ ニューラル ネットワークでテンソルとして統合される様子をわかりやすく説明できればと思います」と述べています。 非公式な説明ですので、参考程度にお願いします。 最後に、DALL·E ニューラル ネットワーク モデルにはどのような用途が期待されていますか? 2Dデザイナーですか? これは AI 革命につながると思いますか?それとも、避けられない制限がたくさんあると思いますか? |
<<: Python ベースのパーセプトロン分類アルゴリズムの実践
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
自己教師あり学習入門[[251602]]確かに、ディープラーニングは、特に画像認識タスクにおいて、機...
機械読解(MRC)は、自然言語処理の分野における最近の研究のホットスポットの 1 つであり、人間の言...
将来的には、考えただけでロボットに家事を任せることができるようになるかもしれません。スタンフォード大...
私は現在、軍事司令官システムに取り組んでいますが、これは多くのユースケースがあるかなり複雑なシステム...
AI時代においては、セキュリティを早急に再定義する必要があります。人工知能やモノのインターネットなど...
今日のスマートフォンやノートパソコンに搭載されている顔認識機能のおかげで、顔認識テクノロジーの概念は...
[[432744]] TensorFlow は、Google が開発し、2015 年にオープンソース...
[[249335]] VentureBeatによると、Googleの人工知能研究部門は音声認識におい...
ブラウザに住むアーティストが開発した、ニューヨーク発のAIカメラアプリが人気を集めている。もしスティ...
[[238920]]ファッション業界における人工知能(AI)技術の応用はますます深く広範囲になって...
Google を含む多くの企業が、人間の寿命を延ばす方法を研究しています。たとえ何百年も長く生きられ...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...