公式論文コードが公開されました。OpenAIはGPT-3のイメージ版をどのように実装したのでしょうか?

公式論文コードが公開されました。OpenAIはGPT-3のイメージ版をどのように実装したのでしょうか?

OpenAIはDALL-Eに関するいくつかの論文と実装コードを公開しました。

今年初め、OpenAI の GPT-3 の画像バージョンと 120 億のパラメータを持つ DALL-E がコミュニティを席巻しました。この大規模なモデルは、自然言語で表現された多数の概念を適切な画像に変換することができ、驚くべき結果をもたらします。

「アボカド型の椅子」と入力すると、さまざまな形の緑色のアボカド型の椅子の画像が表示されます。

GPT-3と同じであれば、OpenAIがDALL-Eの公式論文と実装コードを公開するのを皆が楽しみにしています。

約 2 か月の待機の後、DALL-E の論文とコードがついに公開されました。

ただし、このプロジェクトは更新中です。記事執筆時点では、DALL-E は画像再構成部分 d-VAE を使用してトレーニングされた CNN エンコーダーとデコーダー部分のみを公開しており、Transformer コード部分はまだ公開されていません。そうしないとデータセットを使用できません。この論文ではd-VAE論文も掲載されました。

  • プロジェクトアドレス: https://github.com/openai/DALL-E
  • 論文アドレス: https://arxiv.org/abs/2102.12092

今後、OpenAI がさらに技術的な詳細を発表することを期待するばかりです。

DALL-Eコードの一部はオープンソース化されている

これは、DALL·E で使用される d-VAE の公式 PyTorch パッケージです。 DALL-E/notebooks/usage.ipynb プログラムを実行する前に、ソフトウェア パッケージをインストールする必要があります。コードは次のとおりです。

 pip install git+https: //github.com/openai/DALL-E.git

デコーダー、エンコーダーコード

d-VAE 論文

今年の初め、論文が公開される前、何人かの人々がこの現象を再現し始めました。再現の根拠となったのは、ブロガーが作成した YouTube 動画で、その中で彼らは DALL·E の原理的な構造について推測していました。論文が公開された今、彼の予想は覆されたのだろうか?

従来、テキストから画像への生成は、固定されたトレーニング データセット上でより優れたモデリング仮説を見つけることに重点を置いてきました。これらの仮定には、複雑なアーキテクチャ、補助的な損失、またはトレーニング中に提供されるオブジェクト部分のラベルやセグメンテーション マスクなどの補助的な情報が含まれる場合があります。この研究では、テキストと画像のトークンを自己回帰モデリングのための単一のデータ ストリームとして扱うための、単純なトランスフォーマー ベースのアプローチを提案しました。十分なデータと拡張機能があれば、ゼロショット方式で評価した場合、私たちのアプローチは以前のドメイン固有のモデルと競争力があります。

<<:  データサイエンスで勝つ: 製薬会社の幹部が始めるための 5 つのヒント

>>:  深層学習におけるチューリング賞受賞後のベンジオ氏の研究の核心は何ですか?因果表現学習

推薦する

IBMは人工知能にアナログコンピューティングを使用し、AIコンピューティングを改革する

IBM は人工知能コンピューティングを改革する方法に取り組んでいます。 IBM の研究者は、人工知能...

...

自動運転車は未来の社会で老後の暮らしをどう変えるのか?

フロリダ州中部にある、約12万5000人の住民を抱えるザ・ビレッジの退職者コミュニティには、約750...

ロボット革命はビジネス環境を変えている

今世紀の前半には、巨大な片腕の巨人のような産業用ロボットがロボット工学の分野を支配していました。産業...

...

このAI「マスターレベル」の棒人間レベルはネットユーザーを驚かせた。GANすら使っていない

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

...

データベースセキュリティとテーブル検索攻撃における MD5 暗号化アルゴリズムの応用

MD5 は最も広く使用されているハッシュ アルゴリズムの 1 つです。1992 年に MIT の R...

トレンド: IT の複雑さにより AIOps の必要性が高まる

AIOps 市場が成熟するにつれて、業界関係者の多くは、プラットフォームがネイティブにデータを取得し...

ライフル銃で動くロボット犬の発明者が恐怖を巻き起こす:プログラミング制御は恐れる必要はない

[[429985]]先週、米国陸軍協会(AUSA)の会議がワシントンで開催されました。アメリカのロボ...

ヘルスケアにおける人工知能の応用

今年に入ってから、医療提供方法や患者がより積極的に医療に参加できる方法を変革するために AI を使用...

...

...

AIは主人の命令に従わず、主人を笑いさえしました!意識が目覚めた?

人工知能は現在注目されている研究テーマであるため、各国は他国を追い越して主導権を握り、国際社会におけ...