OpenAIはDALL-Eに関するいくつかの論文と実装コードを公開しました。 今年初め、OpenAI の GPT-3 の画像バージョンと 120 億のパラメータを持つ DALL-E がコミュニティを席巻しました。この大規模なモデルは、自然言語で表現された多数の概念を適切な画像に変換することができ、驚くべき結果をもたらします。 「アボカド型の椅子」と入力すると、さまざまな形の緑色のアボカド型の椅子の画像が表示されます。 GPT-3と同じであれば、OpenAIがDALL-Eの公式論文と実装コードを公開するのを皆が楽しみにしています。 約 2 か月の待機の後、DALL-E の論文とコードがついに公開されました。 ただし、このプロジェクトは更新中です。記事執筆時点では、DALL-E は画像再構成部分 d-VAE を使用してトレーニングされた CNN エンコーダーとデコーダー部分のみを公開しており、Transformer コード部分はまだ公開されていません。そうしないとデータセットを使用できません。この論文ではd-VAE論文も掲載されました。
今後、OpenAI がさらに技術的な詳細を発表することを期待するばかりです。 DALL-Eコードの一部はオープンソース化されている これは、DALL·E で使用される d-VAE の公式 PyTorch パッケージです。 DALL-E/notebooks/usage.ipynb プログラムを実行する前に、ソフトウェア パッケージをインストールする必要があります。コードは次のとおりです。 デコーダー、エンコーダーコード d-VAE 論文 今年の初め、論文が公開される前、何人かの人々がこの現象を再現し始めました。再現の根拠となったのは、ブロガーが作成した YouTube 動画で、その中で彼らは DALL·E の原理的な構造について推測していました。論文が公開された今、彼の予想は覆されたのだろうか? 従来、テキストから画像への生成は、固定されたトレーニング データセット上でより優れたモデリング仮説を見つけることに重点を置いてきました。これらの仮定には、複雑なアーキテクチャ、補助的な損失、またはトレーニング中に提供されるオブジェクト部分のラベルやセグメンテーション マスクなどの補助的な情報が含まれる場合があります。この研究では、テキストと画像のトークンを自己回帰モデリングのための単一のデータ ストリームとして扱うための、単純なトランスフォーマー ベースのアプローチを提案しました。十分なデータと拡張機能があれば、ゼロショット方式で評価した場合、私たちのアプローチは以前のドメイン固有のモデルと競争力があります。 |
<<: データサイエンスで勝つ: 製薬会社の幹部が始めるための 5 つのヒント
>>: 深層学習におけるチューリング賞受賞後のベンジオ氏の研究の核心は何ですか?因果表現学習
事実は、データ技術の進歩と発展により、仮想カードと電子ウォレットが支払い管理により適したものになって...
現在、私たちは「百機種戦争」の時代に突入しており、テクノロジー企業は人工知能分野で主導権を握ろうと、...
最近、主要プラットフォームのホームページには、生地をこねる、餡を作る、型から外す、焼くまで、月餅を作...
[[238409]]ソートは、コンピュータ サイエンスにおいて常に最も基本的なアルゴリズムの 1 ...
ヨーロッパの多国籍通信会社は、BMC の Helix Chatbot を標準化して、全部門の 120...
産業情報ウェブサイトReportlinkerが2020年11月に発表したレポートによると、産業用ロボ...
Microsoft は、Copilot の Android バージョンをひっそりとリリースしました...
この段階では、人工知能の応用シナリオが増加し、市場規模が拡大しており、機械学習の価値がますます顕著に...
アマゾンは、同社が「未来を実現する」のに役立つと主張する一連の新しいドローンとロボットを発表した。し...
[[176714]] Objective-C を使用していくつかの基本的なソート アルゴリズムを実装...
ロボットはいくつの業界を置き換えることができるでしょうか? 初期の介護士から、後の編集者 (静かに悲...
この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...
過去数年間はリカレントニューラルネットワークが主流でしたが、現在では自己回帰 Wavenet や T...