DALL・Eは発売からわずか2日で復刻されたのか?公式論文はまだ発表されていないが、専門家らはすでにそれを再現している。

DALL・Eは発売からわずか2日で復刻されたのか?公式論文はまだ発表されていないが、専門家らはすでにそれを再現している。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

意外なことに、OpenAI が DALL·E を発表するとすぐに、誰かがすでにそれを再現していました。

まだ半完成品ではありますが、大まかなフレームワークは構築されており、現在はサードパーティの作者であるPhilip Wang 氏が作業中です。

DALL·Eは、2日前に発表されたばかりのテキストから画像へのネットワークフレームワークです。 今のところ、プロジェクトの結果のみが発表されており、公式の論文さえまだ公開されていません

この論文はまだ出版されていないが、すでに再掲載され始めている。

この論文の転載の根拠は、 Yannic Kilcherというブロガーが作成した YouTube ビデオです。

動画では、DALL·Eの原理的な構造について考察しました。

彼は、これらの推測は実際の状況を反映しておらず、おそらくDALLEの論文が発表されれば彼の予想は覆されるだろうと述べた。

Yannic 氏は、DALL·E はVQ-VAEモデルと GPT-3 に似た言語モデルを組み合わせたものであるべきだと考えています。

GPT-3 などの言語モデルは非常に強力な言語モデリング機能を備えており、入力テキストの説明を適切に分割して理解できます。

[[374674]]

VAE モデルは強力な画像生成トランスフォーマーです。トレーニング後、モデルはエンコーダー部分を削除し、画像生成用のデコーダーのみを残します。

これら 2 つを組み合わせると、下の図の小さな四角形のように、理解したテキストに基づいて、さまざまな入力オブジェクトを実用的な意味を持つ画像に組み合わせることができます。

たとえば、人物、太陽、木を入力すると、モデルは「太陽の下の木の下に座っている人物」を描いた画像を出力できます。

どうやってそれを達成するのでしょうか?

まず、VQ-VAE のモデル原理を簡単に分析してみましょう。

VAE と同様に、これも Transformer 構造モデルです。エンコーダーは画像をエンコードした後、エンコードされたデータを潜在空間に送信し、デコーダーは潜在空間から画像を再構築します。

VAE と比較すると、VQ-VAE の潜在変数の各次元は離散整数です。つまり、その潜在空間は実際にはさまざまな抽出されたベクトル情報を含むコードブックです。

DALL·E では、このコードブックは本質的に語彙集に相当します。

この語彙は、特に画像のさまざまな説明を保存するために使用されます。

入力画像をエンコードする場合、画像は基本的にさまざまなピクセル ブロックに分割されます。

この期間中に、さまざまな画像情報が生成されます。

空色のグリッドに「空」の説明情報が含まれていると仮定すると、再構築中にデコーダーは「空」情報を読み取り、上部に一連のピクセルを割り当てて空を生成します。

VQ-VAE のトレーニングが完了すると、モデルはデコーダーだけが理解できるコードブックを取得します。

その際、GPT-3に似た言語モデルが入力テキストをデコードし、コーディングブックだけが理解できるベクトル情報に変換します。

次に、コードブックはこの情報を並べ替え、各ピクセル ブロックに対して生成する必要があるデータを順番にリストし、デコーダーに伝えます。

デコーダーはこれらのピクセル データを合成して最終画像を取得します。

この目標を達成するためには、GPT-3と同様の言語モデルをトレーニングし、事前にVQ-VAEモデルを事前トレーニングする必要があります。

さらに、2つの融合モデルをトレーニングする必要があります。

筆者が再現したDALL·Eもこのビデオ解析の原理に基づいています。

プロジェクト自体について

現在、DALL・E 複製プロジェクトは完了しておらず、作者はまだ作業中(WIP)ですが、すでに 700 を超えるスターを獲得しています。

著者は、DALL·E のPyTorchバージョンを作成したいと考えています。現在のフレームワークには、VAE トレーニング、CLIP トレーニング、および VAE と CLIP の融合後のモデルの事前トレーニングがすでに含まれています。

さらに、DALL·E のトレーニングと、事前トレーニング済みの VAE モデルの DALL·E モデルへの統合も含まれます。

上記のモジュールをトレーニングした後、DALL·E を使用してテキストから画像を生成できます。

現在、著者はDALL·Eモジュールのコードを再現しています。

作者は、DALL·E 部分が完成したら CLIP モデルも完成させると約束しました。

著者について

[[374678]]

フィリップ・ワンはコーネル大学で学士号と修士号を取得し、ミシガン大学医学部で博士号を取得しました。

彼の研究対象は AI (ディープラーニング) とヘルスケアです。現在、GitHub で 1.7 千人のフォロワーがいます。

DALL·E自体に関しては、ビデオ分析ブロガーのYannic氏も、このような良好な結果が達成された理由はモデル設計だけによるものではないと述べています。

DALL·E は、GPT-3 と同様に、モデルのトレーニングに大規模なデータセットを使用する可能性が高くなります。

ネットユーザーたちは、これをトレーニングするために使用された GPU の数は想像しがたいと述べ、気候は再び暖かくなるだろうと語った。

では、このプロジェクトを完全に再現したい場合、最も難しいのは実はハードウェア部分なのでしょうか? (手動犬頭)

プロジェクトアドレス:
https://github.com/lucidrains/DALLE-pytorch

DALL·E ビデオ分析:
https://www.youtube.com/watch?v=j4xgkjWlfL4

<<:  李碩:AIは産業知能の波を促進する

>>:  胡勇 | 人工知能の時代を生き抜き、成長する

ブログ    
ブログ    
ブログ    

推薦する

すべての IT リーダーが議論すべき 6 つの難しい AI に関する議論

AIほど多くの議論や論争を巻き起こした技術はほとんどなく、労働者、著名な経営者、世界の指導者たちは、...

ロボット市場は飛躍の準備ができており、人間と機械の統合が主流のトレンドとなっている

最近、2021年世界ロボット大会が北京で盛大に開幕しました。ロボット分野の最先端技術と最新の成果が展...

あなたの疑問に答える3つの側面:「怠け者」は人工知能に置き換えられるでしょうか?

100年前、女性は衣服を洗うときに手で「こする」必要がありました。 50 年前、テレビのチャンネル...

AMU-Botロボット:作物の間を移動しながら除草する

手作業による除草は時間がかかり、労力もかかりますが、除草剤を散布するのは決して環境に優しくありません...

人工知能とモノのインターネットはどこへ向かうのでしょうか?

モノのインターネットは私たちの日常生活を再構築するのに役立つテクノロジーですが、IoT がその可能性...

製造業におけるデジタルツインについて知っておくべきことすべて

インテリジェント製造の分野では、AI 駆動型デジタルツインが重要な技術となっています。デジタル ツイ...

「人工太陽」が正確に放電します! DeepMind、AI制御の核融合で新たなブレークスルーを達成

AI制御の核融合はもうすぐ実現します。ディープマインドは3年間の秘密の研究開発を経て、昨年、AIを使...

ナレッジグラフを使用して RAG 機能を改善し、大規模モデルの幻覚を軽減する

幻覚は、大規模言語モデル (LLM) を使用するときによく発生する問題です。 LLM は流暢で一貫性...

人工知能によるテキスト検出の実践的有効性に関する議論

AI 支援による記事執筆は今やどこにでもあります。ChatGPT は多くの言語ベースの AI アプリ...

人工知能の力がどのように販売業界に革命をもたらしているか

販売業界が進化し続けるにつれて、販売チームが新規顧客を引き付け、既存顧客を維持するのに役立つ販売戦略...

モデルが大きくなればなるほど、パフォーマンスは向上しますか? Appleの自己回帰視覚モデルAIM: そうです

過去数年間、大規模な事前トレーニング済みモデルが NLP の分野で成功を収めてきました。このようなモ...

...

人工知能開発の動向

ケビン・ケリー氏は「人工知能は人類社会を混乱させる次のものだ」と語った。 2020年は、全世界が前例...

...

AIツアーはAIIA AI開発者会議のサポートで終わりに近づいています

強力なコンピューターと複雑かつ絶えず変化する人間の知性が出会うと、どのような火花が散るのでしょうか?...