この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 意外なことに、OpenAI が DALL·E を発表するとすぐに、誰かがすでにそれを再現していました。 まだ半完成品ではありますが、大まかなフレームワークは構築されており、現在はサードパーティの作者であるPhilip Wang 氏が作業中です。 DALL·Eは、2日前に発表されたばかりのテキストから画像へのネットワークフレームワークです。 今のところ、プロジェクトの結果のみが発表されており、公式の論文さえまだ公開されていません。 この論文はまだ出版されていないが、すでに再掲載され始めている。この論文の転載の根拠は、 Yannic Kilcherというブロガーが作成した YouTube ビデオです。 動画では、DALL·Eの原理的な構造について考察しました。 彼は、これらの推測は実際の状況を反映しておらず、おそらくDALLEの論文が発表されれば彼の予想は覆されるだろうと述べた。 Yannic 氏は、DALL·E はVQ-VAEモデルと GPT-3 に似た言語モデルを組み合わせたものであるべきだと考えています。 GPT-3 などの言語モデルは非常に強力な言語モデリング機能を備えており、入力テキストの説明を適切に分割して理解できます。 VAE モデルは強力な画像生成トランスフォーマーです。トレーニング後、モデルはエンコーダー部分を削除し、画像生成用のデコーダーのみを残します。 これら 2 つを組み合わせると、下の図の小さな四角形のように、理解したテキストに基づいて、さまざまな入力オブジェクトを実用的な意味を持つ画像に組み合わせることができます。 たとえば、人物、太陽、木を入力すると、モデルは「太陽の下の木の下に座っている人物」を描いた画像を出力できます。 どうやってそれを達成するのでしょうか? まず、VQ-VAE のモデル原理を簡単に分析してみましょう。 VAE と同様に、これも Transformer 構造モデルです。エンコーダーは画像をエンコードした後、エンコードされたデータを潜在空間に送信し、デコーダーは潜在空間から画像を再構築します。 VAE と比較すると、VQ-VAE の潜在変数の各次元は離散整数です。つまり、その潜在空間は実際にはさまざまな抽出されたベクトル情報を含むコードブックです。 DALL·E では、このコードブックは本質的に語彙集に相当します。 この語彙は、特に画像のさまざまな説明を保存するために使用されます。 入力画像をエンコードする場合、画像は基本的にさまざまなピクセル ブロックに分割されます。 この期間中に、さまざまな画像情報が生成されます。 空色のグリッドに「空」の説明情報が含まれていると仮定すると、再構築中にデコーダーは「空」情報を読み取り、上部に一連のピクセルを割り当てて空を生成します。 VQ-VAE のトレーニングが完了すると、モデルはデコーダーだけが理解できるコードブックを取得します。 その際、GPT-3に似た言語モデルが入力テキストをデコードし、コーディングブックだけが理解できるベクトル情報に変換します。 次に、コードブックはこの情報を並べ替え、各ピクセル ブロックに対して生成する必要があるデータを順番にリストし、デコーダーに伝えます。 デコーダーはこれらのピクセル データを合成して最終画像を取得します。 この目標を達成するためには、GPT-3と同様の言語モデルをトレーニングし、事前にVQ-VAEモデルを事前トレーニングする必要があります。 さらに、2つの融合モデルをトレーニングする必要があります。 筆者が再現したDALL·Eもこのビデオ解析の原理に基づいています。 プロジェクト自体について現在、DALL・E 複製プロジェクトは完了しておらず、作者はまだ作業中(WIP)ですが、すでに 700 を超えるスターを獲得しています。 著者は、DALL·E のPyTorchバージョンを作成したいと考えています。現在のフレームワークには、VAE トレーニング、CLIP トレーニング、および VAE と CLIP の融合後のモデルの事前トレーニングがすでに含まれています。 さらに、DALL·E のトレーニングと、事前トレーニング済みの VAE モデルの DALL·E モデルへの統合も含まれます。 上記のモジュールをトレーニングした後、DALL·E を使用してテキストから画像を生成できます。 現在、著者はDALL·Eモジュールのコードを再現しています。 作者は、DALL·E 部分が完成したら CLIP モデルも完成させると約束しました。 著者についてフィリップ・ワンはコーネル大学で学士号と修士号を取得し、ミシガン大学医学部で博士号を取得しました。 彼の研究対象は AI (ディープラーニング) とヘルスケアです。現在、GitHub で 1.7 千人のフォロワーがいます。 DALL·E自体に関しては、ビデオ分析ブロガーのYannic氏も、このような良好な結果が達成された理由はモデル設計だけによるものではないと述べています。 DALL·E は、GPT-3 と同様に、モデルのトレーニングに大規模なデータセットを使用する可能性が高くなります。 ネットユーザーたちは、これをトレーニングするために使用された GPU の数は想像しがたいと述べ、気候は再び暖かくなるだろうと語った。 では、このプロジェクトを完全に再現したい場合、最も難しいのは実はハードウェア部分なのでしょうか? (手動犬頭) プロジェクトアドレス: DALL·E ビデオ分析: |
ネイト・ロシディ翻訳者 | ブガッティレビュー | Chonglou制作:51CTO テクノロジース...
科学研究でも産業界でも、機械学習はホットな話題であり、新しい機械学習手法が次々と登場しています。機械...
5月12日、第12回中国道路交通安全製品博覧会及び公安交通警察装備展示会(以下:交通博覧会)が重慶...
ほとんどの場合、テクノロジーがビジネスに与える影響は徐々に増加しますが、時折、ビジネスの世界観全体を...
GPT-4 が怠惰になる問題の解決に新たな進歩があります。今朝、ウルトラマンが、新年には GPT-4...
BT プロトコルと eMule プロトコルのアルゴリズムにはいくつかの違いがあり、この 2 つを併用...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
気がつけば、もう2024年も最後の月になってしまいました。今年のテクノロジー業界の申し子として、Op...
[[423755]]人工知能は、詐欺の特定や金融犯罪の撲滅から、顧客への革新的なデジタル体験の提供に...
PCMag が調査を実施したところ、ユーザーの 68% が、さまざまなスマートホーム製品が知らないう...
ブラウザに住むアーティストが開発した、ニューヨーク発のAIカメラアプリが人気を集めている。もしスティ...
最近、Sogou 入力方式がバージョン 10.8 に更新されました。新バージョンでは、主に音声入力と...