清華大学の唐潔氏のチームは、ダル・イーよりも優れた成果を挙げた「中国のAIデザイナー」を作成した。

清華大学の唐潔氏のチームは、ダル・イーよりも優れた成果を挙げた「中国のAIデザイナー」を作成した。

[[402579]]

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。

2021年にOpenAIで最も注目され、最もクリエイティブな製品といえば、Dall Eでしょう。これは、テキストを与えられれば、必要な画像を生成できる「AIデザイナー」です。しかし残念ながら、Dall·E は中国語をサポートしていません。

さて、最近、清華大学のTang Jie氏のチームは、中国語のテキストを画像に変換できる「Dall·Eの中国版」であるCogViewを開発しました。

CogView は、「山を流れる小川」などの現実世界のシーンを生成できます。

「猫豚」など、存在しない仮想のものを作成することもできます。

時々、「悲しい博士課程の学生」のように、少しブラックユーモアもあります。

CogView は現在、任意のテキストを入力してグラフィックに変換できる試用 Web ページも提供しています。これは、いくつかのキーワード変更オプションしか提供していない OpenAI の Dall E とは異なります。

絵画スタイルや衣服のデザインを指定できる

CogView は、テキストから画像を入力するだけでなく、スタイルの学習、超解像度、テキストと画像のランキング、ファッション デザインなど、さまざまな微調整戦略を使用して下流のタスクを処理することもできます。

CogView を使用する場合、さまざまなスタイル制限を追加して、さまざまなペイント効果を生成できます。微調整中は、画像に対応するテキストも「XX風画像」となります。

CogView がデザインした衣服も非常にリアルで、偽りの痕跡もなく、電子商取引の表示ページのように見えます。

原理

CogView は、VQ-VAE トークナイザーの 40 億のパラメータを持つ Transformer です。全体的な構造は次のとおりです。

CogView は GPT モデルを使用して、個別の辞書上のトークン シーケンスを処理します。学習プロセスは 2 つの段階に分割されます。エンコーダーとデコーダーは再構築損失を最小限に抑えるように学習し、単一の GPT はテキストを連結して 2 つの負の対数尤度 (NLL) 損失を最適化します。

その結果、最初のステージは純粋な離散オートエンコーダーに退化し、画像をラベル付きシーケンスに変換する画像トークナイザーとして機能します。2 番目のステージの GPT は、モデリング タスクの大部分を引き受けます。

画像トークナイザーのトレーニングは非常に重要です。最近傍マッピング、ガンベルサンプリング、ソフトマックス近似の 3 つの方法があります。Dall E は 3 番目の方法を使用していますが、CogView の場合、3 つの方法に大きな違いはありません。

CogView のバックボーンは、48 層、40 個のアテンション ヘッド、40 億個のパラメーター、および 2560 の隠し層サイズを持つ単方向トランスフォーマーです。

トレーニング中に、著者らは CogView にオーバーフロー (NaN 損失を特徴とする) とアンダーフロー (発散損失を特徴とする) という 2 つの不安定性を発見し、それらを解決するために PB-Relax と Sandwich-LN を提案しました。

最後に、CogView は MS COCO で最も低い FID を達成し、以前の GAN ベースのモデルや同様の Dall E を上回りました。

手動評価テストでは、CogView が 37.02% の確率で最良として選択され、他の GAN ベースのモデルをはるかに上回り、Ground Truth (59.53%) と競合できるようになりました。

なお、作者はGitHubプロジェクトページを公開していますが、まだコードはありません。興味のある友人は注目して、コードが公開されるのを待ってください。

論文の宛先:
https://arxiv.org/abs/2105.13290

デモを試す:
https://lab.aminer.cn/cogview/index.html

GitHub ページ:
https://github.com/THUDM/CogView

<<:  毎秒400ペタフロップスの計算能力を備えた最速のAIコンピュータが稼働中です。宇宙最大の3Dマップが構築中

>>:  機械学習の次元削減手法で「次元の呪い」を打破する

ブログ    
ブログ    

推薦する

「アンティーク」GPUでもDeepSeekと同じGRPOを実行できます。ビデオメモリは1/10しか必要とせず、コンテキストは10倍に増加します

オープンソースの微調整ツール Unsloth が新しいテクノロジーを携えて戻ってきました。前回のアッ...

退屈な「機械学習」がこのように学べるとは思ってもいませんでした!

[[234276]]機械学習は、確率論や統計などの複雑な分野を含む人工知能の中核分野の 1 つです...

...

マイクロソフト、テンセント、インテルがキュウリを栽培する理由:AIのせい

[[249198]]マイクロソフト、テンセント、インテルがキュウリ栽培にAIを活用北京時間11月13...

大規模モデルをより強力にするには、検索拡張生成を使用します。ここでは、Python による実装手順を示します。

この記事では、まず RAG の概念と理論に焦点を当てます。次に、オーケストレーション用の LangC...

インタラクティブな推測 | ワールドカップとブラックテクノロジーが出会ったとき、最終的な勝者は誰になるでしょうか?

[オリジナル記事は51CTO.comより] 2018年ロシアワールドカップはエキサイティングな決勝...

静的な知識を動的にする: ナレッジグラフからファクトグラフへ

[[392524]]ソーシャル ネットワークには、有名な「6 次の隔たり理論」があります。 「世界中...

Java プログラミング スキル - データ構造とアルゴリズム「再帰」

[[392763]]コンセプト簡単に言うと、再帰とは、毎回異なる変数を渡しながら、自身を呼び出すメ...

人力資源社会保障省:人工知能人材の不足は500万人を超える

最近、人力資源・社会保障省は、新しい職業である人工知能工学・技術人材の現在の雇用状況に関する分析レポ...

人工知能は「絶滅危惧」言語の保護に大きな役割を果たすかもしれません!

国連の統計によると、私たちが住む地球上には西暦8世紀以降、2万以上の人間の言語が出現しましたが、今日...

...

Appleの10年にわたる自動車製造の夢は打ち砕かれた! 2,000人が解雇またはAIに異動し、100億ドル近くが燃え尽き、マスク氏は大喜び

10年越しの自動車製造の夢は完全に打ち砕かれ、タイタン計画は終了!言い換えれば、過去10年間にApp...

メタは触覚手袋を開発し、メタバースで猫を撫でたい人もいれば、大胆なアイデアを持つ人もいる

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

人工知能のトップ10の応用シナリオ

序文人工知能ブームは世界中を席巻し、数え切れないほどの人材が人工知能業界に集まっています。機械翻訳、...

人工知能は一般的な仕事に取って代わるのでしょうか?心配しないで、この機会をつかんで次の10年をリードしてください

人工知能の急速な発展により、一連の新技術が誕生しました。ロボットはますます多くのことを人間に代わって...