この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載しています。転載の際は出典元にご連絡ください。 2021年にOpenAIで最も注目され、最もクリエイティブな製品といえば、Dall Eでしょう。これは、テキストを与えられれば、必要な画像を生成できる「AIデザイナー」です。しかし残念ながら、Dall·E は中国語をサポートしていません。 さて、最近、清華大学のTang Jie氏のチームは、中国語のテキストを画像に変換できる「Dall·Eの中国版」であるCogViewを開発しました。 CogView は、「山を流れる小川」などの現実世界のシーンを生成できます。 「猫豚」など、存在しない仮想のものを作成することもできます。 時々、「悲しい博士課程の学生」のように、少しブラックユーモアもあります。 CogView は現在、任意のテキストを入力してグラフィックに変換できる試用 Web ページも提供しています。これは、いくつかのキーワード変更オプションしか提供していない OpenAI の Dall E とは異なります。 絵画スタイルや衣服のデザインを指定できるCogView は、テキストから画像を入力するだけでなく、スタイルの学習、超解像度、テキストと画像のランキング、ファッション デザインなど、さまざまな微調整戦略を使用して下流のタスクを処理することもできます。 CogView を使用する場合、さまざまなスタイル制限を追加して、さまざまなペイント効果を生成できます。微調整中は、画像に対応するテキストも「XX風画像」となります。 CogView がデザインした衣服も非常にリアルで、偽りの痕跡もなく、電子商取引の表示ページのように見えます。 原理CogView は、VQ-VAE トークナイザーの 40 億のパラメータを持つ Transformer です。全体的な構造は次のとおりです。 CogView は GPT モデルを使用して、個別の辞書上のトークン シーケンスを処理します。学習プロセスは 2 つの段階に分割されます。エンコーダーとデコーダーは再構築損失を最小限に抑えるように学習し、単一の GPT はテキストを連結して 2 つの負の対数尤度 (NLL) 損失を最適化します。 その結果、最初のステージは純粋な離散オートエンコーダーに退化し、画像をラベル付きシーケンスに変換する画像トークナイザーとして機能します。2 番目のステージの GPT は、モデリング タスクの大部分を引き受けます。 画像トークナイザーのトレーニングは非常に重要です。最近傍マッピング、ガンベルサンプリング、ソフトマックス近似の 3 つの方法があります。Dall E は 3 番目の方法を使用していますが、CogView の場合、3 つの方法に大きな違いはありません。 CogView のバックボーンは、48 層、40 個のアテンション ヘッド、40 億個のパラメーター、および 2560 の隠し層サイズを持つ単方向トランスフォーマーです。 トレーニング中に、著者らは CogView にオーバーフロー (NaN 損失を特徴とする) とアンダーフロー (発散損失を特徴とする) という 2 つの不安定性を発見し、それらを解決するために PB-Relax と Sandwich-LN を提案しました。 最後に、CogView は MS COCO で最も低い FID を達成し、以前の GAN ベースのモデルや同様の Dall E を上回りました。 手動評価テストでは、CogView が 37.02% の確率で最良として選択され、他の GAN ベースのモデルをはるかに上回り、Ground Truth (59.53%) と競合できるようになりました。 なお、作者はGitHubプロジェクトページを公開していますが、まだコードはありません。興味のある友人は注目して、コードが公開されるのを待ってください。 論文の宛先: デモを試す: GitHub ページ: |
<<: 毎秒400ペタフロップスの計算能力を備えた最速のAIコンピュータが稼働中です。宇宙最大の3Dマップが構築中
人工知能は、日常的なタスクを自動化することで生産性を向上させる機会を提供します。この記事では、人工知...
大きな模型ブームが到来し、アイアンマンのジャービスが最も忙しい「マーベルヒーロー」(手動の犬の頭)に...
[[271752]]画像出典: Qilu.com一つの火、二本の涙。 7月18日午前10時半頃(現...
誰もが教室でデータサイエンス、人工知能、機械学習を学ぶ時間があるわけではありませんし、誰もがこれらの...
K-means クラスタリング アルゴリズム 中国語名は「K-means クラスタリング アルゴリズ...
AI は、ネットワークとデバイスが過去の決定から学習し、将来のアクティビティを予測し、パフォーマン...
[[241142]]ビッグデータダイジェスト制作編集者: Hu Jia、Wang Yiding、X...
この記事はLeiphone.comから転載したものです。転載する場合は、Leiphone.com公式...
コンピレーション | ブガッティ編集者 | 薛燕澤[51CTO.com クイック翻訳]多くの企業は、...
人工知能とロボット工学はテクノロジー分野に大きな変化をもたらしています。 20年前に人々が夢見ていた...
この記事は公開アカウント「Reading Core Technique」(ID: AI_Discov...
ロボット産業は創業以来、大幅な収益成長を遂げてきました。 2023年までに、世界のロボット市場は年間...
人工知能は、ネットワーク セキュリティの攻撃側と防御側の両方で重要な役割を果たす中立的なテクノロジで...
人工知能は人気が高まっており、つい最近までは単なる新興トレンドに過ぎませんでしたが、現在ではこの技術...
プルーニングを使用すると、AI トレーニングを高速化し、ロスレス操作を実現できます。わずか 3 行の...