論文のイラストは拡散モデルを使用して自動的に生成することもでき、ICLRに受け入れられました。

論文のイラストは拡散モデルを使用して自動的に生成することもでき、ICLRに受け入れられました。

ジェネレーティブ AI は人工知能コミュニティに旋風を巻き起こしました。個人も企業も、Vincent 画像、Vincent ビデオ、Vincent 音楽など、関連するモーダル変換アプリケーションの作成に熱心に取り組んでいます。

最近、ServiceNow Research、LIVIA、その他の研究機関の研究者数名が、テキストの説明に基づいて論文内のグラフを生成しようと試みました。この目的のために、彼らはFigGenという新しい手法を提案し、関連論文もICLR 2023のTiny Paperとして掲載されました。

写真

論文アドレス: https://arxiv.org/pdf/2306.00800.pdf

論文でグラフを作成するのはそんなに難しいことなのかと疑問に思う人もいるかもしれません。これは科学研究にどのように役立つのでしょうか?

科学研究の図生成は、研究結果を簡​​潔かつ分かりやすく伝えるのに役立ちます。また、図の自動生成は、時間と労力を節約し、図をゼロから設計するために多大な労力を費やす必要がないなど、研究者に多くの利点をもたらします。さらに、視覚的に魅力的で理解しやすい図をデザインすることで、論文をより多くの人に理解してもらえるようになります。

ただし、図を生成するには、ボックス、矢印、テキストなどの個別のコンポーネント間の複雑な関係を表現する必要があるため、いくつかの課題もあります。自然画像の生成とは異なり、論文のグラフの概念は表現が異なり、きめ細かい理解が必要になる場合があります。たとえば、ニューラル ネットワーク グラフの生成には、分散の大きい不適切問題が伴います。

そのため、この論文の研究者は、論文とグラフのペアのデータセットで生成モデルをトレーニングし、グラフの構成要素と論文内の対応するテキストとの関係を捉えました。これには、さまざまな長さや高度な技術的なテキストの説明、さまざまな図のスタイル、画像のアスペクト比、テキストのレンダリング フォント、サイズ、方向の問題に対処する必要があります。

具体的な実装プロセスでは、研究者は最近のテキストから画像への変換の成果に触発され、拡散モデルを使用してチャートを生成し、テキストの説明から科学研究チャートを生成するための潜在的な拡散モデルである FigGen を提案しました。

この拡散モデルのユニークな点は何ですか?以下で詳細を見てみましょう。

モデルと方法

研究者たちは潜在拡散モデルをゼロから訓練した。

まず、画像を圧縮された潜在表現にマッピングするための画像オートエンコーダを学習します。画像エンコーダーは、KL 損失と OCR 知覚損失を使用します。条件付けに使用されるテキスト エンコーダーは、拡散モデルのトレーニング中にエンドツーエンドで学習されます。以下の表 3 は、画像オートエンコーダ アーキテクチャの詳細なパラメータを示しています。

次に、拡散モデルは潜在空間で直接相互作用して、データが破損したフォワード スケジューリングを実行し、時間的およびコンテキスト条件付きノイズ除去 U-Net を使用してプロセスを回復する方法を学習します。

データセットに関しては、研究者らは Paper2Fig100k を使用しました。これは論文の図とテキストのペアで構成されており、81,194 個のトレーニング サンプルと 21,259 個の検証サンプルが含まれています。下の図 1 は、Paper2Fig100k テスト セットのテキスト説明を使用して生成されたグラフの例です。

モデルの詳細

1 つ目は画像エンコーダーです。最初の段階では、画像オートエンコーダーがピクセル空間から圧縮された潜在表現へのマッピングを学習し、拡散モデルのトレーニングを高速化します。画像エンコーダーは、画像の重要な詳細 (テキストのレンダリング品質など) を失うことなく、潜在画像をピクセル空間にマッピングし直すことも学習する必要があります。

この目的のために、研究者らは、画像を f=8 の係数でダウンサンプリングするボトルネックを備えた畳み込みコーデックを定義しました。エンコーダーは、ガウス分布による KL 損失、VGG 知覚損失、および OCR 知覚損失を最小化するようにトレーニングされます。

次はテキストエンコーダーです。研究者たちは、一般的なテキストエンコーダーはグラフ生成のタスクには適していないことを発見しました。そこで彼らは、埋め込みチャネル サイズ 512 を使用して、拡散プロセスで最初からトレーニングされた Bert トランスフォーマーを定義します。これは、U-Net のクロス アテンション レイヤーを調整するために使用される埋め込みサイズでもあります。研究者らはまた、異なる設定(8、32、128)での変圧器層の数の変化を調査しました。

最後に、潜在的拡散モデルがあります。下の表 2 は、U-Net のネットワーク アーキテクチャを示しています。研究者らは、画像の知覚的に等価な潜在表現に対して拡散プロセスを実行しました。画像の入力サイズは 64x64x4 に圧縮され、拡散モデルが高速化されました。彼らは 1,000 の拡散ステップと線形ノイズ スケジュールを定義しました。

トレーニングの詳細

研究者らは、画像オートエンコーダをトレーニングするために、4 つの 12GB NVIDIA V100 グラフィック カードを使用し、有効バッチ サイズが 4 サンプル、学習率が 4.5e−6 の Adam オプティマイザーを使用しました。トレーニングの安定性を実現するために、識別器を使用せずに 50,000 回の反復でモデルをウォームアップしました。

潜在拡散モデルのトレーニングには、有効バッチサイズ32、学習率1e−4のAdamオプティマイザーも使用しました。 Paper2Fig100k データセットでモデルをトレーニングする際、8 枚の 80GB NVIDIA A100 グラフィック カードが使用されました。

実験結果

生成プロセス中、研究者らは 200 ステップの DDIM サンプラーを使用し、各モデルに対して 12,000 個のサンプルを生成して、FID、IS、KID、OCR-SIM1 を計算しました。 Steady は、分類子フリー ガイダンス (CFG) を使用して過剰調節をテストします。

以下の表 1 は、さまざまなテキスト エンコーダーの結果を示しています。大きなテキスト エンコーダーが最良の質的結果を生成し、CFG のサイズを大きくすることで条件付き生成を改善できることがわかります。定性的なサンプルは問題を解決するのに十分な品質ではありませんでしたが、FigGen はすでにテキストと画像の関係を把握していました。

下の図 2 は、分類器ガイダンス (CFG) なしでパラメータを調整したときに生成された追加の FigGen サンプルを示しています。研究者たちは、CFG のサイズを大きくすると (定量的にも実証されている)、画像品質が向上することを観察しました。

写真

下の図 3 は、FigGen 生成のさらなる例を示しています。サンプル間の長さのばらつきと、テキスト記述の技術レベルに注意してください。これらは、モデルが理解可能な画像を正しく生成する難易度に密接に影響します。

写真

しかし研究者らは、生成されたチャートが現時点では論文著者に実用的な助けを提供することはできないものの、依然として有望な探究の方向性であることも認めている。

研究の詳細については原著論文を参照してください。

<<:  大規模な言語モデルはデータアシスタントとして機能し、浙江大学のデータコパイロットはデータを効率的に呼び出し、処理し、視覚化します。

>>:  Google、金融機関の内部リスク警告の精度を2~4倍に高められるAIマネーロンダリング対策ツールをリリース

ブログ    
ブログ    

推薦する

...

...

ソフトウェアとハ​​ードウェアを組み合わせたCDS Shouyun AIクラウドサービスの技術実践

人工知能は新たな変化を先導しています。近年、人工知能はテクノロジー業界から始まり、急速に生活の各分野...

...

...

とんでもないことだ! UniVision: BEV 検出と Occ 共同統合フレームワーク、デュアルタスク SOTA!

この記事は、Heart of Autonomous Driving の公開アカウントから許可を得て転...

...

中国の博士が強化学習を使ってSpaceXのロケットを回収

[[435329]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

ディープフェイクで映画を作る時代が来た:ディズニーが高解像度の顔を変えるアルゴリズムを公開

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

トレンド検索No.1! B駅のアップマスターはAIを使って李大昭、陳延年らを笑顔にした

[[408814]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

トランスフォーマーは人気を失っているのか?常識的な問題を解決したい場合、ニューラルネットワークは答えではない

NLP 研究者は皆、言語モデルは文法的な文脈情報しか学習できず、常識的な質問に関しては無力であること...

5Gネットワ​​ーク構築80%:5Gロボットが新たな転換点を迎えようとしている

最近、CCTVニュースによると、中国は2月末までに計画通り5Gネットワ​​ーク構築の80%を完了した...

Python 転移学習: 機械学習アルゴリズム

機械学習は、非常に幅広い領域をカバーする人工知能の人気のあるサブフィールドです。その人気の理由の 1...

ブロックチェーンとAIを最大限に活用する方法

急速に進化する今日のテクノロジー環境において、成功を目指す企業にとって、常に時代の先を行くことが重要...

アリババDAMOアカデミーがAI分野の権威あるランキングトップ6を獲得:人間の学習方法で人間を超える

[[339371]] AIが人間の学習方法を模倣したら何が起こるでしょうか? 8月26日、アリババD...