人工知能画像生成技術：わずか5年でなぜ急速な発展を遂げたのか？

この記事は公開アカウント「Reading Core Technique」（ID: AI_Discovery）から転載したものです。

同研究所はここ数年で、ルービックキューブを解く方法を自ら学習できるロボットハンド、超人的なeスポーツアルゴリズム、人間が作ったような音楽を生成するアルゴリズム、ゲームをプレイしたりツールを使って複雑な戦略を学習したりできる複数のアルゴリズムも開発してきた。

最近、OpenAI は、書かれたテキストに基づいて画像を生成できる人工知能システムである DALL-E をリリースしました。たとえば、「アボカドの形をした財布。アボカドのスタイルを模倣した財布」というプロンプトに応答して、システムはアボカドの財布に関する数十の反復を生成することができます。

画像出典: OpenAI

同社はまだDALL-E（サルバドール・ダリとWALL-Eを組み合わせた造語）を公開しておらず、選ばれた開発者グループに新ソフトウェアの試用を依頼していないが、同社のウェブサイトに掲載されている例では、このシステムが信じられないほどリアルで詳細な画像を作成できることが示されている。

DALL-E は、イラストや風景画など、さまざまな芸術スタイルに精通しています。また、テキストを生成したり、建物にラベルを付けたり、同じシーンのフルカラー画像から線画を分離したりすることもできます。研究者たちはこの広範囲にわたる能力を一般化と呼んでおり、これはアルゴリズムが特定のタスクや芸術的スタイルに特化されていないことを意味します。

OpenAI は、このアルゴリズムの威力は主に 2 つの要因によるものだとしている。まず、アルゴリズムが巨大であること。使用するパラメータの数は 120 億個と、驚くほど多いです。そして、これらのパラメータは、アルゴリズムが思考を理解する方法を調整するために回すノブと考えることができます。これら 120 億のパラメータにより、画像やテキストを驚くほど詳細に分析できるようになります。

これらの画像とテキスト素材はアルゴリズムに入力され、アルゴリズムが理解しやすいタグまたはテキストに変換されます。 OpenAI は、トークンは英語のアルファベットの文字のようなものだと説明しています。トークンは機械が計算しやすいように概念を断片的に表現し、アルゴリズムの言語でパターンに並べられています。

このマシンアルファベットには、16,384 個のテキストトークンと 8,192 個のイメージトークンが含まれています。人間が読めるテキストを機械が読めるテキストに自動的に変換するこの方法は、「トランスフォーマーモデル」と呼ばれます。テキスト付きのキャプションまたは画像はアルゴリズムに変換され、最大 256 個のトークンに変換されますが、画像は最大 1024 個のトークンに変換できます。これにより、アルゴリズムはより複雑な画像を比較的少量のテキスト入力と一致させることができます。

アルゴリズムは、画像とキャプションのペアを分析することで進化し続けます。数百万回にも及ぶ反復処理を通じて、テキストの断片を画像の特定の特徴と関連付けることができます。しかし、OpenAIはデータセットのサイズやそこに含まれる画像の内容についてはまだ明らかにしていない。

同社はテキストから画像を生成しようとした最初の企業ではなく、これはOpenAIにとっても初めての試みではない。これはこのアルゴリズムの最新バージョンであり、最も実現可能なもののようです。同社はこのシステムを説明する論文を発表していないが、アルゴリズムの作成者はブログでDALL-Eの前身を引用している。

アルゴリズムの系譜を調べることで、テクノロジーが実際にどの程度発展してきたかを追跡できます。

2016

OpenAI は、ミシガン大学とマックス・プランク研究所が執筆したこの論文を引用し、テキストから画像への生成に関する現在の研究を活性化させました。

この論文では、生成的敵対的ネットワーク (GAN) を使用して画像を生成します。 GAN では、画像を生成するアルゴリズムと、十分に現実的でない画像を拒否するアルゴリズムの 2 つのアルゴリズムを互いに競わせます。

画像出典: Reed et. al

2017

1年後、ラトガース大学、リーハイ大学、香港中文大学の研究者らは、アルゴリズムのペアを「積み重ねる」という別のGANアプローチを採用しました。最初のアルゴリズムのペアはシーンの形状と色をレイアウトし、2 番目のアルゴリズムのペアは詳細を調整します。

画像出典: Zhang et al.

2019

2019 年には、主にマイクロソフト傘下の別のチームが、異なる 2 段階のアプローチを試みました。最初のステップは、シーン内のオブジェクトの場所を示す概略図を生成することです。2 番目のステップは、この概略図をガイドとして使用して、対象の画像を構成するために必要なオブジェクトを生成することです。

画像出典: Li et. al

2020

昨年末、アレン人工知能研究所は、OpenAIが使用しているのと同じConverterモデルを使用した研究を発表しました。アレン研究所の研究者たちは、モデルの中で規模を追求するのではなく、「隠蔽性」に頼った。

この概念を詳しく説明した MIT Technology Review の記事で、カレン・ハオ氏は「隠す」ことを「文中のさまざまな単語を隠し、モデルにその空白を埋めさせる」ことだと説明しています。アルゴリズムがこれらの直感的なジャンプを習得すると、研究者は生成される画像の品質が大幅に向上することを発見しました。

画像出典: Cho et al.

こうした過去の研究事例を振り返ると、OpenAI の DALL-E はまさに飛躍的な進歩であることがわかります。漠然とした始まりから、この技術は、OneZero のコラムニストであるオーウェン・ウィリアムズ氏が実際に購入するだろうと語るアボカド型の椅子を生成できるところまで進歩しました。

こうした進歩は、家具デザイナー、ストックアーティスト、その他のインターネットアーティストの世代を怖がらせるのに十分です。

<<: 物流業界におけるインテリジェント化のトレンドは、倉庫ロボットの将来性を浮き彫りにしています。

>>: 新しい機械学習アプローチによりエネルギー消費を20%削減