人工知能画像生成技術:わずか5年でなぜ急速な発展を遂げたのか?

人工知能画像生成技術:わずか5年でなぜ急速な発展を遂げたのか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

同研究所はここ数年で、ルービックキューブを解く方法を自ら学習できるロボットハンド、超人的なeスポーツアルゴリズム、人間が作ったような音楽を生成するアルゴリズム、ゲームをプレイしたりツールを使って複雑な戦略を学習したりできる複数のアルゴリズムも開発してきた。

最近、OpenAI は、書かれたテキストに基づいて画像を生成できる人工知能システムである DALL-E をリリースしました。たとえば、「アボカドの形をした財布。アボカドのスタイルを模倣した財布」というプロンプトに応答して、システムはアボカドの財布に関する数十の反復を生成することができます。

画像出典: OpenAI

同社はまだDALL-E(サルバドール・ダリとWALL-Eを組み合わせた造語)を公開しておらず、選ばれた開発者グループに新ソフトウェアの試用を依頼していないが、同社のウェブサイトに掲載されている例では、このシステムが信じられないほどリアルで詳細な画像を作成できることが示されている。

DALL-E は、イラストや風景画など、さまざまな芸術スタイルに精通しています。また、テキストを生成したり、建物にラベルを付けたり、同じシーンのフルカラー画像から線画を分離したりすることもできます。研究者たちはこの広範囲にわたる能力を一般化と呼んでおり、これはアルゴリズムが特定のタスクや芸術的スタイルに特化されていないことを意味します。

OpenAI は、このアルゴリズムの威力は主に 2 つの要因によるものだとしている。まず、アルゴリズムが巨大であること。使用するパラメータの数は 120 億個と、驚くほど多いです。そして、これらのパラメータは、アルゴリズムが思考を理解する方法を調整するために回すノブと考えることができます。これら 120 億のパラメータにより、画像やテキストを驚くほど詳細に分析できるようになります。

これらの画像とテキスト素材はアルゴリズムに入力され、アルゴリズムが理解しやすいタグまたはテキストに変換されます。 OpenAI は、トークンは英語のアルファベットの文字のようなものだと説明しています。トークンは機械が計算しやすいように概念を断片的に表現し、アルゴリズムの言語でパターンに並べられています。

このマシンアルファベットには、16,384 個のテキストトークンと 8,192 個のイメージトークンが含まれています。人間が読めるテキストを機械が読めるテキストに自動的に変換するこの方法は、「トランスフォーマー モデル」と呼ばれます。テキスト付きのキャプションまたは画像はアルゴリズムに変換され、最大 256 個のトークンに変換されますが、画像は最大 1024 個のトークンに変換できます。これにより、アルゴリズムはより複雑な画像を比較的少量のテキスト入力と一致させることができます。

アルゴリズムは、画像とキャプションのペアを分析することで進化し続けます。数百万回にも及ぶ反復処理を通じて、テキストの断片を画像の特定の特徴と関連付けることができます。しかし、OpenAIはデータセットのサイズやそこに含まれる画像の内容についてはまだ明らかにしていない。

同社はテキストから画像を生成しようとした最初の企業ではなく、これはOpenAIにとっても初めての試みではない。これはこのアルゴリズムの最新バージョンであり、最も実現可能なもののようです。同社はこのシステムを説明する論文を発表していないが、アルゴリズムの作成者はブログでDALL-Eの前身を引用している。

アルゴリズムの系譜を調べることで、テクノロジーが実際にどの程度発展してきたかを追跡できます。

2016

OpenAI は、ミシガン大学とマックス・プランク研究所が執筆したこの論文を引用し、テキストから画像への生成に関する現在の研究を活性化させました。

この論文では、生成的敵対的ネットワーク (GAN) を使用して画像を生成します。 GAN では、画像を生成するアルゴリズムと、十分に現実的でない画像を拒否するアルゴリズムの 2 つのアルゴリズムを互いに競わせます。

画像出典: Reed et. al

2017

1年後、ラトガース大学、リーハイ大学、香港中文大学の研究者らは、アルゴリズムのペアを「積み重ねる」という別のGANアプローチを採用しました。最初のアルゴリズムのペアはシーンの形状と色をレイアウトし、2 番目のアルゴリズムのペアは詳細を調整します。

[[390896]]

画像出典: Zhang et al.

2019

2019 年には、主にマイクロソフト傘下の別のチームが、異なる 2 段階のアプローチを試みました。最初のステップは、シーン内のオブジェクトの場所を示す概略図を生成することです。2 番目のステップは、この概略図をガイドとして使用して、対象の画像を構成するために必要なオブジェクトを生成することです。

画像出典: Li et. al

2020

昨年末、アレン人工知能研究所は、OpenAIが使用しているのと同じConverterモデルを使用した研究を発表しました。アレン研究所の研究者たちは、モデルの中で規模を追求するのではなく、「隠蔽性」に頼った。

この概念を詳しく説明した MIT Technology Review の記事で、カレン・ハオ氏は「隠す」ことを「文中のさまざまな単語を隠し、モデルにその空白を埋めさせる」ことだと説明しています。アルゴリズムがこれらの直感的なジャンプを習得すると、研究者は生成される画像の品質が大幅に向上することを発見しました。

画像出典: Cho et al.

こうした過去の研究事例を振り返ると、OpenAI の DALL-E はまさに飛躍的な進歩であることがわかります。漠然とした始まりから、この技術は、OneZero のコラムニストであるオーウェン・ウィリアムズ氏が実際に購入するだろうと語るアボカド型の椅子を生成できるところまで進歩しました。

こうした進歩は、家具デザイナー、ストックアーティスト、その他のインターネットアーティストの世代を怖がらせるのに十分です。

<<:  物流業界におけるインテリジェント化のトレンドは、倉庫ロボットの将来性を浮き彫りにしています。

>>:  新しい機械学習アプローチによりエネルギー消費を20%削減

ブログ    
ブログ    
ブログ    

推薦する

ガートナーなど権威ある組織:人工知能、国内外のどのAI技術が強いのか?

2020年末、我が国は第14次5カ年計画を発表し、2035年までの中国の長期目標を策定しました。 ...

これらの10の機械学習手法をマスターすれば、あなたはサークルで最も人気のある人になるでしょう

科学研究でも産業界でも、機械学習はホットな話題であり、新しい機械学習手法が次々と登場しています。機械...

ビッグデータと AI を現代の教育とどのように組み合わせることができるでしょうか?

転載は歓迎しますが、署名し、「劉鵬の未来を見つめる」公開アカウントからの転載であることを明記し、この...

...

自然言語処理におけるディープラーニングの応用

自然言語処理とは、自然言語を使用して人間とコンピューターが効果的にコミュニケーションするためのさまざ...

VRシルキーパノラマはもうすぐそこ? Googleの360°NeRFは人々に未来を垣間見せる

少し前に、CVPR 2022 が今年の論文採択結果を発表しましたが、これは提出された論文がようやく沈...

ドローンを飛ばすことはいつでもできるわけではない

[[354481]]古来より人々は鳥のように青い空を飛ぶことを夢見てきました。子供の頃の紙飛行機であ...

MITの新しい研究により、物体間の潜在的な関係性を理解し、AIが人間のように世界を「見る」ことが可能になった。

[[441262]]人々がシーンを観察するとき、通常はシーン内のオブジェクトとそれらの間の関係を観...

ソラのトレーニングデータが流出した疑い、ネットユーザー「UE5が間違いなく使われている」

朗報です、朗報です、本物のソラの新しいビデオがあります!通りかかったらぜひお見逃しなく! (本物のS...

人工知能は匿名のチェスプレイヤーの身元を確認でき、プライバシーの脅威となる

人工知能技術はすでに音声や手書きを通じて個人の身元を確認することができます。現在、人工知能アルゴリズ...

...

...

マイクロソフト、テンセント、インテルがキュウリを栽培する理由:AIのせい

[[249198]]マイクロソフト、テンセント、インテルがキュウリ栽培にAIを活用北京時間11月13...

AIが私の本を盗作してAmazonで販売したのですか? !

ビッグデータダイジェスト制作出典: theguardianすべての作家にとって、盗作はおそらく最も許...