人工知能画像生成技術:わずか5年でなぜ急速な発展を遂げたのか?

人工知能画像生成技術:わずか5年でなぜ急速な発展を遂げたのか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

同研究所はここ数年で、ルービックキューブを解く方法を自ら学習できるロボットハンド、超人的なeスポーツアルゴリズム、人間が作ったような音楽を生成するアルゴリズム、ゲームをプレイしたりツールを使って複雑な戦略を学習したりできる複数のアルゴリズムも開発してきた。

最近、OpenAI は、書かれたテキストに基づいて画像を生成できる人工知能システムである DALL-E をリリースしました。たとえば、「アボカドの形をした財布。アボカドのスタイルを模倣した財布」というプロンプトに応答して、システムはアボカドの財布に関する数十の反復を生成することができます。

画像出典: OpenAI

同社はまだDALL-E(サルバドール・ダリとWALL-Eを組み合わせた造語)を公開しておらず、選ばれた開発者グループに新ソフトウェアの試用を依頼していないが、同社のウェブサイトに掲載されている例では、このシステムが信じられないほどリアルで詳細な画像を作成できることが示されている。

DALL-E は、イラストや風景画など、さまざまな芸術スタイルに精通しています。また、テキストを生成したり、建物にラベルを付けたり、同じシーンのフルカラー画像から線画を分離したりすることもできます。研究者たちはこの広範囲にわたる能力を一般化と呼んでおり、これはアルゴリズムが特定のタスクや芸術的スタイルに特化されていないことを意味します。

OpenAI は、このアルゴリズムの威力は主に 2 つの要因によるものだとしている。まず、アルゴリズムが巨大であること。使用するパラメータの数は 120 億個と、驚くほど多いです。そして、これらのパラメータは、アルゴリズムが思考を理解する方法を調整するために回すノブと考えることができます。これら 120 億のパラメータにより、画像やテキストを驚くほど詳細に分析できるようになります。

これらの画像とテキスト素材はアルゴリズムに入力され、アルゴリズムが理解しやすいタグまたはテキストに変換されます。 OpenAI は、トークンは英語のアルファベットの文字のようなものだと説明しています。トークンは機械が計算しやすいように概念を断片的に表現し、アルゴリズムの言語でパターンに並べられています。

このマシンアルファベットには、16,384 個のテキストトークンと 8,192 個のイメージトークンが含まれています。人間が読めるテキストを機械が読めるテキストに自動的に変換するこの方法は、「トランスフォーマー モデル」と呼ばれます。テキスト付きのキャプションまたは画像はアルゴリズムに変換され、最大 256 個のトークンに変換されますが、画像は最大 1024 個のトークンに変換できます。これにより、アルゴリズムはより複雑な画像を比較的少量のテキスト入力と一致させることができます。

アルゴリズムは、画像とキャプションのペアを分析することで進化し続けます。数百万回にも及ぶ反復処理を通じて、テキストの断片を画像の特定の特徴と関連付けることができます。しかし、OpenAIはデータセットのサイズやそこに含まれる画像の内容についてはまだ明らかにしていない。

同社はテキストから画像を生成しようとした最初の企業ではなく、これはOpenAIにとっても初めての試みではない。これはこのアルゴリズムの最新バージョンであり、最も実現可能なもののようです。同社はこのシステムを説明する論文を発表していないが、アルゴリズムの作成者はブログでDALL-Eの前身を引用している。

アルゴリズムの系譜を調べることで、テクノロジーが実際にどの程度発展してきたかを追跡できます。

2016

OpenAI は、ミシガン大学とマックス・プランク研究所が執筆したこの論文を引用し、テキストから画像への生成に関する現在の研究を活性化させました。

この論文では、生成的敵対的ネットワーク (GAN) を使用して画像を生成します。 GAN では、画像を生成するアルゴリズムと、十分に現実的でない画像を拒否するアルゴリズムの 2 つのアルゴリズムを互いに競わせます。

画像出典: Reed et. al

2017

1年後、ラトガース大学、リーハイ大学、香港中文大学の研究者らは、アルゴリズムのペアを「積み重ねる」という別のGANアプローチを採用しました。最初のアルゴリズムのペアはシーンの形状と色をレイアウトし、2 番目のアルゴリズムのペアは詳細を調整します。

[[390896]]

画像出典: Zhang et al.

2019

2019 年には、主にマイクロソフト傘下の別のチームが、異なる 2 段階のアプローチを試みました。最初のステップは、シーン内のオブジェクトの場所を示す概略図を生成することです。2 番目のステップは、この概略図をガイドとして使用して、対象の画像を構成するために必要なオブジェクトを生成することです。

画像出典: Li et. al

2020

昨年末、アレン人工知能研究所は、OpenAIが使用しているのと同じConverterモデルを使用した研究を発表しました。アレン研究所の研究者たちは、モデルの中で規模を追求するのではなく、「隠蔽性」に頼った。

この概念を詳しく説明した MIT Technology Review の記事で、カレン・ハオ氏は「隠す」ことを「文中のさまざまな単語を隠し、モデルにその空白を埋めさせる」ことだと説明しています。アルゴリズムがこれらの直感的なジャンプを習得すると、研究者は生成される画像の品質が大幅に向上することを発見しました。

画像出典: Cho et al.

こうした過去の研究事例を振り返ると、OpenAI の DALL-E はまさに飛躍的な進歩であることがわかります。漠然とした始まりから、この技術は、OneZero のコラムニストであるオーウェン・ウィリアムズ氏が実際に購入するだろうと語るアボカド型の椅子を生成できるところまで進歩しました。

こうした進歩は、家具デザイナー、ストックアーティスト、その他のインターネットアーティストの世代を怖がらせるのに十分です。

<<:  物流業界におけるインテリジェント化のトレンドは、倉庫ロボットの将来性を浮き彫りにしています。

>>:  新しい機械学習アプローチによりエネルギー消費を20%削減

ブログ    
ブログ    

推薦する

ガートナー:AIと自動化は次世代SASEの重要な機能となる

近年、セキュア アクセス サービス エッジ (SASE) テクノロジーは急速に発展し、産業界で広く使...

IDC:中国のAIパブリッククラウド市場は2022年にトレンドに逆らって成長し、成長率は80.6%になる

最近、IDCは「IDC中国AIパブリッククラウドサービス市場シェア、2022」レポートを発表しました...

最高の AI 学習アプリ トップ 10

人工知能の革新により、ツールの使用方法は変化しています。 AI 学習アプリケーションは、適応型学習、...

Red Hat は Ansible の自動化に IBM Watsonx コード生成を採用

Red Hat Inc. は本日、情報技術自動化のための生成 AI サービスである IBM Wats...

AIに人間主義の精神を持ち込むことについて、フェイフェイ・リーとビル・ゲイツは今日スタンフォードで何について話したのでしょうか?

マイクロソフト創業者のビル・ゲイツ氏、グーグルの人工知能の第一人者ジェフ・ディーン氏、ディープマイン...

人工知能に関するあまり知られていない3つの事実!古代中国にロボットは存在したのでしょうか?

時代の発展とテクノロジーの進歩に伴い、人工知能の分野も革新を繰り返しています。しかし、この神秘的な業...

彼らはAIを使って時の塵を拭い去り、半世紀前のアジア競技大会で中国が初めて金メダルを獲得した時の記憶を再現した。

杭州アジア競技大会初の金メダルが誕生した。女子軽量級ダブルスカルボート決勝では、中国の鄒佳琦選手と邱...

2021年6月の人工知能分野における重要な進展の概要

人工知能は、人間の理論、方法、技術、アプリケーション システムをシミュレート、拡張、拡大するために使...

AI、VR、ブロックチェーンにより、新しい時代は貧しい人々にとっての楽園となるのでしょうか?

今日の社会では貧困がまだ存在しています。 [[275832]]国連開発計画(UNDP)のデータによる...

OpenAI が 10 億ドルで Microsoft に売却された後、汎用人工知能にはまだ希望があるのでしょうか?

[[422423]]お金が手に入ったとき、あなたはまだ当初の意図を貫くことができますか? OpenA...

...

「顔をスキャン」すると、実はリスクが伴う。顔認識、個人情報保護の観点から

[[417904]]例:2020年6月、杭州市阜陽区人民法院は、郭兵と杭州野生動物公園との間のサービ...

...

AI キャリアに移行する IT プロフェッショナルのための 8 つのヒント

IT プロフェッショナルは、IT 職から AI 技術職にどのように移行するのでしょうか? 専門家によ...