人工知能画像生成技術:わずか5年でなぜ急速な発展を遂げたのか?

人工知能画像生成技術:わずか5年でなぜ急速な発展を遂げたのか?

この記事は公開アカウント「Reading Core Technique」(ID: AI_Discovery)から転載したものです。

同研究所はここ数年で、ルービックキューブを解く方法を自ら学習できるロボットハンド、超人的なeスポーツアルゴリズム、人間が作ったような音楽を生成するアルゴリズム、ゲームをプレイしたりツールを使って複雑な戦略を学習したりできる複数のアルゴリズムも開発してきた。

最近、OpenAI は、書かれたテキストに基づいて画像を生成できる人工知能システムである DALL-E をリリースしました。たとえば、「アボカドの形をした財布。アボカドのスタイルを模倣した財布」というプロンプトに応答して、システムはアボカドの財布に関する数十の反復を生成することができます。

画像出典: OpenAI

同社はまだDALL-E(サルバドール・ダリとWALL-Eを組み合わせた造語)を公開しておらず、選ばれた開発者グループに新ソフトウェアの試用を依頼していないが、同社のウェブサイトに掲載されている例では、このシステムが信じられないほどリアルで詳細な画像を作成できることが示されている。

DALL-E は、イラストや風景画など、さまざまな芸術スタイルに精通しています。また、テキストを生成したり、建物にラベルを付けたり、同じシーンのフルカラー画像から線画を分離したりすることもできます。研究者たちはこの広範囲にわたる能力を一般化と呼んでおり、これはアルゴリズムが特定のタスクや芸術的スタイルに特化されていないことを意味します。

OpenAI は、このアルゴリズムの威力は主に 2 つの要因によるものだとしている。まず、アルゴリズムが巨大であること。使用するパラメータの数は 120 億個と、驚くほど多いです。そして、これらのパラメータは、アルゴリズムが思考を理解する方法を調整するために回すノブと考えることができます。これら 120 億のパラメータにより、画像やテキストを驚くほど詳細に分析できるようになります。

これらの画像とテキスト素材はアルゴリズムに入力され、アルゴリズムが理解しやすいタグまたはテキストに変換されます。 OpenAI は、トークンは英語のアルファベットの文字のようなものだと説明しています。トークンは機械が計算しやすいように概念を断片的に表現し、アルゴリズムの言語でパターンに並べられています。

このマシンアルファベットには、16,384 個のテキストトークンと 8,192 個のイメージトークンが含まれています。人間が読めるテキストを機械が読めるテキストに自動的に変換するこの方法は、「トランスフォーマー モデル」と呼ばれます。テキスト付きのキャプションまたは画像はアルゴリズムに変換され、最大 256 個のトークンに変換されますが、画像は最大 1024 個のトークンに変換できます。これにより、アルゴリズムはより複雑な画像を比較的少量のテキスト入力と一致させることができます。

アルゴリズムは、画像とキャプションのペアを分析することで進化し続けます。数百万回にも及ぶ反復処理を通じて、テキストの断片を画像の特定の特徴と関連付けることができます。しかし、OpenAIはデータセットのサイズやそこに含まれる画像の内容についてはまだ明らかにしていない。

同社はテキストから画像を生成しようとした最初の企業ではなく、これはOpenAIにとっても初めての試みではない。これはこのアルゴリズムの最新バージョンであり、最も実現可能なもののようです。同社はこのシステムを説明する論文を発表していないが、アルゴリズムの作成者はブログでDALL-Eの前身を引用している。

アルゴリズムの系譜を調べることで、テクノロジーが実際にどの程度発展してきたかを追跡できます。

2016

OpenAI は、ミシガン大学とマックス・プランク研究所が執筆したこの論文を引用し、テキストから画像への生成に関する現在の研究を活性化させました。

この論文では、生成的敵対的ネットワーク (GAN) を使用して画像を生成します。 GAN では、画像を生成するアルゴリズムと、十分に現実的でない画像を拒否するアルゴリズムの 2 つのアルゴリズムを互いに競わせます。

画像出典: Reed et. al

2017

1年後、ラトガース大学、リーハイ大学、香港中文大学の研究者らは、アルゴリズムのペアを「積み重ねる」という別のGANアプローチを採用しました。最初のアルゴリズムのペアはシーンの形状と色をレイアウトし、2 番目のアルゴリズムのペアは詳細を調整します。

[[390896]]

画像出典: Zhang et al.

2019

2019 年には、主にマイクロソフト傘下の別のチームが、異なる 2 段階のアプローチを試みました。最初のステップは、シーン内のオブジェクトの場所を示す概略図を生成することです。2 番目のステップは、この概略図をガイドとして使用して、対象の画像を構成するために必要なオブジェクトを生成することです。

画像出典: Li et. al

2020

昨年末、アレン人工知能研究所は、OpenAIが使用しているのと同じConverterモデルを使用した研究を発表しました。アレン研究所の研究者たちは、モデルの中で規模を追求するのではなく、「隠蔽性」に頼った。

この概念を詳しく説明した MIT Technology Review の記事で、カレン・ハオ氏は「隠す」ことを「文中のさまざまな単語を隠し、モデルにその空白を埋めさせる」ことだと説明しています。アルゴリズムがこれらの直感的なジャンプを習得すると、研究者は生成される画像の品質が大幅に向上することを発見しました。

画像出典: Cho et al.

こうした過去の研究事例を振り返ると、OpenAI の DALL-E はまさに飛躍的な進歩であることがわかります。漠然とした始まりから、この技術は、OneZero のコラムニストであるオーウェン・ウィリアムズ氏が実際に購入するだろうと語るアボカド型の椅子を生成できるところまで進歩しました。

こうした進歩は、家具デザイナー、ストックアーティスト、その他のインターネットアーティストの世代を怖がらせるのに十分です。

<<:  物流業界におけるインテリジェント化のトレンドは、倉庫ロボットの将来性を浮き彫りにしています。

>>:  新しい機械学習アプローチによりエネルギー消費を20%削減

ブログ    
ブログ    
ブログ    

推薦する

プログラマーはどのようにして人工知能を学ぶのでしょうか? 2019 年の人工知能の給与見通しはどうでしょうか?

2019年の人工知能の給与水準、まずは全体の給与水準の2つの分析グラフを見てみましょう! ***は...

レポート予測:Appleは2020年にSiriオペレーティングシステムをリリースする

[[271210]]海外メディアの報道によると、マングローブ・キャピタル・パートナーズは今週、201...

Java プログラミング スキル - データ構造とアルゴリズム「バイナリ ソート ツリー」

[[390181]]基本的な紹介バイナリ ソート (検索) ツリー: バイナリ ソート ツリー内の...

RealAIは、業界の信頼できる発展を促進するために人工知能セキュリティ技術ツールを作成します。

4月26日、中国サイバースペース管理局の主催で「人工知能-社会実験の観点から見た社会ガバナンス」を...

...

AIは自動車でも加速しており、メルセデス・ベンツは車載音声アシスタントをChatGPTチャットボットに接続すると発表した。

6月16日のニュースによると、メルセデス・ベンツは木曜日、6月16日にテストプログラムを開始し、ア...

クレイジーすぎる、GPTsがオンライン:ウルトラマンがマスクの大型模型の手こすりを披露、誰かがサードパーティのマーケットを作った

数日前の開発者会議で、OpenAIは、メンバーシップを購入すれば、GPT-4大規模モデルの新バージョ...

スタンフォード大学: 人工知能に関する 4 年間の学部課程一覧

最近、数年間業界で働いているスタンフォード大学の AI 卒業生が、AI と機械学習のキャリアのために...

前進を続けましょう: TensorFlow 2.4 の新機能を見てみましょう。

TensorFlow 2.4 が利用可能になりました!このリリースには、新しい機能、パフォーマンス...

...

人工知能が野生生物保護活動に貢献

犯罪現場の足跡が貴重な証拠となるのと同様に、野生動物の足跡も野生生物保護活動家にとって同様に貴重なも...

国産初のオープンソースMoE大型モデルが登場!パフォーマンスはLlama 2-7Bに匹敵し、計算量は60%削減されます。

オープンソースのMoEモデルがついに国内初のプレイヤーを迎えます!そのパフォーマンスは高密度の Ll...

マイクロソフトが積極的に顔認識データベースを削除した秘密は何でしょうか?

1. マイクロソフトはひそかに顔認識データベースを削除したマイクロソフトは、同社最大の公開顔認識デ...

2019 年に読むべき 5 つの無料機械学習電子書籍

[51CTO.com クイック翻訳] 現在、機械学習は主要なソフトウェアエンジニアリング分野における...

この論文では、688件の大規模モデル論文を分析し、LLMの現在の課題と応用について検討する。

まったく知られていなかった状態から誰もが話題にする状態へと、大規模言語モデル (LLM) の状況はこ...