OpenAI のもう一つの「大ヒット作」: AI に芸術的創造性を与える

OpenAI のもう一つの「大ヒット作」: AI に芸術的創造性を与える

OpenAIがまた爆弾発言をしました。

昨年夏に人気の言語モデルGPT-3を発表したOpenAIの研究チームは今月初め、DALL-Eと呼ばれる新しいAIモデルを発表した。 GPT-3ほど普及しているわけではありませんが、AIの将来の発展にさらに大きな影響を与える可能性があります。

つまり、DALL-E はテキストの説明を入力として受け取り、それに基づいて生の画像出力を生成することができます。 (DALL-E という名前は、シュールレアリストの芸術家サルバドール・ダリと、ピクサー・スタジオが作成したかわいいロボットキャラクター WALL-E にちなんで付けられました。)

たとえば、「五角形の緑の時計」、「火の玉」、「建物の壁に描かれた青いカボチャの壁画」などの入力を与えると、DALL-E は驚くほど正確なビジュアルを生成できます。

▲「建物の壁に青いカボチャの壁画」を生成するよう求められた後、OpenAIの新しいディープラーニングモデルDALL-Eは上記のオリジナル画像を生成することができた。

DALL-E が重要なのはなぜですか?

まず、これは「マルチモーダル AI」と呼ばれるまったく新しい AI パラダイムの出現を告げるものです。このパラダイムは人工知能の未来を表しているようです。 DALL-Eを例にとると、マルチモーダルAIシステムは複数の情報モードを解釈、合成、翻訳することができ、それによって状況、言語、画像をマッピングすることができます。 DALL-E は最初のマルチモーダル AI ソリューションではありませんが、これまでで最も驚くべき実用的な効果をもたらします。

OpenAIの共同創設者であるイリヤ・スツケバー氏は次のようにまとめています。「世界は言葉だけで構成されているわけではありません。人間は視覚的に自分を表現し、視覚的要素は非常に重要です。」

現在存在するほとんどの AI システムは、1 種類のデータしか処理できません。自然言語処理モデル (GPT-3 などの NLP モデル) はテキストのみを処理でき、コンピューター ビジョン モデル (顔認識システムなど) は画像のみを処理できます。しかし、人間の脳が示す知能は明らかにより適応性が高く、より柔軟に情報を処理することができます。

人間は、視覚、聴覚、触覚、嗅覚、味覚の五感から常に情報を取り入れ、統合することで、周囲の世界を理解しています。これを基に、私たちは音声、テキスト、ボディランゲージ、表情、音楽など、さまざまな形でこの色彩豊かな世界に情報を伝えます。

自然言語理解と視覚的表現を生成する能力を組み合わせることで(つまり、「読み取り」と「視覚」を組み合わせることで)、DALL-E はマルチモーダル AI の大きな可能性を再び実証します。

これはほんの始まりに過ぎません。今後数か月から数年のうちに、新しい AI システムがオーディオ、ビデオ、音声、画像、テキスト、タッチなどの要素をシームレスに統合することが期待されています。 AI が複数の種類の情報をますます複雑な方法で組み合わせることを学習するにつれて、世界を理解し、新たな洞察を生み出す能力が爆発的に向上するでしょう。

DALL-E には、おそらくもっと根本的な別の意義がある。それは、人工知能に内在する膨大な創造性を人間が否定することがますます困難になりつつあるということだ。

DALL-E によって生成される画像は、人間の想像の範囲をはるかに超えています。これらは決して、インターネット上で見つかった既成画像を単純に修正したものではなく、むしろ、アーティストを驚かせるような巧妙さと独創性を備えた、前例のないレンダリングです。実際、DALL-E の開発者でさえ、それがどのように作られているのか理解していないことがよくあります。

以下、DALL-E の作品をいくつか見てみましょう。最初は「ラーメンの絵文字」、次は「アボカドでできたペンギン」でした。これらの結果が人間の設計者から生まれたものであれば、私たちは間違いなくそれを有形の創造物とみなすでしょう。この場合、DALL-E を否定または拒否する理由はまだあるのでしょうか?

▲「ラーメン丼絵文字」を元にDALL-Eが出力した画像

▲「アボカドでできたペンギン」を元にDALL-Eが生成した画像

この強力な創造性により、DALL-E は製品デザイン、ファッション、建築などの分野における AI テクノロジーの実用的な重要性を実証することができます。近い将来、人間のデザイナーは、アイデア創出の補助として、あるいはインスピレーションの源として、DALL-E のような AI システムを使用することに慣れるようになるかもしれません。

たとえば、「ドーナツ スタイルのアームチェア」のデザインを依頼されたとき、DALL-E はさまざまなグラフィック オプションを提案しました。もちろん、デザインや見た目もかなり高いです。将来、家具デザイナーが DALL-E を繰り返し使用してモデルの出力を探索し、入力テキストを調整してデザインの反復を行い、最終的に AI 要素を自分の作品に導入することは想像に難くありません。同様の創造プロセスは、自動車からランプ、宝石から住宅まで、幅広い製品に適用されます。

▲「ドーナツ型アームチェア」をベースにDALL-Eで生成した出力画像

もちろん、DALL-E は完璧からは程遠く、生成される画像は入力テキストを常に正確に表すわけではありません。たとえば、色、量、空間関係などで間違いがよく起こります。

OpenAI が公開した DALL-E の動作例は、CLIP ニューラル ネットワークによって分類および選別されています。各テキスト入力について、スクリーニング後、システムは 512 個のサンプルのうち最も信頼度の高い上位 32 個のサンプルのみを表示します。言い換えれば、DALL-E は実際にはより多くの画像を生成しましたが、そのほとんどは品質が低かったのです。

まとめると、DALL-E の創造力は驚異的であり、テクノロジー自体も現在も急速な進化を続けています。

AI の他の主要な開発と同様に、DALL-E は、機械は人間よりもますます賢くなっているのだろうかという古くからの疑問を思い起こさせます。

一方で、DALL-E の誕生は、超知能技術に関する誇張された発言を引き起こしました。しかし一方で、ディープラーニングの著名な批評家であるゲイリー・マーカス氏に代表される懐疑論者は、DALL-E は AI 技術の発展に具体的な推進力をもたらしていないと考えています。

マーカスの指摘は真剣に検討する価値がある。ディープラーニング(DALL-E および GPT-3 の基盤となる最先端のトランスフォーマー アーキテクチャを含む)には、インテリジェントな概念をモデル化する上で依然として重大な制限があります。

しかし、ある意味では、この議論は実は要点を外している。 OpenAI の新しいモデルが「人工汎用知能」への次のステップを示すものなのか、あるいはディープラーニングが本当に人間と同じレベルの認知能力を持つ機械知能の結果をもたらすことができるのかに関わらず、DALL-E 自体が依然として並外れた新しい機能を備えていることは疑いの余地のない事実となっています。

DALL-E とその後継製品は、人間と機械の創造的な関係に新たな可能性をもたらし、それによって莫大な経済的価値を生み出し、革新的な新興企業や製品の新たな波の基盤を築くことが期待されています。

無限の可能性に直面して、私たちはただ期待に満ち溢れていなければなりません。

<<:  2021年以降の人工知能トレンドに関する5つの予測

>>:  AI技術がデータセンターの省エネに向けた新たな戦いに参入

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

マイクロソフトの深夜革命、GPT-4 Office フルパッケージが登場!月30ドルで10億人の労働者の雇用が奪われる?

6 か月の遅延の後、Microsoft Copilot ファミリー全体がついに登場しました。ちょう...

確かな情報です!魅力的なチャットボットを 0 から 1 まで構築する方法を教えますか?

ここ数か月、私はたくさんのロボットに取り組んできました。このプロセスで私が学んだ教訓をいくつか紹介し...

マイクロソフトの新たな注目論文:Transformer が 10 億トークンに拡大

誰もが独自の大規模モデルをアップグレードして反復し続けるにつれて、コンテキスト ウィンドウを処理する...

あなたの仕事はAIに置き換えられるでしょうか?李開復氏は、これらの4種類の仕事について心配する必要はないと述べている。

[[255576]]最近、李開復氏はタイム誌に「人工知能は強力だが、誤解されている。労働者を守るに...

AIによる顔の改造の一般的な手法の詳細な説明

最近また「AI変顔」が流行っていますね。 Leiphone.com(公式アカウント:Leiphone...

未来のスマートシティ: 必須のテクノロジー 10 選

スマート シティは単なる概念や未来の夢ではなく、今や現実のものとなっています。モノのインターネット、...

...

Dr. ByteのAIは大活躍、ワンクリックでボーカルと伴奏を完璧に分離

[[424966]]この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI...

LLVM の創始者、クリス・ラトナー: AI インフラ ソフトウェアを再構築する必要がある理由

かつて人々は AI の美しいビジョンを思い描いていましたが、現状は満足できるものではありません。 A...

「顔認識」時代の準備はできていますか?

[51CTO.comからのオリジナル記事] 近年、生体認証技術はますます成熟し、私たちの生活の中に...

大規模言語モデルの最大のボトルネックを突破する方法

翻訳者 |ブガッティレビュー | Chonglou OpenAIのGPT-4やAnthropicのC...

顔認証決済の登場:「決済戦争」の次なる激戦点となるか?

[[280749]]最近、支払いをするために携帯電話を取り出すと、「顔支払い」を選択すると割引があ...

周志華:「データ、アルゴリズム、計算力」は人工知能の3つの要素であり、今後は「知識」が加わる必要があります。

CCF-GAIR 2020人工知能フロンティア特別セッションでは、南京大学コンピュータサイエンス学...

...