生成AIの5つの主要モデル:VAE、GAN、拡散、トランスフォーマー、NeRF

生成AIの5つの主要モデル:VAE、GAN、拡散、トランスフォーマー、NeRF

タスクに適した GenAI モデルを選択するには、各モデルで使用されるテクノロジーとその特定の機能を理解する必要があります。5 つの主要な GenAI モデル、VAE、GAN、Diffusion、Transformers、NerF を見てみましょう。

以前は、ほとんどの AI モデルは、データの処理、分析、解釈の改善に重点を置いていました。ごく最近では、いわゆる生成ニューラル ネットワーク モデルの進歩により、写真や絵画から詩、コード、脚本、映画まで、あらゆる種類のコンテンツを作成するための新しいツールが多数登場しました。

主要なAI生成モデルの概要

研究者たちは、変分オートエンコーダー (VAE)、生成的敵対ネットワーク (GAN)、拡散モデルが開発された 2010 年代半ばに、新しい生成 AI モデルの可能性を発見しました。 2017 年に導入された Transformers は、大規模なデータセットを大規模に分析して大規模言語モデル (LLM) を自動的に作成できる画期的なニューラル ネットワークです。 2020年、研究者らは3D画像から2Dコンテンツを生成する技術であるNeural Radiance Fields (NeRF)を導入しました。

急速に進化するこれらの生成モデルは現在も開発中であり、研究者が行う微調整によって大きな改善がもたらされることが多く、その目覚ましい進歩は衰えていません。 「モデルアーキテクチャは常に変化しており、新しいモデルアーキテクチャが開発され続けるだろう」と、カリフォルニア大学バークレー校で教鞭をとるホワイト氏は言う。

各モデルには独自の特別な機能があります。現在、Diffusion は画像とビデオの合成の分野で非常に優れたパフォーマンスを発揮し、Transformers はテキストの分野で優れたパフォーマンスを発揮し、GAN は適切な合成サンプルで小さなデータセットを拡張するのに優れています。ただし、最適なモデルの選択は常に特定のユースケースによって異なります。

すべてのモデルが同じというわけではなく、AI 研究者や ML (機械学習) エンジニアは、コンピューティング、メモリ、資本の観点からのモデルの制限を考慮しながら、適切なユースケースと必要なパフォーマンスに適したモデルを選択する必要があります。

特に、トランスフォーマー モデルは、生成モデルにおける最近の進歩と注目の多くを牽引してきました。 「AIモデルの最新のブレークスルーは、大量のデータでモデルを事前トレーニングし、自己教師あり学習を使用して明示的なラベルなしでモデルをトレーニングすることから生まれています」と、デジタル変革コンサルティング会社USTのチーフAIアーキテクト、アドナン・マスード氏は語った。

たとえば、OpenAI の生成的事前トレーニング済みトランスフォーマー モデル ファミリは、このカテゴリで最大かつ最も強力なモデルの 1 つであり、そのモデルの 1 つである GPT-3 には 175 億のパラメーターが含まれています。

トップ生成AIモデルの主な用途

マズード氏は、トップクラスの生成 AI モデルは新しいデータを生成するためにさまざまな技術と方法を使用していると説明した。主な機能と用途は次のとおりです。

  • VAE は、エンコーダー/デコーダー アーキテクチャを使用して新しいデータを生成し、通常はプライバシー保護のための合成顔の生成など、画像やビデオの生成に使用されます。
  • GAN はジェネレーターとディスクリミネーターを使用して新しいデータを生成し、リアルなゲーム キャラクターを作成するためにビデオ ゲーム開発でよく使用されます。
  • 拡散はノイズを追加してから除去し、細部まで鮮明な高品質の画像を生成することで、自然界のシーンをほぼリアルに再現します。
  • Transformer は、機械翻訳、テキスト要約、画像作成のために、順次データを効率的に並列処理できます。
  • NeRF は、ニューラル表現を使用した 3D シーン再構築への新しいアプローチを提供します。

それぞれの方法を詳しく見てみましょう。

VA

VAE は、ニューラル ネットワークを使用してデータをより効率的にエンコードする方法として 2014 年に開発されました。

AI分析プラットフォームであるSisenseのAI責任者であるヤエル・レブ氏は、VAEは情報をより効率的に表現することを学習すると述べた。これらは、データを小さくするエンコーダーと、データを元の形式に戻すデコーダーの 2 つの部分で構成されます。これらは、小さな情報から新しい例を作成したり、ノイズの多い画像やデータを修復したり、データ内の異常を見つけたり、不足している情報を補ったりするのに最適です。

しかし、VAE はぼやけた画像や低品質の画像を生成する傾向があると UST の Masood 氏は言う。もう 1 つの問題は、潜在空間 (データの構造を捉えるために使用される低次元空間) が複雑で困難なことです。これらの弱点は、高品質の画像や潜在空間の明確な理解が重要なアプリケーションでは、VAE の有効性を制限する可能性があります。 VAE の次の反復では、生成されるデータの品質の向上、トレーニング速度の向上、およびシーケンシャル データへの適用性の調査に重点が置かれる可能性があります。

GANs

GAN は、リアルな顔や印刷された数字を生成するために 2014 年に開発されました。 GAN は、リアルなコンテンツを作成する生成ニューラル ネットワークと、偽のコンテンツを検出する識別ニューラル ネットワークを対立させます。 「2つのネットワークが徐々に融合し、元のデータと区別がつかない画像が生成される」とPwCのグローバルAIリーダー、アナンド・ラオ氏は語る。

GAN は、画像生成、画像編集、超解像度、データ拡張、スタイル転送、音楽生成、ディープフェイク作成によく使用されます。 GAN の問題の 1 つは、モード崩壊が発生する可能性があることです。モード崩壊では、ジェネレーターが限定された反復的な出力を生成するため、トレーニングが困難になります。マズード氏は、次世代のGANは、トレーニングプロセスの安定性と収束性の向上、他の分野への適用性の拡大、より効果的な評価指標の開発に重点を置くだろうと述べた。 GAN は最適化や安定化も難しく、生成されたサンプルを明示的に制御することもできません。

拡散

拡散モデルは、エントロピーとノイズをシミュレートして反転するために、2015年にスタンフォード大学の研究者グループによって開発されました。拡散技術は、塩などの物質が液体に拡散し、その後逆流する現象をシミュレートする方法を提供します。この同じモデルは、空白の画像から新しいコンテンツを生成するのにも役立ちます。

拡散モデルは現在、画像生成に好まれる選択肢であり、Dall-E 2、Stable Diffusion、Midjourney、Imagen などの一般的な画像生成サービスの基本モデルとなっています。また、音声、ビデオ、3D コンテンツを生成するパイプラインでも使用されます。さらに、拡散技術は、欠損データを予測して生成するデータ補完にも使用できます。

多くのアプリケーションでは、テキストから画像またはテキストからビデオを生成するために、拡散モデルと LLM を組み合わせています。たとえば、Stable Diffusion 2 は、テキスト エンコーダーとして、対照的な言語画像の事前トレーニング済みモデルを使用し、深度とアップスケーリングのモデルも追加します。

マズード氏は、安定拡散のようなモデルをさらに改良することで、否定的な手がかりの改善、特定のアーティストのスタイルで画像を生成する能力の強化、有名人の画像の改善に重点を置くことができると予測している。

トランスフォーマー

Transformer モデルは、言語翻訳を改善するために 2017 年に Google Brain のチームによって開発されました。このモデルは、与えられた順序とは異なる順序で情報を処理したり、データを並列処理したり、ラベルのないデータを含む大規模なモデルに拡張したりするのに適しています。

これらは、テキスト要約、チャットボット、推奨エンジン、言語翻訳、ナレッジベース、ハイパーパーソナライゼーション(嗜好モデル経由)、感情分析、人物、場所、物を識別するための名前付きエンティティ認識に使用できます。また、OpenAI の Whisper のような音声認識、ビデオや画像内のオブジェクト検出、画像キャプションの作成、テキスト分類アクティビティ、ダイアログ生成にも使用できます。

多用途であるにもかかわらず、トランスフォーマーには限界もあります。トレーニングにはコストがかかり、大規模なデータセットが必要になる場合があります。結果として得られるモデルもかなり大きいため、バイアスや不正確な結果の原因を特定することが困難になります。 「その複雑さにより、内部の仕組みを説明するのも難しくなり、説明可能性と透明性が損なわれている」とマスード氏は述べた。

Transformer モデルアーキテクチャ

ネールフ

NeRF は、ライトフィールドの 3D 表現をニューラル ネットワークに取り込むために 2020 年に開発されましたが、最初の実装は非常に遅く、最初の 3D 画像をキャプチャするのに数日かかりました。

しかし、2022年にNvidiaの研究者たちは約30秒で新しいモデルを生成する方法を発見しました。これらのモデルは、同等の品質で 3D オブジェクトを数メガバイトで表現できますが、他の手法ではギガバイト単位の表現が必要になる場合があります。これらにより、メタバース内で 3D オブジェクトをキャプチャおよび生成するためのより効率的な手法が生まれることが期待されます。エヌビディアの研究ディレクター、アレクサンダー・ケラー氏は、NeRF は「最終的には、現代の写真撮影におけるデジタルカメラと同じくらい、3D グラフィックスにとって重要になる可能性がある」と語った。

マズード氏は、NeRFはロボット工学、都市地図作成、自律航行、仮想現実アプリケーションにおいても大きな可能性を示していると述べた。しかし、NeRF は依然として計算コストが高く、複数の NeRF を組み合わせて大きなシーンを作成するのは困難であり、現在 NeRF が実行可能な唯一の使用例は、画像を 3D オブジェクトまたはシーンに変換することです。こうした制限にもかかわらず、Masood 氏は、NeRF がノイズ除去、ぼかし除去、アップサンプリング、圧縮、画像編集などの基本的な画像処理タスクで新たな役割を果たすだろうと予測しています。

GenAIエコシステムの進行中

これらのモデルは開発中であり、研究者は個々のモデルを改善する方法や、他のモデルや処理技術と組み合わせる方法を模索していることに注意することが重要です。レブ氏は、生成モデルがより一般的になり、従来の分野を超えて応用範囲が広がり、ユーザーも AI モデルをより効果的に誘導し、その仕組みをよりよく理解できるようになると予測しています。

また、検索方法を使用して特定のタスクに最適化されたモデルのライブラリを呼び出すマルチモーダル モデルに関する作業も進行中です。彼はまた、生成モデルが API 呼び出しや外部ツールの使用などの他の機能を開発できるようになることを期待しています。たとえば、会社のコール センターの知識に合わせて微調整された LLM は、質問に回答し、顧客のモデムをリセットしたり、問題が解決したときにメールを送信したりするなどのトラブルシューティングを実行します。

実際、現在普及しているモデル アーキテクチャは、将来的にはより効率的なものに置き換えられる可能性があります。 「新しいアーキテクチャが登場すると、Diffusion モデルと Transformer モデルはそれほど役に立たなくなるかもしれません」とホワイト氏は語った。これは Diffusion の導入によって Long Short-Term Memory アルゴリズムと RNN (リカレント ニューラル ネットワーク) が自然言語アプリケーションにあまり適さなくなったことからも明らかです。

生成 AI エコシステムは 3 層モデルに進化すると予測する人もいます。基本層は、大量のデータを取り込み、大規模なディープラーニング モデルに基づいて構築され、人間の判断を取り入れた、テキスト、画像、音声、コードに基づく一連の基礎モデルです。次に、業界や機能に特化したドメイン モデルにより、医療、法律、その他の種類のデータの処理が改善されます。最上位レベルでは、企業は独自のデータと専門知識を使用して独自のモデルを構築します。これら 3 つのレイヤーは、チームがモデルを開発する方法に革命をもたらし、Model-as-a-Service の新しい時代を切り開きます。

生成AIモデルの選択方法: まず最初に

Sisense の Lev 氏によると、モデルを選択する際に考慮すべき主な点は次のとおりです。

解決したい問題。特定のタスクに適していることがわかっているモデルを選択します。たとえば、言語タスクには Transformers を使用し、3D シーンには NeRF を使用します。

データの量と質。拡散がうまく機能するには大量の良質なデータが必要ですが、VAE はより少ないデータでよりうまく機能します。

結果の品質。 GAN は鮮明で詳細な画像に適していますが、VAE はより滑らかな結果に適しています。

モデルのトレーニングがどれだけ簡単か。 GAN のトレーニングは難しい場合がありますが、VAE と Diffusion は簡単です。

コンピューティング リソースの要件。 NeRF と Diffusion はどちらも、正常に動作するために大量のコンピュータ処理能力を必要とします。

制御と理解が必要です。結果をより細かく制御したり、モデルの動作をより深く理解したりしたい場合は、GAN よりも VAE の方が適している可能性があります。

<<:  GenAI 時代のデータ ガバナンスの青写真

>>:  1 つの記事で AI エージェント テクノロジーを理解する

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

Python のデータ構造とアルゴリズム - 優先度キュー

[[405132]]序文キュー ライブラリは、マルチスレッド プログラミングに適した先入れ先出し (...

...

...

生成 AI に新しい設計アプローチが必要なのはなぜですか?

生成AIについて議論するインタビューでは、懸念から驚きまでさまざまな反応がありました。そしてベンチャ...

Microsoft の 6 ページの論文が話題に: Ternary LLM、とてもクール!

これはマイクロソフトと中国科学院大学による新たな研究の結論です。すべての LLM は 1.58 ビッ...

...

炭素クレジット監査における人工知能の応用

カーボン クレジットとは、保有者に 1 トンの二酸化炭素またはその他の温室効果ガスに相当する排出権を...

Google は交通信号に AI を導入して汚染を削減

タイミングの悪い信号は貴重な時間を無駄にするだけではありません。 Google の最高サステナビリテ...

エッジAIを真の変革に

エッジ AI の導入は幅広い業界で増加しています。この傾向が続くと、ビジネスだけでなく社会も変革する...

AI と IoT によって貨物輸送はどのようにスマート化されるのでしょうか?

スマートな車両監視 近年、IoT テクノロジーによりテレマティクスはまったく新しいレベルに到達しまし...

ヘルスケアにおける自然言語処理 (NLP) の 8 つの例

翻訳者 | 夏東偉校正 | 梁哲、孫淑娟医療においては、データは患者の健康記録、医師の指示、処方箋か...

人工知能は怖いものではありません。怖いのは、使い方がわからず淘汰されてしまうことです。

王鵬坤:過去半世紀、人類は人間のようにすべての問題を解決できる機械を発明していません。その代わりに、...

AdobeなどがAIを活用しアニメキャラクターのポーズ移行を実現する新タイプの「パペットアニメーション」を提案

人形アニメーションの制作は、クリエイターの手描きに頼るアニメーションと比べると、非常に手間のかかる作...

JS を使用して複数の画像類似性アルゴリズムを実装する

検索分野では、Google画像検索、Baidu画像検索、Taobaoの商品写真検索など、「類似画像・...

機械学習技術におけるアンサンブル学習とは何ですか?

[51CTO.com クイック翻訳] アンサンブル学習は強力な機械学習技術の 1 つです。アンサン...