解説: ジェネレーティブ AI の仕組みとその違い

ChatGPT のような強力な生成 AI システムはどのように機能し、他の種類の人工知能とどう違うのでしょうか?

見出しをざっと見てみると、最近では生成 AI がいたるところに存在していることがわかります。実際、これらの見出しのいくつかは、人間が書いたように見えるテキストを生成する驚異的な能力を実証したチャットボットであるOpenAIのChatGPTなどの生成AIによって実際に書かれた可能性があります。

しかし、「生成 AI」と言うとき、人々は正確には何を意味するのでしょうか?

過去数年間の生成型 AI ブームが起こる前は、AI について話すときは、データに基づいて予測を行うことを学習する機械学習モデルについて話していたのが一般的でした。このようなモデルは、何百万もの例を使用してトレーニングされ、たとえば、特定のX線写真に腫瘍の兆候が見られるかどうか、または特定の借り手がローンの返済を怠る可能性があるかどうかを予測します。

生成 AI は、特定のデータセットについて予測を行うのではなく、新しいデータを作成するようにトレーニングされた機械学習モデルと考えることができます。生成 AI システムとは、トレーニングに使用したデータに似たオブジェクトをさらに生成することを学習するシステムです。

「生成型 AI と他の種類の AI の実際の仕組みに関しては、その区別が少し曖昧になることがあります。多くの場合、同じアルゴリズムを両方に使用できます」と、MIT の電気工学およびコンピューターサイエンスの准教授であり、コンピューターサイエンスおよび人工知能研究所 (CSAIL) のメンバーであるフィリップイゾラ氏は言います。

ChatGPT やその類似品のリリースによって生み出された誇大宣伝にもかかわらず、テクノロジー自体はまったく新しいものではありません。これらの強力な機械学習モデルは、50 年以上にわたる研究とコンピューティングの進歩に基づいています。

複雑さの増大

生成 AI の初期の例としては、マルコフ連鎖と呼ばれるより単純なモデルがありました。この手法は、ランダムプロセスの動作をモデル化するために 1906 年にこの統計手法を導入したロシアの数学者アンドレイ・マルコフにちなんで名付けられました。機械学習では、電子メールプログラムのオートコンプリート機能など、次の単語を予測するタスクにマルコフモデルが長い間使用されてきました。

テキスト予測では、マルコフモデルが前の単語または前のいくつかの単語を参照して、文中の次の単語を生成します。しかし、これらの単純なモデルは過去にさかのぼることしかできないため、もっともらしいテキストを生成するのが得意ではないと、MITのトーマス・シーベル電気工学およびコンピューターサイエンス教授で、CSAILおよびデータ・システム・社会研究所（IDSS）のメンバーでもあるトミー・ヤッコラ氏は言う。

「私たちは過去 10 年間、さまざまなものを生成してきましたが、ここでの主な違いは、生成できるオブジェクトの複雑さと、これらのモデルをトレーニングできる規模です」と彼は説明した。

ほんの数年前までは、研究者は特定のデータセットを最大限に活用できる機械学習アルゴリズムを見つけることに重点を置いていました。しかし、その焦点は多少変化しており、現在では多くの研究者が、おそらく数億、あるいは数十億のデータポイントを含む、はるかに大規模なデータセットを使用して、印象的な結果を達成するモデルをトレーニングしています。

ChatGPT や同様のシステムの基盤となるモデルは、マルコフモデルとほぼ同じように動作します。しかし、大きな違いは、ChatGPT は数十億のパラメータを持ち、はるかに大きく複雑であるということです。大量のデータ、この場合はインターネット上で公開されているテキストのほとんどを使ってトレーニングされています。

この膨大なテキストコーパスでは、単語や文が特定の依存関係を持つ順序で出現します。この反復性により、モデルはテキストをある程度予測可能な統計的なチャンクに分割する方法を学習できるようになります。テキストのチャンクのパターンを学習し、その知識を使用して次に何が起こるかについてのアイデアを生み出します。

より強力なアーキテクチャ

より大規模なデータセットが生成型 AI ブームのきっかけの 1 つとなった一方で、さまざまな主要な研究の進歩によって、より複雑なディープラーニングアーキテクチャも生まれました。

2014 年、モントリオール大学の研究者は、生成的敵対的ネットワーク (GAN) と呼ばれる機械学習アーキテクチャを提案しました。 GAN は連携して動作する 2 つのモデルを使用します。1 つはターゲット出力 (画像など) を生成することを学習し、もう 1 つは実際のデータとジェネレーターの出力を区別することを学習します。ジェネレーターはディスクリミネーターを騙そうとし、その過程でより現実的な出力を生成する方法を学習します。画像ジェネレーター StyleGAN は、これらのタイプのモデルに基づいています。

1年後、スタンフォード大学とカリフォルニア大学バークレー校の研究者が拡散モデルを発表しました。これらのモデルは、出力を反復的に最適化することで、トレーニングデータセット内のサンプルに類似し、リアルな画像を作成するために使用された新しいデータサンプルを生成することを学習できます。安定拡散モデルは、テキストから画像への生成システムの安定拡散の中核です。

2017 年、Google の研究者はトランスフォーマーアーキテクチャを導入しました。これは、ChatGPT を動かすような大規模な言語モデルの開発に使用されています。自然言語処理では、トランスフォーマーはテキストコーパス内の各単語をトークンにエンコードし、各トークンと他のすべてのトークンの関係をキャプチャするアテンションマップを生成します。このアテンションマップは、トランスフォーマーが新しいテキストを生成するときにコンテキストを理解するのに役立ちます。

これらは、生成 AI に使用できる多くの方法のうちのほんの一部です。

幅広い用途

これらすべてのメソッドに共通するのは、入力をデータのチャンクの数値表現であるトークンのセットに変換することです。データをこの標準トークン形式に変換できる限り、理論的にはこれらの方法を適用して、類似した新しいデータを生成できます。

「データのノイズの多さや信号抽出の難しさによって結果は異なるかもしれないが、汎用 CPU があらゆる種類のデータを取り込んで均一な方法で処理できるようになる段階に確実に近づいている」と Isola 氏は言う。

これにより、生成 AI のさまざまなアプリケーションが実現可能になります。

たとえば、Isola のチームは生成 AI を使用して、コンピュータービジョンモデルにオブジェクトの認識方法を教えるなど、別のインテリジェントシステムをトレーニングするために使用できる合成画像データを作成しています。

Jaakkola 氏のチームは、生成 AI を使用して新しいタンパク質構造や効率的な結晶構造を設計し、新しい材料を特定しています。彼は、生成モデルが言語の依存関係を学習するのと同じように、結晶構造が示されれば、その構造を安定させ実現可能にする関係を学習できると説明しています。

ただし、生成モデルは驚くべき結果を達成できますが、すべての種類のデータに最適な選択肢というわけではありません。スプレッドシートの表形式データなど、構造化データに対する予測を行うタスクでは、生成 AI モデルが従来の機械学習アプローチよりも優れている傾向があると、MIT の電気工学およびコンピューターサイエンスの Andrew and Erna Viterbi 教授であり、IDSS および情報意思決定システム研究所のメンバーでもある Devavrat Shah 氏は述べています。

「私の考えでは、その最大の価値は、人間に優しい機械のための優れたインターフェースであることです。以前は、人間は機械の言語で機械に話しかけなければ、物事は進みませんでした。今では、このインターフェースは人間と機械の両方と話す方法を見つけ出しました」とシャー氏は語った。

危険信号

生成型 AI チャットボットは現在、コールセンターで人間の顧客からの質問に答えるために使用されていますが、このアプリケーションは、これらのモデルを実装する際の潜在的な危険信号、つまり労働者の置き換えを浮き彫りにしています。

さらに、生成 AI はトレーニングデータ内に存在する偏見を継承して増殖させたり、ヘイトスピーチや虚偽の発言を増幅させたりする可能性があります。これらのモデルには盗作機能があり、特定の人間の作成者によって作成されたように見えるコンテンツを生成する可能性があり、潜在的な著作権の問題を引き起こします。

一方、シャー氏は、生成 AI によってアーティストが力を得ることができ、アーティストは生成ツールを使用して、他の手段では制作できないような創造的なコンテンツを制作できるようになると提案しました。

将来的には、生成 AI が多くの分野の経済を変えるだろうと彼は考えています。

Isola 氏は、生成 AI の将来的な有望な方向性は、それを製造業に活用することだと考えています。モデルに椅子のイメージを生成させるのではなく、製造可能な椅子の設計図を生成します。

彼はまた、将来的には生成 AI システムを使用して、より汎用的なインテリジェント AI エージェントを開発すると考えています。

「これらのモデルの仕組みと人間の脳の仕組みの考え方には違いがありますが、類似点もあると思います。人間には頭の中で考えたり夢を見たり、興味深いアイデアや計画を考えたりする能力があり、生成AIはエージェントがそれを実行できるようにするツールの1つだと思います」とイゾラ氏は語った。

<<:

>>: ラマ事件じゃないよ！李開復の大型モデルが貝殻論争に巻き込まれ、チームの2度目の反応がここに！

ブログ

OpenAIは新しいセキュリティチームを正式に発表しました。モデルは4つの危険レベルに分かれており、取締役会はリリースするかどうかを決定する権利を持っています。

解説: ジェネレーティブ AI の仕組みとその違い

複雑さの増大

より強力なアーキテクチャ

幅広い用途

危険信号

OpenAIは新しいセキュリティチームを正式に発表しました。モデルは4つの危険レベルに分かれており、取締役会はリリースするかどうかを決定する権利を持っています。

OpenAIのスーパーアライメントチームの取り組み

マスク氏のAIスタートアップxAIは社会への影響を優先する特別な構造を採用

AIダイナミックセキュリティガードデータセンター

人工知能は私たちの言語を理解するのでしょうか?思っていたよりも強力だ

NLP 70 年!スタンフォード大学のマニング教授が長文の記事を執筆：「基本モデルは10年でAGIになることができるか？」

企業は適切なAI推論を得る方法を知る必要がある

機械学習の概要

将来の量子コンピューティング攻撃の脅威に対処するため、我が国は新たなデータ保護暗号アルゴリズムの研究を開始しました。

推薦する

第2回世界情報会議の3つのハイライトを一足先にご紹介

AIは教育分野にどのように貢献できるのでしょうか?

地球外文明は人間ではなく、人工知能かもしれません！なぜ科学者はこう言うのでしょうか?

気温を下げて干ばつを緩和するブラックテクノロジーが多数存在します。人工降雨の謎とは？

ChatGPTはユーザーがペイウォールを回避できないようにBing検索へのアクセスを停止

ChatGPTのサプライチェーンへの応用の可能性

手動でラベルを付ける必要はありません。シドニー大学の中国チームは、「GPT自己教師付きラベリング」パラダイムを提案しました。これは、ラベリングのコスト、バイアス、評価の問題を完全に解決します。

機械学習と古典的なアルゴリズムの概念をわかりやすい言葉で説明しました。初心者必読

AI/MLを使用してテクノロジースタックを最適化し、ビジネス効率を向上させる方法

WPS AI公式サイトがオンラインになりました: 経験者資格の申請、WindowsとAndroidのダウンロードをサポート

アプリオリアルゴリズム原理の要約

機械学習で知っておくべき 8 つの次元削減手法、最後の手法は超ハードコアです!