生成AI技術の原理を深く理解する: 生成AIの入門

人工知能を単純に目的別に分類すると、意思決定型AIと生成型AIの2つに分けられます。いわゆる意思決定AIとは、訓練データ内の条件付き確率分布を学習することで判断や決定を行い、サンプルが指定された対象に属する確率を判定するものです。例えば、顔認識は典型的な意思決定AIです。端末装置は、カメラで取得した顔画像に基づいて特徴情報をマッチングし、バックグラウンドシステム内の顔特徴ライブラリと比較して、現在の顔情報がシステムの顔特徴ライブラリにあるか、操作を実行する権限があるかを判断します。 ChatGPTに代表される生成AIは、大量のデータの結合確率を学習し、既存のデータや知識を要約し、ディープラーニング技術を組み合わせて新しいコンテンツを自動生成します。新しく生成されるコンテンツは、テキスト、画像、さらには動画などのマルチモーダルコンテンツになります。この記事では、ディープラーニングと大規模モデルの基礎について簡単に紹介しました。以降の記事では、これら 2 つの側面の技術的原理をさらに詳しく分析していきます。

ディープラーニング

ディープラーニングは、生成型AIの中核となる実装技術です。機械学習の重要な最適化手法であり、機械学習は人工知能の分野における重要な実装手段です。したがって、ディープラーニングを理解するためには、まず機械学習とは何かを理解し、次にディープラーニングの発展のきっかけとなった機械学習の欠点を分析しましょう。機械学習についてはこのような定義があります。

この文章をどう理解しますか？誰もがすぐに理解できる例を挙げてみましょう。他の人と中国将棋をプレイするプログラムを開発したとします。 E はチェスをプレイする経験を表し、T はチェスをプレイする行為を表し、P はチェスで勝つ確率を表します。したがって、あなたが書いたプログラムが継続的にチェスをプレイすることで十分なチェスの経験を積むことができ、経験の蓄積によってチェスに勝つ確率を高めることができる場合、あなたが書いたチェスプログラムには機械学習の能力があると想定できます。では、経験に基づいたプログラム学習機能の最適化と改善を実現するために、どのようなエンジニアリング技術が使用されるのでしょうか?人工ニューラルネットワークは、エンジニアリング技術を使用して人間の脳の神経系の構造と機能をシミュレートし、機械学習を実現します。

人工ニューラルネットワーク

バイオニクスは常に人類が進歩を追求するためのツールでした。たとえば、人間は鳥のように空を飛びたいと思い、飛行機を発明しました。人間は魚のように水中に潜りたいと思い、潜水艦を発明しました。人間は機械が人間のように考え、推論できることを望み、自分の脳の動作メカニズムを研究し始めました。人間の脳は数百億個のニューロンで構成されていることが分かっています。ニューロン自体の構造は複雑ではありませんが、ニューロンが連携してさまざまな情報の受信、処理、出力を完了し、知覚、記憶、分析、思考などの高度な行動能力を形成します。さらに、年齢を重ねるにつれて、学習能力は向上し続けます。したがって、人間のニューラルネットワークと同様の学習能力を持つシステムを設計できれば、機械も人間のように学習し、改善することになります。実は、本質的には、人間の脳は情報プロセッサとみなすことができます。視覚、聴覚、触覚などはすべて脳情報の入力信号であり、脳の神経系はさまざまな入力信号を処理して対応する行動反応を与える情報プロセッサです。

人間の脳のニューロンの構造にヒントを得て、先駆者たちは人間の脳の神経系をシミュレートし、機械が問題を分析して解決する際に人間のような知的な行動をとれるようにしようと試みてきました。実際、1943 年にはすでに、数学者のピットとマカロックが「神経活動に内在するアイデアの論理的計算」という論文を発表しており、これが人工ニューラルネットワークの研究の序章となりました。この論文では、ニューロンの動作と情報の伝達方法を記述するために、「人工ニューロン」の抽象的な数学モデル (MP モデル) が提案されています。

MP モデルでは、人工ニューロンは外部から複数の入力信号を受信できます。各入力信号とニューロン間の接続には、対応する接続重みがあります。生物学的な意味でのニューロンと同様に、人工ニューロンにもしきい値があり、しきい値に達した場合にのみニューロンがアクティブになります。脳内の数十億のニューラルネットワークと同様に、人工ニューロンを接続することで、さまざまなレベルのニューロン間で情報が伝達、処理、抽象化されます。このプロセスを思考と呼びます。

それ以来、先駆者たちはMPモデルに基づいて研究と最適化を行っただけでなく、ヘブビアン学習則、パーセプトロン学習、多層パーセプトロンに適したバックプロパゲーションアルゴリズムBPアルゴリズムも提案してきましたが、コンピュータハードウェアの計算能力やその他のさまざまな条件によって制限されています。 2006 年まで、人工知能は教師なし学習法を使用してアルゴリズムをレイヤーごとにトレーニングし、その後、教師ありバックプロパゲーションアルゴリズムを使用してチューニングしていました。この教師なし学習と教師あり学習の組み合わせにより、人工知能の分野でディープラーニング研究の波が起こりました。ディープ畳み込みニューラルネットワークアーキテクチャ AlexNet、リカレントニューラルネットワーク (RNN)、長短期記憶ネットワーク (LSTM)、敵対的生成ネットワーク ( GAN ) などが次々と提案されました。

上図に示すように、機械学習では分類処理を実現するために特徴抽出を行うために人間の介入が必要ですが、ディープラーニングでは人間の介入が不要で、特徴抽出自体を実現できます。これが両者の最大の違いです。

大型モデル

これまでは、大量のラベル付きデータでトレーニングする必要があり、トレーニングしたモデルが特定の分野に特化していました。たとえば、AlphaGo は当初、囲碁の遊び方しか知りませんでしたが、中国将棋をプレイすることはできませんでした。中国将棋をプレイするスキルが必要になった場合、それをサポートする一連のモデルを再トレーニングする必要がありました。これは、特定のビジネスシナリオ向けのシステムプラットフォームを構築するという、当社の初期の煙突スタイルの技術アーキテクチャに似ています。しかし、ビッグデータ技術の発展、GPUの強力なコンピューティングサポート、およびモデルの継続的な反復と最適化により、ディープラーニング技術は大きな進歩を遂げました。特に、大規模モデルの出現後、自己学習を使用して大量のラベルなしデータで事前トレーニングし、一般的な知識機能を備えた大規模モデルを取得できるようになり、その後、特定のドメイン知識とトレーニングタスクと組み合わせてモデルを微調整およびトレーニングして、大規模モデルを特定の分野の専門家モデルにすることができます。たとえば、医療分野の知識と組み合わせると、タスクを微調整するだけで医療分野のモデルを取得できます。法律分野の知識と組み合わせると、モデルセットを再トレーニングすることなく法律分野のモデルを取得できます。実は、ビッグモデルのトレーニングプロセスは人間の学習プロセスと同じです。私たちは若い頃、中国語、数学、英語、政治、歴史、地理、物理学、化学、生物学などあらゆることを学びました。しかし、大学に進学すると、専攻分野に分かれ始めました。大学院生になると、特定の専門分野を掘り下げて、最終的に専門家になりました。このプロセスは、大規模モデルのトレーニングプロセスに似ていますか?

要約する

本稿では主に生成AIの予備的な説明を行い、生成AIの最も核心となる2つの技術的ポイントについても予備的な説明を行います。以降のコラム記事では、引き続きディープラーニングと大規模モデルの核心となる技術的ポイントを入り口として、生成AIの背後にある技術的原理を深く分析していきます。この連載記事の解説を通じて、ChatGPTのような生成AIについて皆様の理解が深まることを願っています。

<<: マスク氏：AIの開発を止める人はいない。この呼びかけは、みんなに注意を払うよう思い出させるだけだ

>>: 写真にピクセルレベルの透かしをひっそり追加: AI による芸術作品の「盗作」を防ぐ方法が発見されました