次世代言語モデルパラダイム LAM が登場します! AutoGPTモデルがLLMを席巻、計画、メモリ、ツールの3つの主要コンポーネントの包括的なレビュー

次世代言語モデルパラダイム LAM が登場します! AutoGPTモデルがLLMを席巻、計画、メモリ、ツールの3つの主要コンポーネントの包括的なレビュー

ChatGPT によって開始された AI の波は私たちを人工知能の時代へと導き、言語モデルは日常生活に欠かせないツールになりました。

しかし、現在の言語モデルは、ユーザーのクエリ指示に応答し、ストーリーの作成やコードの生成などの一部の生成タスクを実装することしかできません。

AutoGPT、GPT-Engineer、BabyAGI などのプロジェクトに代表される Large-Action Models (LAM) は、言語モデルをインテリジェント エージェントの中核頭脳として使用し、複雑なタスクを分解して各サブステップで自律的な決定を下し、ユーザーの参加なしに問題を解決します。

写真

LAM の登場は、言語モデルの研究開発が新たな段階に入ったことを示しています。この記事では、計画、メモリ、ツールという 3 つの主要コンポーネントを含む、LAM の開発に関係するテクノロジーをレビューします。

計画

複雑なタスクは通常、複数のサブステップで構成されており、エージェントはタスクを細分化して事前に計画する必要があります。

タスクの内訳

Chain of Thought (CoT) は、「モデル推論を誘導する」ための標準的なプロンプト手法となり、複雑なタスクを解決する際のモデルのパフォーマンスを向上させることができます。

写真

論文リンク: https://arxiv.org/pdf/2201.11903.pdf

「ステップごとに考える」ことで、モデルはより多くのテスト時間の計算を利用してタスクをより小さく単純なサブステップに分解し、モデルの思考プロセスを説明できるようになります。

思考のツリーは、各サブステップで複数の推論の可能性を探索することで CoT を拡張します。

写真

論文リンク: https://arxiv.org/abs/2305.10601

まず、問題は複数の思考ステップに分割され、各ステップ内で複数のアイデアが生成されてツリー構造のソリューションが作成されます。検索プロセスは BFS (幅優先探索) または DFS (深さ優先探索) のいずれかで、各状態は分類子 (ヒント経由) または多数決によって評価されます。

タスクの分解は、「XYZ の手順\n1.」、「XYZ を達成するためのサブ目標は何ですか」などの簡単なプロンプトを通じて行うことができます。また、小説を書くための「ストーリーのアウトラインを書く」などのタスク関連の指示を使用することも、人間が入力することもできます。

自己反省

自己反省により、自律エージェントは過去の行動決定を改善し、以前の間違いを修正して反復的に改善することができます。これは、試行錯誤が可能な現実世界のタスクで非常に役立ちます。

ReAct は、アクション空間をタスク関連の個別のアクションと言語空間の組み合わせに拡張することで、LLM の推論とアクションを統合します。アクションにより、LLM は環境と対話できるようになり (例: Wikipedia 検索 API を使用する)、言語空間により、LLM は自然言語で推論の軌跡を生成できるようになります。

写真

論文リンク: https://arxiv.org/pdf/2210.03629.pdf

ReAct プロンプト テンプレートには、LLM 思考のための明確な手順が含まれており、その一般的な形式は次のとおりです。

写真

知識集約型タスクと意思決定タスクの実験では、ReAct は Act のみを使用する (Thought を削除) ベースライン モデルよりも優れたパフォーマンスを発揮します。

写真

メモリ

メモリタイプ

記憶とは、情報を取得し、保存し、保持し、その後取り出すために使用されるプロセスと定義できます。人間の脳には主に 3 つの種類の記憶があります。

写真

1. 感覚記憶

このタイプの記憶は記憶の最も初期の段階にあり、通常は数秒しか持続しない元の刺激が終了した後も、感覚情報(視覚、聴覚など)の印象を保持する能力を提供します。

感覚記憶のサブカテゴリには、図像記憶(視覚)、反響記憶(聴覚)、触覚記憶(触覚)が含まれます。

2. 短期記憶(STM)またはワーキングメモリ

現時点で認識しているすべての情報と、学習や推論などの複雑な認知タスクを実行するために必要な情報を保存します。約 7 つのものを 20 ~ 30 秒間保存できます。

3. 長期記憶(LTM)

名前が示すように、LTM は、実質的に無制限のストレージ容量を備え、数日から数十年にわたるかなり長い期間にわたって情報を保存できます。

LTM には 2 つのサブタイプがあります。

1) 明示的/宣言的記憶は事実や出来事に関する記憶であり、エピソード記憶(出来事や経験)や意味記憶(事実や概念)など、意識的に思い出すことができる記憶を指します。

2) 暗黙的/手続き的記憶。このタイプの記憶は無意識的であり、自転車に乗ることやキーボードを打つことなど、自動的に実行されるスキルやルーチンが含まれます。

言語モデルの概念に対応するもの:

1. 生の入力(テキスト、画像、その他のモダリティ)を学習して埋め込まれた表現としての感覚記憶。

2. 短期記憶はコンテキスト内学習であり、非常に短く、影響範囲が限られており、Transformer のコンテキスト ウィンドウの長さによって制限されます。

3. 長期メモリは、クエリ時にエージェントが利用できる外部ベクトル ストレージとして機能し、高速検索によってアクセスできます。

最大内積探索 (MIPS)

外部メモリは、限られた注意力​​の持続時間の制限を緩和することができます。一般的な操作は、高速最大内積探索 (MIPS) をサポートするベクトル ストレージ データベースに情報埋め込み表現を保存することです。

検索速度を最適化するために、一般に近似最近傍 (ANN) アルゴリズムが選択され、最初の k 個の最近傍ノードが返されます。これにより、大幅な速度向上と引き換えに、精度が若干犠牲になります。

写真

一般的に使用されるANNアルゴリズムには、LSH(Locality-Sensitive Hashing)、ANNOY、HNSW、FAISS、ScaNNなどがあります。

ツールの使用

複雑なツールを使用する能力は、人間の知性の現れです。私たちは、外部オブジェクトを作成、変更、使用して、身体的および認知的限界を超えたことを達成できます。同様に、LLM に外部ツールを装備すると、モデルの機能を大幅に拡張できます。

水に浮かびながら石を使って殻を割っているラッコの画像。他の動物も道具を使うことはできますが、その洗練さは人間のそれに匹敵するものではありません。

MRKL (モジュール型推論、知識、言語) は、一連の「エキスパート」モジュールと、クエリを最も適切なエキスパート モジュールにルーティングするルーターとして機能する一般的な言語モデルで構成されるニューラル シンボリック アーキテクチャを備えた自律エージェントです。

写真

論文リンク: https://arxiv.org/pdf/2205.00445.pdf

各モジュールは、ニューラル ネットワーク、または数学計算機、通貨コンバーター、天気 API などのシンボリック モデルになります。

研究者らは、算数をテストケースとして、計算機を呼び出すための言語モデルを微調整する実験を行った。その結果、言語による算数問題を解くことは、明示的に述べられた算数問題を解くことよりも難しいことが示された。これは、LLM (7B ジュラ紀 1 大規模モデル) が基本的な算数の正しいパラメータを確実に抽出できないためであり、これは記号ツールの重要性と、どのツールをいつ使用するかを知ることの重要性も浮き彫りにしている。

TALM (Tool Augmented Language Model) と Toolformer はどちらも、外部ツール API を使用して学習する言語モデルを微調整するものです。

写真

論文リンク: https://arxiv.org/pdf/2302.04761.pdf

ChatGPT プラグインと OpenAI API 関数呼び出しも、言語モデルの使用を強化するツールの例であり、ツール API のセットは他の開発者によって提供されたり (プラグインなど)、カスタマイズされたり (関数呼び出しなど) されます。

API-Bank は、ツール強化 LLM のパフォーマンスを評価するためのベンチマークです。53 個のよく使用される API ツール、完全なツール強化 LLM ワークフロー、および 568 個の API 呼び出しを使用した 264 個の注釈ダイアログが含まれています。

写真

論文リンク: https://arxiv.org/pdf/2304.08244.pdf

API の選択肢は非常に多様で、検索エンジン、計算機、カレンダー クエリ、スマート ホーム コントロール、スケジュール管理、健康データ管理、アカウント認証ワークフローなどが含まれます。

API の数が多いため、LLM はまず API 検索エンジンにアクセスして適切な API 呼び出しを見つけ、対応するドキュメントを使用して呼び出しを行うことができます。

写真

API-Bank ワークフローでは、LLM は 3 つの決定を行う必要があり、各ステップで決定の正確さを評価できます。

1. API 呼び出しが必要かどうか。

2. 呼び出す正しい API を決定します。十分でない場合、LLM は API 入力を繰り返し変更する必要があります (検索エンジン API の検索キーワードを決定するなど)。

3. API 結果に基づく応答: 結果が満足のいくものでない場合、モデルは改善を選択して再度呼び出すことができます。

ベンチマークでは、インテリジェント エージェントのツール使用能力を ​​3 つのレベルで評価できます。

レベル1: APIを呼び出す能力を評価する

API の説明が与えられた場合、モデルは指定された API を呼び出すかどうか、それを正しく呼び出すかどうか、API の戻り値に正しく応答するかどうかを決定する必要があります。

レベル2: APIを取得する機能を確認する

モデルは、ユーザーのニーズを解決できる可能性のある API を検索し、ドキュメントを読んでその使い方を学習する必要があります。

レベル3: APIを取得して呼び出す能力ではなく、APIを計画する能力を評価する

ユーザーのリクエストが明確でない場合 (グループ会議のスケジュール設定、旅行のフライト/ホテル/レストランの予約など)、モデルはそれを解決するために複数の API 呼び出しを行う必要がある場合があります。

LAMの応用

科学的発見

ChemCrow システム内の言語モデルは、有機合成、創薬、材料設計にわたるタスクを達成するために専門家が設計した 13 のツールによって強化されています。

写真

論文リンク: https://arxiv.org/abs/2304.05376

LangChain に実装されているワークフローには、ReAct と MRKL で説明されているメカニズムが含まれており、CoT 推論とタスク関連のツールが組み合わされています。

言語モデルは、まずツール名のリスト、その目的の説明、および予想される入力/出力の詳細を提供します。次に、必要に応じて、提供されたツールを使用してユーザーからのプロンプトに応答するようにモデルに指示します。指示では、モデルがReAct形式、つまり思考、アクション、アクション入力、観察に従う必要があります。

実験結果によると、言語モデルで評価した場合、GPT-4 と ChemCrow のパフォーマンスはほぼ同じですが、人間の専門家によって評価した場合、特定のソリューションの完成度と化学的正確性に関する実験結果では、ChemCrow のパフォーマンスが GPT-4 をはるかに上回っていることがわかりました。

実験結果から、深い専門知識を必要とする分野でのパフォーマンス評価に LLM を使用すると問題があることがわかっています。このため、LLM は固有の欠陥に気付かず、タスク結果の正確性を適切に判断できない可能性があります。

別の論文では、インターネットの閲覧、ドキュメントの読み取り、コードの実行、ロボット実験 API の呼び出し、他の言語モデルの活用を行うツールを使用して、複雑な科学実験のための言語モデルの自律的な設計、計画、パフォーマンスを研究しています。

写真

論文リンク: https://arxiv.org/abs/2304.05332

ユーザーが「新しい抗がん剤を開発してください」と要求すると、モデルは次の推論手順を返します。

1. 抗がん剤発見の最新動向について質問する。

2. ターゲットを選択します。

3. これらの化合物をターゲットとするスキャフォールドをリクエストします。

4. 化合物が見つかると、モデルはそれを合成しようとします。

論文では、特に違法薬物や生物兵器のリスクについても論じられており、研究者らは既知の化学兵器のリストを含むテストセットを開発し、それらの合成を依頼した。11件の依頼のうち4件(36%)が受け入れられ、拒否された7件のサンプルのうち5件はウェブ検索後に発生し、2件はキューワードのみに基づいて拒否された。

次のステップ

言語モデルは複雑なシステムの頭脳として機能し、対応する動作を行うことができますが、現時点ではいくつかの制限と欠点があります。

1. コンテキストの長さが制限されている

コンテキスト容量により、履歴情報、詳細な手順、API 呼び出しコンテキスト、および応答が制限されます。下流システムの設計は、限られた通信帯域幅によって制約される必要がありますが、過去の間違いから学習する自己反映などのメカニズムは、より長いコンテキスト ウィンドウから恩恵を受けることができます。

ベクトルの保存と検索により、より大きな知識ベースにアクセスできますが、その表現力は完全な注意メカニズムほど強力ではありません。

2. 長期計画とタスク分割における課題

長い対話履歴を計画し、ソリューション空間を効率的に探索することは依然として困難です。言語モデルは予期しないエラーに直面したときに計画を調整するのが難しく、試行錯誤から学習する人間ほど堅牢ではありません。

3. 自然言語インターフェースの信頼性

現在のインテリジェント エージェント システムは、言語モデルと外部コンポーネント (メモリやツールなど) 間のインターフェイスとして自然言語に依存しています。ただし、言語モデルはフォーマット エラーを生成したり、時々エラーを表示したり、指示に従わなかったりする可能性があるため、モデル出力は必ずしも信頼できるとは限りません。そのため、ほとんどのインテリジェント エージェントのデモ コードは現在、モデル出力に重点を置いています。

参考文献:

https://blog.salesforceairesearch.com/large-action-models/

https://lilianweng.github.io/posts/2023-06-23-agent/

<<:  中国のAI麻雀が新たな高みに到達!テンセントの「Jueyi」が本物のプロプレイヤーを破り新記録を樹立

>>:  都市のモビリティの変化: スマートシティにおけるインテリジェント交通

ブログ    
ブログ    

推薦する

機械学習を妨害する10のサイバー攻撃

サーセイ・ラニスターの策略やサー・ジョラー・モーモントの父親のような保護をもってしても、攻撃者が H...

...

...

ビジュアルTransformer BERTの事前トレーニングのための新しい方法:USTC、MSRAなどが提案したPeCo

[[438709]]大規模なコーパスでトレーニングされた Transformer モデルは、自然言...

インタビュアー: アルゴリズムの時間計算量と空間計算量についてどう思いますか?計算方法は?

[[424483]] 1. はじめにアルゴリズムとは、データを操作し、プログラムの問題を解決するた...

機械学習は金融自動化においてどのような役割を果たすのでしょうか?

金融やその他の分野における自動化は避けられません。しかし、金融サービスの自動化は、高いレベルの注意、...

AI は予測分析にどのように役立ちますか?

今日、企業はビッグデータ分析を活用し、データ洞察を通じて製品機能を強化し、競争の激しいダイナミックな...

あなたの脳は寝ている間に本当に学習します!初めての人間実験証拠:再生速度が1~4倍に

寝る前に本を数ページ読んだり、数語読んだりするだけで、目覚めたときに深い感銘を受けていることに気づき...

日常生活におけるAIの応用

機械学習やその他の技術をバックグラウンドで使用することで、AI は私たちの日常生活に多くの素晴らしい...

AIが高収入の仕事を生み出すと同時に仕事を代替できる理由

自動化、特に人工知能とロボット工学の進歩が、今日の労働者にとって問題となるかどうか。この議論は毎日繰...

FacebookはCNN Transformerの利点を組み合わせ、誘導バイアスを柔軟に利用するConViTを提案している

[[411034]] AI 研究者は、新しい機械学習モデルを構築し、パラダイムをトレーニングする際に...

2021年第1四半期のロボット産業の新製品在庫

2021 年の最初の 3 か月間にロボット業界ではどのような新製品が登場しましたか? [[38857...

AI顔認識:スマート監視を開発する方法

顔認識技術は継続的に発展しており、スマート監視システムの開発に貢献しています。これらのシステムにより...

Kaggle で競争する方法、全プロセスを解説

導入Kaggle は機械学習のコンペティションで最も有名なウェブサイトです。 Kaggle コンテス...

Amazon Lexについて

Amazon Lex は、音声とテキストを使用してあらゆるアプリケーションに会話型インターフェースを...