表の数学的推論の正解率は98.78%です! UCLA が新しい「カメレオン推論フレームワーク」を発表

表の数学的推論の正解率は98.78%です! UCLA が新しい「カメレオン推論フレームワーク」を発表

自然言語処理タスクで目覚ましい成功を収めた大規模言語モデル (LLM) は、優れたパフォーマンスを示していますが、リアルタイムの情報取得、外部ツールの利用、正確な数学的推論の点ではまだ不十分です。

これらの課題に対処するために、UCLA と他の機関の研究者は、LLM、ビジュアル モデル、Web 検索エンジン、Python 関数、ルール ベース モジュールなどの複数のツールを組み合わせた独自のプラグ アンド プレイ モデルを備えた新しい Chameleon フレームワークを作成しました。

プロジェクトリンク: https://chameleon-llm.github.io/

論文リンク: https://arxiv.org/abs/2304.09842

コードリンク: https://github.com/lupantech/chameleon-llm

通訳: https://www.youtube.com/watch?v=EWFixIk4vjs&ab_channel=WorldofAI

Chameleon の中核は、LLM プランナーを通じて自然言語プログラムを生成し、最適なツールの組み合わせを見つけ、これらのツールを順番に実行して結論に到達することです。

Chameleon は、科学的質問応答タスク ScienceQA と表形式の数学的推論タスク TabMWP で優れたパフォーマンスを発揮しました。ScienceQA では、モデルは 86.54% の精度で既存の少数ショット モデルを上回り、TabMWP では驚異的な 98.78% の精度を達成し、既存のモデルをはるかに上回りました。

Chameleon という名前は、カメレオンの適応性と統合能力に由来しており、外部ツールとの組み合わせによる推論タスクを実行する際の大規模言語モデルの汎用性と適応性を象徴しています。

Chameleon はリリース以来、幅広い注目を集めており、GitHub プロジェクトは 1,000 回近く収集され、学術界で 100 回近く引用されています。この論文は 1,682 件の AI 論文の中でも際立っており、AlphaSignal によって「今週のベスト論文」に選ばれました。

さらに、著名な学術ブロガーがYouTubeでカメレオンの詳細な分析を行い、その動画は1万回以上再生されました。

カメレオンにインスピレーションを受けて

実際のアプリケーションでは、Hugging Face や GitHub のオープンソース モデル、Google や Bing などの Web 検索サービス、Wikipedia などのナレッジ ベース、生成 AI モデル、Python 関数、言語翻訳、画像生成など、さまざまな種類や分野のさまざまなツールに直面することがよくあります。

重要な問題は、これらの多様なツールを大規模な言語モデルと組み合わせて複雑なタスクを解決する方法です。

その答えは、ツール拡張大規模言語モデル、または大規模言語モデルエージェント (LLM エージェント) にあります。

複数のツールとリソースを計画し、大規模な言語モデル フレームワークに統合することで、さまざまなドメインの複雑なタスクを処理できる、より汎用性が高く強力なシステムを作成できます。

そこで、UCLA の研究者たちはカメレオン推論フレームワークを提案しました。カメレオンは自然界のカメレオンからヒントを得ています。カメレオンが皮膚の色を変えて環境に適応するのと同じように、カメレオン モデルはさまざまなツールを組み合わせて使用​​し、さまざまな入力問題に基づいて対応する複雑な推論を完了することができます。

たとえば、マルチモーダルタスク ScienceQA を解決する場合、カメレオン モデルはさまざまな質問に対して異なるプログラムを生成し、さまざまなツールを柔軟に組み合わせて特定の順序で実行し、最終的に答えを導き出します。この柔軟性と適応性により、Chameleon は複雑なタスクを解決するための強力なツールになります。

カメレオンモデルと関連研究の比較

関連する研究と比較して、カメレオン モデルはツールの多様性と呼び出しの柔軟性において大きな利点があります。まず、Chameleon は LLM モデル、ビジュアル モデル、Web 検索エンジン、Python 関数、ルールベース モジュールをサポートしており、これらのさまざまなツールは自然言語を通じて通信できます。

対照的に、Toolformer などの既存の研究は、質問応答、計算機、機械翻訳、WikiSearch、カレンダークエリなどの少数のツールのみをサポートしており、HuggingGPT は視覚処理に関連するモデルにのみ適用できます。

第二に、カメレオン モデルでは、複雑な形式でプログラムを設計する必要なく、自然言語のような方法でさまざまなツールの呼び出しの組み合わせを生成できます。 ViperGPT などの既存の作業では、特定の形式に準拠した慎重に設計された Python コードを生成する必要があり、プログラミング スキルが限られているユーザーにとって使いにくいものとなっています。

LLMベースのツールプランナー

カメレオン モデルは、さまざまな種類の推論問題に合わせてツールの組み合わせを合成できる点で、以前のアプローチとは異なります。

このモデルは、ツールボックス (モジュール インベントリ) と LLM プランナー (LLM プランナー) という 2 つの主要コンポーネントで構成されています。ツールボックスには、カメレオン モデルに多様で多次元的な推論機能を提供するさまざまなツールが含まれています。

LLM プランナーは大規模な言語モデルに基づいて実装されており、さまざまな入力問題に基づいて自然言語でプログラムを生成し、ツールボックス内のツールの組み合わせと呼び出しを実現します。

LLM プランナーの実装は非常に簡潔かつ効率的で、大規模言語モデルの迅速な学習機能とコンテキスト内学習機能を最大限に活用しています。 LLM プランナーへの入力プロンプトは、さまざまなツールの組み合わせシーケンスの生成を必要とする状況を記述し、ツールボックス内のすべてのツールを定義します。

LLM プランナーのヒントは、入力情報に基づいて正しいプログラムを生成する方法について大規模言語モデルをガイドするためのコンテキスト例も提供します。

これらの説明と例に基づいて、ChatGPT や GPT-4 などの大規模言語モデルは、新しい入力問題に適したプログラムを生成し、ツールボックス内のさまざまなツールを組み合わせて呼び出して、複雑な推論を含む入力問題を完了する方法を学習できます。

カメレオン モデルの主な利点は、ユーザーに豊富な柔軟性を提供することです。言語の説明を提供するだけで、大規模な言語モデルは外部ツールと連携して、複数のタイプとスキル次元をカバーできます。さらに、プラグアンドプレイの性質により、ユーザーは基盤となる大規模な言語モデルをシームレスに更新し、新しいツールを追加し、新しいタスクに適応することができます。

カメレオンツールボックスの多様なスキル

多様な推論ニーズを満たすために、Chameleon のツールボックスには、画像理解、知識理解、数学的推論、表形式推論、質問への回答など、さまざまなスキルのためのツールが含まれています。

LLMベースのツール実装

Chameleon のツールボックスには LLM (Large Language Model) に基づくツールが含まれていることを強調することが重要です。

「知識検索」ツールを例に挙げてみましょう。システムが複雑な問題を解決するのを支援する場合、追加の知識を取得することが重要です。

このツール モジュールは、大規模な言語モデルの強力な生成機能を活用して、ドメイン固有の知識を獲得します。これは、科学や数学などの専門分野を扱う場合に特に役立ちます。

たとえば、質問に納税申告書の理解が含まれる場合、このモジュールは税金に関連する背景知識を生成することができ、これはその後の推論ステップにとって非常に重要です。

最近の研究では、プログラム支援手法によって、論理的および数学的推論における大規模言語モデルの能力を向上できることが示されています。

そのため、ツールボックスには、大規模な言語モデルのコンテキスト学習およびコード生成機能を入力問題と組み合わせて使用​​し、与えられた問題を効果的に解決できる Python プログラムを生成する「プログラム ジェネレーター」ツールも含まれています。

さらに、大規模な言語モデルをガイドして、入力質問、コンテキスト情報、および履歴ツール実行の中間結果を最大限に活用し、複数のステップからなる詳細なソリューションを生成できる「ソリューション ジェネレーター」ツールを構築できます。

カメレオンモデルのパフォーマンス

Chameleon モデルは、2 つの複雑なマルチモーダル推論タスク、ScienceQA と TabMWP で実験的に評価されます。

ScienceQA (Science Question Answering) は、幅広い科学トピックをカバーするマルチモーダルな質問応答ベンチマークです。以下の例に示すように、ScienceQA の質問に答えるには、画像の説明、テキストの検出、知識の検索、オンライン リソースの検索、視覚的な推論など、さまざまな知識、ツール、スキルを使用する必要があります。これには、視覚的推論と言語的推論を含む機能の組み合わせを備えたモデルが必要です。

Chameleon モデルの LLM プランナーは、ScienceQA のさまざまな種類の質問に答えるためにさまざまなツールの組み合わせを呼び出すプログラムを合成できます。

たとえば、以下に示す最初の例では、カメレオン モデルは入力画像に広告テキストが含まれていることを認識し、「テキスト検出」ツールを呼び出して画像内のテキストを理解します。

次に、モデルは「知識検索」ツールを呼び出して、質問に含まれる「説得力のあるアピール」という用語に関する関連する背景知識を取得します。最後に、モデルは入力された質問と、以前のツールを実行して得られた中間結果に基づいて最終的な回答を生成します。

2 番目の問題は、画像内の動物を識別し、その動物が環境に適しているかどうかについての質問に答えることです。

カメレオン モデルは、画像キャプション ツールを使用して画像内の動物を理解し、Bing 検索を呼び出して関連する主題の背景知識を取得します。最終的な答えは、この情報を最大限に活用します。

詳細な評価結果は、ScienceQA タスクにおける Chameleon モデルの有効性も十分に実証しています。

カメレオン モデルは、表形式推論タスク TabMWP でも優れた柔軟性と有効性を実証しました。 TabMWP は、表形式のコンテキストに基づいた数学的推論タスクであり、モデルがさまざまな形式の表を理解し、正確な数値計算を実行することを要求します。

下の図の最初の例は、数字の表についての数学的推論です。 Chameleon モデルは、リストの中央値を計算する方法を理解するために、知識検索ツールを呼び出します。その後、正確な計算のためにプログラム支援に頼ります。

2 番目の例では、より大きなテーブル コンテキスト内のセルをターゲットにする必要があります。

これを行うために、カメレオン モデルはツールボックスの「行検索」ツールを呼び出して、テーブル内の関連する行を正確に見つけます。次に、カメレオン モデルは、簡略化された表を理解し、数学的推論を強化するために Python コードを生成せずに、最終的な自然言語の回答を生成する必要があります。

同様に、カメレオン モデルは TabMWP タスクでも強力な推論能力を発揮しました。

下の図は、これら 2 つのタスクの主要なベースライン モデルを示しています。 ScienceQA タスクでは、Chameleon モデルは GPT-4 と連携して 86.5% の精度を達成し、現在利用可能な最高の少数ショット モデルとなりました。

同様に、Chameleon は TabMWP データセットで 98.8% の精度を達成しており、これは最先端のモデルよりも 17.0% 高い数値です。

アブレーション実験によりカメレオンの主要モジュールが明らかに

研究者らは、ジェネレーターの主要モジュールが無効になったときにカメレオンモデルの精度がどのように低下​​するかを分析するためにアブレーション実験を行った。

実験結果は、「知識検索」モジュールが両方のタスクで重要な役割を果たすことを示しています。

ScienceQA タスクでは、Bing 検索や視覚関連ツールなどのドメイン固有のツールが重要な役割を果たしましたが、TabMWP タスクでは、一般的に使用されるプログラム ジェネレーター モジュールも最終的なパフォーマンスに大きな影響を与えました。

Chameleon モデルのツール計画機能

さまざまなツールの使用率

Chameleon モデルによって生成されたプログラム内のさまざまなツールの使用率を視覚化することで、LLM プランナーが異なる言語モデルを使用する場合に異なる計画動作を示すことがわかります。

多くの場合、ChatGPT は特定のツールを使用するか使用しないかについて強い好みを持っています。たとえば、ScienceQA の質問に答える場合、ChatGPT は 72% の確率で「Knowledge Retrieval」を呼び出しますが、「Bing Search」を呼び出すのは 3% のみになります。

TabMWP タスクでは、ChatGPT は「行ルックアップ」ツールに大きく依存し、「列ルックアップ」ツールにはあま​​り依存しません。

GPT-4 はツールの選択においてより客観的かつ合理的です。たとえば、ScienceQA からの科学的な質問に答える場合、GPT-4 は ChatGPT よりも「知識検索」をより頻繁に呼び出し、「Bing 検索」をより頻繁に呼び出します (11% 対 3%)。

ツール呼び出し遷移図

Chameleon モデルによって生成されたプログラム内のさまざまなツールの状態遷移図を視覚化することで、ツール呼び出しで LLM プランナーによって示されるパターンを観察できます。

たとえば、ScienceQA タスクでは、Chameleon モデルは通常、「知識検索」を使用して大規模な言語モデルの内部知識を取得するか、「Bing 検索」を呼び出してインターネット上のオンライン情報を取得することを選択します。

TabMWP タスクでは、2 つの主要なツール呼び出しパターンが観察されました。Chameleon モデルは、自然言語推論を通じて直接回答を完成させるか、プログラム生成関連のツールを使用して論理的および数学的推論を強化します。

カメレオンモデルのさらなる発展

カメレオン モデルは、シンプルで効率的なフレームワークを通じて、大規模な言語モデルと複数の外部ツール間の効率的なコラボレーションを可能にし、複雑なタスクにおける推論機能を大幅に強化します。

大規模言語モデルのツール強化には、将来的に多くの方向性が考えられます。

(1)ツールボックスの拡張:ツールボックスを拡張して、Wolframなどの特定分野のツールを含む、より多くのツールを追加することができます。これにより、さまざまなタスクやドメインにわたるカメレオン モデルの適用性がさらに高まり、より包括的で多用途なツールになります。

(2)プランナーの改善:次のステップを段階的に計画し、実行結果のフィードバックに基づいて計画を最適化できるツールなど、より精度の高いプランナーの提案を検討します。これにより、複雑なタスクにおける Chameleon モデルの効率と精度が向上します。

(3)軽量な置き換え:将来的には、大規模な言語モデルに関わる部分を軽量なローカルモデルに置き換えることで、計算リソースの消費を抑え、モデルの応答速度を向上させ、導入コストを削減することを検討できる。これにより、カメレオン モデルは実際のアプリケーション シナリオにさらに適用しやすくなります。

結論として、カメレオン モデルの今後の開発では、ツール強化の分野で大きな進歩が達成され、複雑な問題の解決に対するサポートが強化され、その適用範囲が拡大することが期待されます。

<<:  ランウェイが次期ユニバーサルワールドモデルを正式発表!ビデオ AI の最大の問題を解決するには、AI に頼って世界をシミュレートするのでしょうか?

>>:  より優れた LLM ベースのアプリケーションを構築するための 4 つの秘訣

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

中関村科学技術の張傑氏との対話:大規模モデルを実装するには従うべき「テクニック」がある

ゲスト | 張潔インタビュー | 張小南編集者 | 徐潔成制作:51CTO テクノロジースタック(W...

TENSORFLOW に基づく中国語テキスト分類のための CNN と RNN

[[211015]]現在、TensorFlow のメジャーバージョンは 1.3 にアップグレードさ...

メタバースと自動運転車のどちらが先に来るでしょうか?

今年、未来のテクノロジーの中で最も注目されている2つの分野は、メタバースと自動運転車です。メタバース...

構造とアルゴリズム: バイナリツリーとマルチツリー

1. ツリー構造1. 配列とリンクリスト配列構造配列ストレージは、要素に添字でアクセスするため、クエ...

...

ジェネレーティブ AI: 誇大宣伝以上の価値を生み出す 3 つの重要な要素

最近、ガートナーは、生成型人工知能 (GenAI) を新興技術の誇大宣伝サイクルにおける「過大な期待...

...

機械学習は、企業がサイバー脅威と戦うのにどのように役立ちますか?

私たちの忙しいデジタル生活の中で、サイバー脅威はより高度化し、頻繁に発生しています。従来の方法だけで...

浙江大学の呉飛氏とアリババの賈洋青氏が口論。AIの進化と年収100万ドルのどちらが本当なのか?

人工知能が再び人気を集めていることは間違いありません。第14次5カ年計画では、国家発展の戦略的支えと...

...

ソラは人間の代わりにはなれない!アマゾンのエンジニアは主張:実際の仕事上の対立はAIでは解決できない

今週、OpenAIのビデオAIツール「Sora」が登場するや否や大きな話題を呼んだ。 「仕事を失う」...

役に立つ情報: GitHub で 26,000 個のスターを獲得!初心者のための Python アルゴリズム

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

ドイツのセキュリティ専門家がGPRS暗号化アルゴリズムの解読に成功

セキュリティ・リサーチ・ラボのディレクター、カーステン・ノール氏は、このクラックによりGPRSの盗聴...

Googleの上級研究員ネイチャーが記事を公開: 機械学習の3つの大きな「落とし穴」を避ける

アルゴリズム分析は科学研究の重要な方法となっている。生物学者、高エネルギー物理学者、病理学者など、多...