GPT-4 の補完精度はわずか 6% です。北京大学などが、初の「マルチラウンド、マルチモーダル」PPTタスク完了ベンチマークPPTCを提案

大規模言語モデル（ChatGPT や GPT-4 など）に関する最近の評価作業は、主に基本的な自然言語タスクに関する機能と、単一文のユーザーコマンドを解決するための API を生成するための実用的な機能に焦点を当てていますが、複雑なマルチモーダル環境を理解し、API を使用してユーザーコマンドを完了するという課題は見落とされてきました。

さらに、既存の評価方法は主に、生成された API とラベル付けされた API シーケンスの比較に重点を置いていますが、これも正しいソリューションが複数または無限にある複雑な状況には適用できません。

この課題に対処するため、北京大学と Microsoft Research Asia の研究者は、PPT タスクを完了するために、複数ラウンドのマルチモーダル環境で大規模なモデルをテストするための評価データセット PPTC (PowerPoint Task Completion) を提案しました。

論文アドレス: http://arxiv.org/abs/2311.01767

オープンソースプロジェクト: https://github.com/gydpku/PPTC

図 1 (a) に示すように、ユーザーが PPT ドキュメントを作成および編集できるようにするために、研究者は複数回の人間とコンピューターの対話の形式でデータセットを構築しました。

図 1: (a) 人間と言語モデル間の複数ラウンドの対話シナリオをシミュレートして、PPT タスクを完了する際の言語モデルのパフォーマンスを評価します。 (b) 対話単位内のターン数の分布。

各ラウンドはユーザーの指示から始まります。ビッグモデルは、対応する API シーケンスをソリューションとして生成し、それを実行して、生成された PPT ドキュメントをユーザーに返す必要があります。

図1(b)に示すように、データセットには合計279のこのようなマルチターン対話単位があり、ほとんどの単位は3〜10の対話ターンで構成されています。

さらに、図 2(a) に示すように、データセットには、統計チャート、表、画像、空間位置に関連するマルチモーダル操作を伴う数百のコマンドなど、さまざまな難易度のユーザーコマンド (必要な API の数によって決定) が含まれています。

図2: (a) 命令に必要な最小API数の分布。 (b) 統計グラフ、表、画像、位置情報の操作を含むユーザーコマンドの数。

APIシーケンスを生成して実行する

各ラウンドでユーザーの指示を完了するために、研究者は主に次の点を考慮しました。

現在のラウンドのユーザー説明
以前のラウンドのユーザーコマンド（対話履歴）
PPT資料（環境情報）
利用可能な API のリストはビッグモデルの入力として使用され、プロンプトビッグモデルは対応する API シーケンスをソリューションとして生成します。

図 3: 言語モデルが会話単位でターンを完了する方法。 (A) 現在のコマンド、以前のコマンド（会話履歴）、PPT ファイルの内容、および API リファレンスファイルを入力プロンプトモデルとして使用します。 (B) 次に、言語モデルは API シーケンスを生成し、それを実行して予測された PPT ファイルを取得します。（C）予測ファイル内の属性と位置関係を評価する

大規模モデルによる情報処理を容易にするために、研究者らは、マルチモーダル文書をテキストベースの文書コンテンツに変換する PPT 文書読み取り機能と、大規模モデルによって生成された API シーケンスを自動的に実行して対応する予測 PPT 文書を生成する API 実行機能を提供しました。

大規模モデルによって生成されたPPTドキュメントを評価する

本論文では、大規模モデルによって生成された文書が正しいかどうかを評価するための PPTX-Match 評価システムを提案します。

図3に示すように、PPTXライブラリを使用して生成されたドキュメント内のすべての要素を抽出し、要素間の空間的な位置関係が正しいかどうかを1つずつ検証し、要素の属性内容がラベルドキュメントの対応する内容と一致するかどうかを検証します。

この記事の評価システムは、最終的に生成された PPT ドキュメントのみを評価するため、さまざまな API シーケンスを使用してユーザーの指示を完了できます。

このシステムに基づいて、この記事の評価指標には、現在のラウンドのみを考慮したラウンドレベルのパフォーマンスと、ユニット全体を考慮したユニットレベルのパフォーマンスが含まれます。

実験結果

この論文では、3 つのクローズドソースの大規模モデルと 6 つのオープンソースの大規模モデルで PPTC データセットをテストします。さらに、この論文では、計画アルゴリズム (ゼロショット CoT および ToT アルゴリズム) と PPT コンテンツおよび API 選択アルゴリズムが PPTC 上の GPT-4 モデルのパフォーマンスをさらに向上できるかどうかをテストします。

表 1 と表 2 に示された結果から、次の結論を導き出すことができます。

（1）GPT-4は9つの大規模モデルの中で最も優れた性能を発揮するモデルであり、新しいPPT文書を作成するタスクでは75％のラウンドレベルの精度を達成することができます。

（２）オープンソースの大規模モデル（LLaMa-2）に基づくさらなるコード事前トレーニング（code-LLaMa）とアライメントにより、ラウンドレベルでのモデルのパフォーマンスをさらに向上させることができる。

表 1 と表 2 に示された結果から、次の結論を導き出すことができます。
（1）GPT-4は9つの大規模モデルの中で最も優れた性能を発揮するモデルであり、新しいPPT文書を作成するタスクでは75％のラウンドレベルの精度を達成することができます。
（２）オープンソースの大規模モデル（LLaMa-2）に基づくさらなるコード事前トレーニング（code-LLaMa）とアライメントにより、ラウンドレベルでのモデルのパフォーマンスをさらに向上させることができる。

表 1: 9 つの大規模言語モデルの結果。「TD-003」はText-Davinci-003モデルを指します

（３）計画アルゴリズムと選択アルゴリズムにより、GPT-4のラウンドレベルの精度がさらに2～5パーセントポイント向上する。しかし、この論文では、思考ツリーはゼロサンプル思考チェーンと比較して推論コストが数倍以上かかったにもかかわらず、そのパフォーマンスは大幅に向上しなかったことがわかりました。

表 2: GPT-4 と GPT-4 モデルに基づくアルゴリズムの結果。「CoT」と「ToT」はそれぞれ思考連鎖アルゴリズムと思考ツリーアルゴリズムである。

PPTC における 3 つの大きな課題

さらに、この論文では、PPTC で大規模モデルが遭遇する 3 つの主な課題を分析します。

1. エラーの蓄積により、大規模モデルのユニットレベルでのパフォーマンスが低下する

GPT-4 などの大規模モデルはラウンドレベルでは良好なパフォーマンスを発揮しますが、この論文では、複数のラウンドを含むユニットレベルで大規模モデルのパフォーマンスをテストしたところ、大規模モデルのパフォーマンスは全般的に低下しました。

表 1 に示すように、新しいドキュメントを作成するタスクでは、GPT-4 はマルチターンユニットの 23% 未満しか正しく完了しませんでした。

2. 大きなモデルは長いPPTテンプレートの処理に適していません

PPT ドキュメント編集タスクでは、大規模なモデルは、指定された長い PPT テンプレートに基づいてユーザーの指示を完了する必要があります。

図 4: 新しい PPT ファイルを作成するタスク (タスク 1) と PPT テンプレートを編集するタスク (タスク 2) の分析結果。サブ図(a)は、グラフ、表、画像、場所、プレーンテキストを含む指示の平均ターンベース精度を示しています。サブ図(b)は、GPT-4の4つの一般的なエラーの割合を示しています。

しかし、表 1 に示すように、GPT-4 でもラウンド精度は 38% しか達成できず、マルチラウンドユニットの 6% しか完了しませんでした。図4(b)に示すように、文書の誤解が編集作業におけるエラーの主な原因となります。

3. マルチモーダル指示はタスクの難易度を上昇させる

図 4(a) に示すように、大規模モデルは、純粋なテキスト操作のみを含む命令、特に空間位置の移動を含む命令を処理する場合よりも、グラフ、表、画像、および空間位置に関連する命令を処理する場合のパフォーマンスが大幅に低下します。

図4(b)に示すように、空間的な位置認識が不十分であることが、新しい文書を作成するタスクにおけるエラーの主な原因となります。

要約する

この論文では、PowerPoint 公式ソフトウェアの言語モデルのタスク完了パフォーマンスを測定するための PowerPoint タスク完了テスト (PPTC) を提案します。このベンチマークには、複雑なマルチモーダル環境における数百のマルチモーダル指示をカバーする 279 のマルチターン会話ユニットが含まれています。
本論文では、PPTC の言語モデルのパフォーマンスを自動的に測定する PPTX-Match 評価システムを提案します。この記事では、3 つのクローズドソース言語モデルと 6 つのオープンソース言語モデルをテストし、GPT-4 がすべての言語モデルの中で最高のパフォーマンスを発揮することがわかりました。
この論文ではさらに、会話中のエラーの蓄積、長い PPT テンプレートの処理、マルチモーダル知覚という 3 つの主要なエラー要因を発見しました。これらの発見は、将来の言語モデルとそれに基づくエージェントシステムにとって重要な課題を提起します。

<<: OpenAI のメジャーアップデート: 誰でも GPT をカスタマイズできます!マスク氏は2ヶ月でChatGPTを構築し、公に異議を唱えた

>>: