GPT-4 の推論はより人間的です!中国科学院は「思考コミュニケーション」を提唱、類推思考はCoT、プラグアンドプレイよりも優れている

今日では、GPT-4 や PaLM などの巨大なニューラルネットワークモデルが登場し、驚くべき少数サンプルの学習能力を実証しています。

簡単なプロンプトをいくつか入力するだけで、テキストについて推論したり、物語を書いたり、質問に答えたり、プログラミングしたりできるようになります...

これを受けて、中国科学院とイェール大学の研究者らは、「類推思考」を通じて LLM 推論を強化できる「思考伝播」という新しいフレームワークを提案しました。

論文アドレス: https://arxiv.org/abs/2310.03965

思考拡散は人間の認知にヒントを得たもので、新しい問題に遭遇すると、すでに解決した類似の問題と比較して戦略を導き出すことが多いとされています。

したがって、この方法の核心は、入力問題を解決する前に、LLM に入力に関連する「類似の」問題を探索させることです。

最後に、これらのソリューションはすぐに使用することも、有用な計画のための洞察を抽出するために使用することもできます。

「思考伝播」は、LLM の論理的能力の固有の限界に対する新しいアプローチを提供し、大規模なモデルが人間のような「類推」手法を使用して困難な問題を解決できるようになることが予測されます。

LLMの多段階推論は人間に打ち負かされる

LLM はプロンプトに基づく基本的な推論には優れているものの、最適化や計画などの複雑な複数ステップの問題を処理するのが依然として難しいことは明らかです。

一方、人間は同様の経験から得た直感を活用して新しい問題を解決します。

大規模なモデルでは、固有の制限によりこれを実行できません。

LLM の知識は完全にトレーニングデータ内のパターンから得られるため、言語や概念を真に理解することはできません。したがって、統計モデルとしては、複雑な組み合わせに一般化することは困難です。

最も重要なことは、LLM には、困難な問題を解決するために人間のように体系的かつ段階的に推論する能力が欠けていることです。

さらに、大規模モデルの推論は局所的かつ「近視眼的」であるため、LLM が最適なソリューションを見つけ、長期間にわたって推論の一貫性を維持することは困難です。

要約すると、数学的証明、戦略的計画、論理的推論におけるビッグモデルの欠点は、主に次の 2 つの中核的な問題に起因しています。

- 過去の経験から得た洞察を再利用できない。

人間は実践を通じて、新たな問題の解決に役立つ再利用可能な知識と直感を蓄積します。対照的に、LLM は以前の解決策に頼らずに、各問題に最初から取り組みます。

- 多段階の推論におけるエラーの複合。

人間は自身の推論の連鎖を監視し、必要に応じて最初のステップを変更します。しかし、LLM が推論の初期段階で犯した間違いは、後の推論を誤った方向に導くため、拡大されます。

上記の弱点は、グローバルな最適化や長期計画を必要とする複雑な課題への LLM の適用を著しく妨げます。

これに対して、研究者たちは「思考拡散」という新たな解決策を提案しました。

TPフレームワーク

類推的思考を通じて、LLM はより人間に近い推論を行うことができます。

研究者の見解では、ゼロから推論すると、類似の問題を解決した際に得た洞察を再利用することができず、中間の推論段階でエラーが蓄積されてしまうことになる。

Mind Diffusion は、入力された問題に関連する類似の問題を調査し、類似の問題の解決策からインスピレーションを得ることができます。

下の図は、「Thought Propagation（TP）」と他の代表的な技術との比較です。入力問題pに対して、IO、CoT、ToTはゼロから推論して解決策sを導き出します。

具体的には、TP には次の 3 つの段階が含まれます。

1. 類似の質問を提案する: LLM はプロンプトを通じて、入力された質問と類似する一連の類似の質問を生成します。これにより、モデルは潜在的に関連のある過去の経験を取得できるようになります。

2. 類似の問題を解決する: CoT などの既存のプロンプト手法を使用して、LLM に類似の問題をそれぞれ解決させます。

3. 集約ソリューション: 2 つの異なるアプローチがあります。類推ソリューションに基づいて入力問題に対する新しいソリューションを直接推論する方法と、類推ソリューションを入力問題と比較して高レベルの計画または戦略を推論する方法です。

これにより、大規模モデルは過去の経験とヒューリスティックを再利用でき、また、初期の推論を類似のソリューションとクロスチェックして、それらのソリューションを改良することもできます。

「思考伝播」はモデルに依存せず、任意のプロンプト方法に基づいて単一の問題解決ステップを実行するために使用できることは言及する価値があります。

このアプローチの主な新規性は、LLM 類推思考を刺激して複雑な推論プロセスを導くことです。

「思考コミュニケーション」によってLLMがどの程度人間に似たものになれるかは、実際の結果を通じてのみ明らかになるでしょう。

中国科学院とイェール大学の研究者らは、3つの課題について評価を実施した。

- 最短経路推論:グラフ内のノード間の最適な経路を見つけるには、グローバルな計画と検索が必要です。単純なグラフであっても、標準的な手法では失敗します。

- 創造的な執筆:一貫性のある創造的なストーリーを生み出すことは、終わりのない課題です。高レベルのアウトラインプロンプトが与えられると、LLM は一貫性や論理を失うことがよくあります。

- LLM エージェント計画: テキスト環境と対話する LLM エージェントは、長期戦略に苦労します。彼らの計画はしばしば「迷走」したり、ループしたりします。

最短経路推論

最短経路推論タスクでは、既存の推論方法で発生する問題を解決できません。

(a) のグラフは非常に単純ですが、推論は 0 から始まるため、これらの方法では LLM は次善の解決策 (b、c) しか見つけられず、中間ノードを繰り返し訪問することさえできません (d)。

以下は TP と ToT を組み合わせた例です。

ToT (b) は、中間推論ステップでのエラーの蓄積により、(a) の問題を解決できません。 TP (c) は、類似の問題に対する解決策に基づいて、初期の準最適解決策を改良し、最終的に最適解決策を見つけます。

ベースラインと比較すると、TP は最短経路タスクのパフォーマンスを 12% 大幅に向上させ、最適かつ効率的な最短経路を生成します。

さらに、OLR が最も低いため、TP によって生成される有効パスは、ベースラインと比較して最適パスに最も近くなります。

同時に、研究者らは、TP レイヤーの数が最短経路タスクの複雑さとパフォーマンスに与える影響をさらに研究しました。

異なる設定では、レイヤー 1 TP のトークンコストは ToT と同様になります。しかし、1 層 TP は最適な最短経路を見つける際に非常に競争力のあるパフォーマンスを実現しました。

さらに、レイヤー 0 TP (IO) と比較したレイヤー 1 TP のパフォーマンス向上も非常に重要です。図5(a)は、レイヤー2 TPのトークンコストの増加を示しています。

クリエイティブライティング

以下の表 2 は、GPT-3.5 と GPT-4 における TP とベースラインのパフォーマンスを示しています。一貫性の点では、TP はベースラインを上回りました。さらに、ユーザー調査では、TP により創造的な文章における人間の嗜好が 13% 向上しました。

LLMエージェント計画

3 番目のタスク評価では、研究者は ALFWorld ゲームスイートを使用して 134 の環境で LLM エージェント計画タスクをインスタンス化しました。

TP は、LLM エージェント計画におけるタスク完了率を 15% 向上させます。これは、同様のタスクを完了する場合、計画を成功させるための反省的な TP が優れていることを示唆しています。

上記の実験結果は、「思考伝播」がさまざまな推論タスクに拡張でき、これらすべてのタスクで優れたパフォーマンスを発揮することを示しています。

LLM推論を強化する鍵

「思考拡散」モデルは、複雑な LLM 推論のための新しい手法を提供します。

類推思考は人間の問題解決能力の特徴であり、より効率的な検索やエラー修正など、さまざまな体系的な利点につながります。

同様に、LLM は類推思考を促すことで、再利用可能な知識の欠如や連鎖的なローカルエラーなどの自身の弱点をよりうまく克服できます。

しかし、これらの調査結果にはいくつかの限界があります。

有用な類推質問を効率的に生成することは容易ではなく、連鎖した類推推論パスが長くなると扱いにくくなる可能性があります。同時に、複数ステップの推論チェーンの制御と調整は依然として困難です。

それにもかかわらず、「Mind Diffusion」は、LLM の推論上の欠陥に創造的に対処することで、興味深いアプローチを提供します。

さらに発展すれば、類推思考によって LLM 推論がさらに強力になる可能性があります。これは、大規模な言語モデルでより人間に近い推論を実現する方法も示しています。

著者について

ラン・ヘ

彼は、中国科学院自動化研究所パターン認識国家重点研究室および中国科学院大学の教授であり、IAPR フェロー、IEEE のシニア会員です。

彼は以前、大連理工大学で学士号と修士号を取得し、2009年に中国科学院自動化研究所で博士号を取得しました。

彼の研究対象には、生体認証アルゴリズム (顔認識と合成、虹彩認識、人物再識別)、表現学習 (弱/自己教師または転移学習を使用した事前トレーニングネットワーク)、生成学習 (生成モデル、画像生成、画像変換) などがあります。

彼は、IEEE TPAMI、IEEE TIP、IEEE TIFS、IEEE TNN、IEEE TCSVT などの有名な国際ジャーナルや、CVPR、ICCV、ECCV、NeurIPS などのトップ国際会議を含む国際ジャーナルや会議で 200 本以上の論文を発表しています。

彼は、IEEE TIP、IEEE TBIOM、Pattern Recognition の編集委員会のメンバーであり、CVPR、ECCV、NeurIPS、ICML、ICPR、IJCAI などの国際会議のエリアチェアを務めてきました。

ユ・ジュンチ

Yu Junchi さんは中国科学院オートメーション研究所の博士課程 4 年生で、指導教員は He Ran 教授です。

以前は、テンセント人工知能研究所でインターンシップを行い、Tingyang Xu博士、Yu Rong博士、Yatao Bian博士、Junzhou Huang教授とともに研究を行っていました。現在、彼はイェール大学のコンピュータサイエンス学部に交換留学生として在籍し、レックス・イン教授の指導を受けています。

彼の目標は、解釈可能性と移植性に優れた信頼できるグラフ学習 (TwGL) 手法を開発し、生化学への応用を模索することです。

<<: 75歳のヒントン氏が再び警告：AIが人間を支配するかもしれない！

>>: AIメモリに与える8つの優れたオープンソースの無料ベクターデータベース