GPT-4 抽象推論 PK 人間のギャップは大きいです!マルチモーダル性はプレーンテキストに比べてはるかに劣っており、AGIの火花を単独で燃やすことは困難である

GPT-4 抽象推論 PK 人間のギャップは大きいです!マルチモーダル性はプレーンテキストに比べてはるかに劣っており、AGIの火花を単独で燃やすことは困難である

GPT-4 はおそらく現在利用可能な最も強力な一般言語モデルです。リリースされると、さまざまなタスクにおけるその優れたパフォーマンスに驚嘆するとともに、「GPT-4 は AGI なのか?」という疑問も生じました。彼は本当にAIが人間に取って代わる日を予言したのだろうか?

Twitter上の多くのネットユーザーも投票を開始した。

主な反対意見は次のとおりです。

- 推論能力の限界: GPT-4 は、「逆推論」を実行できないことと、世界を推定するための抽象的なモデルを形成することが難しいことで最も批判されています。

- タスク固有の一般化: GPT-4 は形式的には一般化できますが、タスク全体の目的を達成するのが難しい場合があります。

では、GPT-4 の推論能力や抽象能力と人間のそれとのギャップはどれほど大きいのでしょうか? この種の感性については、それを裏付ける定量的な研究はないようです。

最近、サンタフェ研究所の研究者たちは、推論と抽象的な一般化における人間と GPT-4 のギャップを体系的に比較しました。

論文リンク: https://arxiv.org/abs/2311.09247

研究者らは、GPT-4 の抽象的推論能力の観点から、ConceptARC ベンチマーク テストを使用して GPT-4 のテキスト バージョンとマルチモーダル バージョンのパフォーマンスを評価しました。結果は、GPT-4 が人間とまだ大きなギャップがあることを示しています。

ConceptARC はどのようにテストされますか?

ConceptARC は、手動で作成された 1000 個の類推パズル (タスク) のセットである ARC に基づいています。各パズルには、グリッド上の変換の小さなセット (通常 2 ~ 4 個) と「テスト入力」グリッドが含まれています。

挑戦者のタスクは、デモンストレーションの根底にある抽象的なルールを導き出し、そのルールをテスト入力に適用して変換されたグリッドを生成することです。

下の図に示すように、デモンストレーションのルールに従って、挑戦者は新しいグリッドを生成する必要があります。

ARC 設計の目的は、抽象的推論の核心を捉えることに重点を置くことです。つまり、少数の例から普遍的な法則やパターンを導き出し、それを新しい、これまで見たことのない状況に柔軟に適用できるようにすることです。一方で、言語や学習した記号知識を弱めて、「近似検索」や以前のトレーニング データのパターン マッチングへの依存を回避します。これが、言語ベースの推論タスクで表面的に成功している理由かもしれません。

ConceptARC はこの基盤を基に、上と下、内側と外側、中心、同じと違うなど、特定の中核的な空間概念と意味概念の体系的なバリエーションに編成された 480 のタスクに改善しました。各タスクは、異なる方法と異なる抽象化レベルで概念をインスタンス化します。

この変更により、概念はより抽象的になり、人間にとって理解しやすくなり、結果によって GPT-4 と人間の抽象的推論能力の比較がより明確になります。

テスト結果は、GPT-4がまだ人間よりはるかに劣っていることを示している

研究者らは、テキストのみの GPT-4 とマルチモーダル GPT-4 の両方をテストしました。

GPT-4 のテキストのみのバージョンについては、研究者らは、指示と解決済みタスクの例を含む、より表現力豊かなプロンプトを使用して評価し、GPT-4 が間違った回答をした場合に最大 3 回まで別の回答を出すように要求しました。

しかし、異なる温度設定(温度は、生成されるテキストの多様性と不確実性を調整するために使用される調整可能なパラメーターです。温度が高いほど、生成されるテキストはランダムで多様になり、タイプミスや不確実性が多くなる可能性があります)では、下の図に示すように、480 のタスク全体で、GPT-4 の精度パフォーマンスは人間のそれよりはるかに劣っています。

マルチモーダル実験では、研究者らは ConceptARC タスクの最も単純な視覚バージョン (つまり、わずか 48 のタスク) で GPT-4V を評価し、最初の一連の実験と同様のプロンプトを与えましたが、タスクを表すためにテキストではなく画像を使用しました。

結果は下の図に示されています。最小限のタスクを画像としてマルチモーダル GPT-4 に入力すると、テキストのみの場合よりもパフォーマンスがさらに低下します。

おそらく現在利用可能な最も強力な汎用 LLM である GPT-4 は、トレーニング データでこれまで見られなかったコンテキストに現れる基本的なコア概念について、抽象化を堅牢に形成し推論することができないと結論付けるのは難しくありません。

ネットユーザーの分析

有名なネットユーザーがConceptARCにGPT-4のパフォーマンスに関するコメントを5件投稿しました。主な理由の 1 つは次の通りです。

大規模な Transformer ベースの言語モデルのベンチマークでは、重大な間違いが起こっています。多くの場合、短い説明を提供することでモデルが回答を生成するように誘導しますが、実際には、これらのモデルは単に次に最も可能性の高いトークンを生成するように設計されているわけではありません。

モデルをブートストラップするときに、関連する概念をガイドして固定するための適切な命題ロジックがないと、モデルはトレーニング データを再現したり、ロジックが完全に開発されていないか適切に固定されていない概念に関連する最も近い回答を提供するという誤ったモードに陥る可能性があります。

つまり、大規模モデルによって設計された問題の解決策が上図のようになる場合、実際に解決する必要がある問題は下図のようになると考えられます。

研究者らは、GPT-4とGPT-4Vの抽象的推論能力を向上させる次のステップは、他の手がかりやタスク表現方法を試すことだろうと述べている。

私が言えるのは、大型モデルが本当に人間のレベルに到達するまでには、まだ長い道のりがあるということです。

<<: 

>>:  ChatGPT Civilization Simulator が再びオンラインになりました!クリックひとつで、火山噴火の日の古代都市ポンペイにタイムスリップ

ブログ    
ブログ    

推薦する

Google の大きな動き!新しくリリースされた Cloud AutoML により、コードを書かずに AI トレーニングを完全自動化

これは大問題だ! Google が大きな動きを見せました!昨日、フェイフェイ・リーとジェフ・ディーン...

CMU は、日常の家具の操作方法を正確に学習する新しい器用なロボットアルゴリズムを公開しました

日常生活で人々が接触する家具のほとんどは、引き出しレール付きの引き出し、垂直回転軸付きの扉、水平回転...

クラウド ネイティブが新たな標準になりますが、人工知能はそれに備えていますか?

テクノロジーの発展に伴い、クラウド コンピューティング テクノロジーは進歩し続け、その目的も変化して...

...

従来のプログラマーはどのように AI を変革し、学習するのでしょうか?アリババは最前線のアルゴリズムチームが開発したコアAI技術をオープンソース化

次のような疑問を持ったことはありませんか?人工知能は非常に人気があります。従来のプログラマーとして、...

ドローンのパフォーマンスはどんどん標準化されつつありますが、この4つの点はまだ改善が必要です。

近年、飛行制御、ナビゲーション、通信などの技術が継続的に進歩し、私たちの生産や生活におけるドローンの...

人工知能は人権を脅かすのか?国連は全人類の生存に関わる非難声明を発表した。

今日では、路上の人工自動車、空を飛ぶドローン、仮想アシスタントなど、人工知能は私たちの生活のほぼすべ...

人工知能は静かに到来し、世界のテクノロジー大手はAIをめぐる戦いを始めている

人工知能は長い間、小売業から農業に至るまで、さまざまな業界で主要な技術的焦点となってきており、大手企...

ビジネスリーダーが AI プロジェクトの失敗を回避する 3 つの方法

なぜこれほど多くの AI プロジェクトが失敗するのでしょうか。そして、ビジネス リーダーはどうすれば...

...

...

...

DeepMind のブラック ボックス解読の第一歩: ニューラル ネットワークの認知原理は人間のものと同じであることが判明しました。

人間は、画像内の物体を認識して推論することから、超人的なレベルで Atari ゲームや囲碁をプレイす...

北京大学のチームは、ChatGPTにとって頭痛の種であったアルゴリズムの最適化を解決し、普通のラップトップでも実行できるようにした。

ChatGPT ですら首をかしげたアルゴリズムの最適化は、北京大学のチームによって達成されました。...