GPT-4 抽象推論 PK 人間のギャップは大きいです!マルチモーダル性はプレーンテキストに比べてはるかに劣っており、AGIの火花を単独で燃やすことは困難である

GPT-4 抽象推論 PK 人間のギャップは大きいです!マルチモーダル性はプレーンテキストに比べてはるかに劣っており、AGIの火花を単独で燃やすことは困難である

GPT-4 はおそらく現在利用可能な最も強力な一般言語モデルです。リリースされると、さまざまなタスクにおけるその優れたパフォーマンスに驚嘆するとともに、「GPT-4 は AGI なのか?」という疑問も生じました。彼は本当にAIが人間に取って代わる日を予言したのだろうか?

Twitter上の多くのネットユーザーも投票を開始した。

主な反対意見は次のとおりです。

- 推論能力の限界: GPT-4 は、「逆推論」を実行できないことと、世界を推定するための抽象的なモデルを形成することが難しいことで最も批判されています。

- タスク固有の一般化: GPT-4 は形式的には一般化できますが、タスク全体の目的を達成するのが難しい場合があります。

では、GPT-4 の推論能力や抽象能力と人間のそれとのギャップはどれほど大きいのでしょうか? この種の感性については、それを裏付ける定量的な研究はないようです。

最近、サンタフェ研究所の研究者たちは、推論と抽象的な一般化における人間と GPT-4 のギャップを体系的に比較しました。

論文リンク: https://arxiv.org/abs/2311.09247

研究者らは、GPT-4 の抽象的推論能力の観点から、ConceptARC ベンチマーク テストを使用して GPT-4 のテキスト バージョンとマルチモーダル バージョンのパフォーマンスを評価しました。結果は、GPT-4 が人間とまだ大きなギャップがあることを示しています。

ConceptARC はどのようにテストされますか?

ConceptARC は、手動で作成された 1000 個の類推パズル (タスク) のセットである ARC に基づいています。各パズルには、グリッド上の変換の小さなセット (通常 2 ~ 4 個) と「テスト入力」グリッドが含まれています。

挑戦者のタスクは、デモンストレーションの根底にある抽象的なルールを導き出し、そのルールをテスト入力に適用して変換されたグリッドを生成することです。

下の図に示すように、デモンストレーションのルールに従って、挑戦者は新しいグリッドを生成する必要があります。

ARC 設計の目的は、抽象的推論の核心を捉えることに重点を置くことです。つまり、少数の例から普遍的な法則やパターンを導き出し、それを新しい、これまで見たことのない状況に柔軟に適用できるようにすることです。一方で、言語や学習した記号知識を弱めて、「近似検索」や以前のトレーニング データのパターン マッチングへの依存を回避します。これが、言語ベースの推論タスクで表面的に成功している理由かもしれません。

ConceptARC はこの基盤を基に、上と下、内側と外側、中心、同じと違うなど、特定の中核的な空間概念と意味概念の体系的なバリエーションに編成された 480 のタスクに改善しました。各タスクは、異なる方法と異なる抽象化レベルで概念をインスタンス化します。

この変更により、概念はより抽象的になり、人間にとって理解しやすくなり、結果によって GPT-4 と人間の抽象的推論能力の比較がより明確になります。

テスト結果は、GPT-4がまだ人間よりはるかに劣っていることを示している

研究者らは、テキストのみの GPT-4 とマルチモーダル GPT-4 の両方をテストしました。

GPT-4 のテキストのみのバージョンについては、研究者らは、指示と解決済みタスクの例を含む、より表現力豊かなプロンプトを使用して評価し、GPT-4 が間違った回答をした場合に最大 3 回まで別の回答を出すように要求しました。

しかし、異なる温度設定(温度は、生成されるテキストの多様性と不確実性を調整するために使用される調整可能なパラメーターです。温度が高いほど、生成されるテキストはランダムで多様になり、タイプミスや不確実性が多くなる可能性があります)では、下の図に示すように、480 のタスク全体で、GPT-4 の精度パフォーマンスは人間のそれよりはるかに劣っています。

マルチモーダル実験では、研究者らは ConceptARC タスクの最も単純な視覚バージョン (つまり、わずか 48 のタスク) で GPT-4V を評価し、最初の一連の実験と同様のプロンプトを与えましたが、タスクを表すためにテキストではなく画像を使用しました。

結果は下の図に示されています。最小限のタスクを画像としてマルチモーダル GPT-4 に入力すると、テキストのみの場合よりもパフォーマンスがさらに低下します。

おそらく現在利用可能な最も強力な汎用 LLM である GPT-4 は、トレーニング データでこれまで見られなかったコンテキストに現れる基本的なコア概念について、抽象化を堅牢に形成し推論することができないと結論付けるのは難しくありません。

ネットユーザーの分析

有名なネットユーザーがConceptARCにGPT-4のパフォーマンスに関するコメントを5件投稿しました。主な理由の 1 つは次の通りです。

大規模な Transformer ベースの言語モデルのベンチマークでは、重大な間違いが起こっています。多くの場合、短い説明を提供することでモデルが回答を生成するように誘導しますが、実際には、これらのモデルは単に次に最も可能性の高いトークンを生成するように設計されているわけではありません。

モデルをブートストラップするときに、関連する概念をガイドして固定するための適切な命題ロジックがないと、モデルはトレーニング データを再現したり、ロジックが完全に開発されていないか適切に固定されていない概念に関連する最も近い回答を提供するという誤ったモードに陥る可能性があります。

つまり、大規模モデルによって設計された問題の解決策が上図のようになる場合、実際に解決する必要がある問題は下図のようになると考えられます。

研究者らは、GPT-4とGPT-4Vの抽象的推論能力を向上させる次のステップは、他の手がかりやタスク表現方法を試すことだろうと述べている。

私が言えるのは、大型モデルが本当に人間のレベルに到達するまでには、まだ長い道のりがあるということです。

<<: 

>>:  ChatGPT Civilization Simulator が再びオンラインになりました!クリックひとつで、火山噴火の日の古代都市ポンペイにタイムスリップ

ブログ    
ブログ    
ブログ    

推薦する

...

MIT、ビデオ遅延防止に新たなAI技術を採用

動画の途切れや解像度の低さは視聴者の視聴体験を著しく低下させ、広告主の利益にも悪影響を及ぼします。現...

Unity Greater China プラットフォーム テクノロジー ディレクター Yang Dong: メタバースでのデジタル ヒューマンの旅の始まり

デジタルヒューマンは、メタバースコンテンツ構築の礎として、持続的に実装および開発できる最も初期の成熟...

...

超強力なTP-Link!北京大学と清華大学が共同で一般AI実験クラスを設立、朱松春氏が指導

史上最強の集団が力を合わせてAI開発に挑む?最近、北京大学の公式Weiboアカウントは、北京大学と清...

なぜスマートグリッドはエネルギーの未来なのでしょうか?

要約すると、集中型電力ネットワークは、一日のどの時間でも過負荷にならない安定性を確保するために、特定...

人工知能は職場のつながりとコラボレーションを変革できる

世界の人工知能(AI)市場は2027年までに2,670億ドルに達すると予想されています。しかし、テク...

人工知能の可能性を解き放つ3つのステップ

ガートナーのデータによると、2020 年までに人工知能は CIO の 30% 以上にとって最優先事項...

AI による自動ラベル付けの普及により、データラベル作成者の職は失われるのでしょうか?

データ注釈業界では、「知能と同じくらい人工知能も存在する」という有名な格言があります。ラベル付けが必...

NYU の具現化知能における新たな進歩: 視覚的なフィードバックで缶を開ける方法を学習し、タスクの成功率が 135% 向上、LeCun 氏はそれを好意的に評価

ロボットがペンチで簡単にワイヤーを切る様子をご覧ください。あっという間に鉄の箱の蓋が開きました。さら...

百度CTO王海鋒氏:「文心易眼」のユーザー数は1億人を超える

「文心易眼のユーザー規模が1億人を突破した」。12月28日、百度の最高技術責任者で、深層学習技術・応...

データセキュリティリスクのため、米国宇宙軍はChatGPTなどの人工知能ツールの使用を一時停止

ロイターが確認したメモによると、10月12日、米宇宙軍はデータセキュリティに関する懸念から、職員によ...

Kingsoft Cloudは、スマートシティ構築のパートナーとなり、人間中心のスマートシティエコシステムを構築することを目指しています。

スマートシティはデジタル中国とスマート社会の中核を担うものとして国家戦略のレベルにまで高まり、現在中...

さまざまなオフィスAIを集めて活用すれば、最も効率的な人材になれる

人工知能(AI)技術の急速な発展は、さまざまな分野に多くの革新と利便性をもたらしました。この記事では...

AIがデータセンターの設計をどう変えるか

AI システムへの世界的な支出は 2023 年から 2026 年の間に 2 倍になると予想されており...