チューリングテストは死んだ！ ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

世界で最も強力な AI - ChatGPT は、さまざまなテストに合格し、真偽を区別するのが難しい回答を出力することさえできます。

しかし、単純なビジュアルロジックパズルを解く機能が欠けています。

画面上に並べられた一連の明るい色のブロックで構成されるテストでは、ほとんどの人が接続パターンを見つけることができます。

しかし、5月に研究者が発表した報告書によると、GPT-4は、ある種類のパターンでは約3分の1しか正しく認識できず、別の種類のパターンではわずか3パーセントしか正しく認識できなかったという。

論文アドレス: https://arxiv.org/pdf/2305.07141.pdf

この研究の背後にあるチームは、AI システムの機能をテストするためのより優れたベンチマークを提供し、GPT-4 のような大規模な言語モデルによる困難な問題の解決を支援することを目指しています。

論文の著者であるメラニー・ミッチェル氏は、人工知能分野の人々はこれらのシステムをどのように評価するかに苦慮していると述べた。

AI評価はどれくらい効果的ですか?

過去 2 ～ 3 年で、LLM はさまざまなタスクを完了する能力において以前の AI システムを上回りました。

これらは、数十億のオンライン文章内の単語間の統計的相関に基づいて、入力テキストに対して妥当な次の単語を生成するという単純な仕組みで機能します。

LLM 上に構築されたチャットボットには、追加の要素があります。人間のトレーナーがボットの応答を微調整するために多くのフィードバックを提供します。

驚くべきことに、このオートコンプリートのようなアルゴリズムは、膨大な人間の言語データに基づいてトレーニングされており、その機能の幅広さは息を呑むほどです。

他の AI システムは、あるタスクでは LLM に勝てるかもしれませんが、特定の問題に関連するデータでトレーニングする必要があり、あるタスクから別のタスクに一般化することはできません。

ハーバード大学の認知科学者トマー・ウルマン氏は、大まかに言えば、2つの陣営の研究者は法学修士課程の舞台裏で何が起こっているかについて相反する見解を持っていると語る。アルゴリズムの成果は、瞬時の推論や理解によるものだと考える人もいる。彼自身やミッチェルを含む他の人々は、はるかに慎重だった。

議論に参加した双方の研究者は、人間とAIシステムの能力の違いを明らかにする論理パズルのようなテストは正しい方向への一歩だと述べた。

ニューヨーク大学の認知コンピューティング科学者ブレンデン・レイク氏は、このようなベンチマークは、今日の機械学習システムの欠点を明らかにし、人間の知能の要素を引き出すのに役立つと述べている。

LLM をテストする最良の方法とこれらのテストの意味に関する研究も有用です。

ミッチェル氏は、医学や法律など現実世界のさまざまな分野にLLMを応用したいと考えていると述べました。彼らの能力の限界を理解することが重要です。

チューリングテストは死んだのか？

機械知能の最も有名なテストは、長い間チューリングテストでした。

チューリングテストは、コンピューターがまだ初期段階だった1950年に、イギリスの数学者でコンピューターの第一人者であるアラン・チューリングによって提案されました。

チューリングは「模倣ゲーム」と呼ぶ評価法を提案した。

このシナリオでは、「人間の審査員」がコンピューターと目に見えない人物と短いテキストベースの会話を交わします。

この人間はどれがコンピューターであるかを確実に検出できるでしょうか?チューリングは、これは「機械は考えることができるか？」という質問と同等の質問だと言いました。

ミッチェル氏は、チューリングがシナリオの詳細をあまり指定しなかったため、従うべき厳密な基準は存在しないと指摘している。

他の研究者は、GPT-4 や他の LLM は、少なくとも短い会話では多くの人を騙すことができるため、「チューリングテスト」に合格する可能性が高いと考えています。

5月に、AI21研究所の研究者らは、チューリングテストに基づいたオンラインゲームを150万人以上がプレイしたと報告した。

プレイヤーがボットを正しく識別できたのはわずか 60 パーセントで、偶然と大差ありませんでした。

しかし、このゲームでは、LLM に精通した研究者が勝つ可能性があります。 LLM は、AI システムの既知の弱点を悪用することで簡単に発見できます。

重要なのは、LLM を「快適ゾーン」から抜け出させることです。

Google のソフトウェアエンジニアである François Chollet 氏は、トレーニングデータで頻繁に見られるシナリオのバリエーションである LLM シナリオを示すことを提案しました。多くの場合、LLM は、新しいシナリオの正しい答えではなく、トレーニングデータ内の元の質問に最も関連していると思われる単語を吐き出して応答しました。

しかし、Chollet 氏らは、欺瞞中心のテストがコンピューターサイエンスの目標であるかどうかについては懐疑的です。

ベンチマークは危険

代わりに、研究者は通常、チューリングテストではなく、言語、常識的推論、数学などの特定の能力のパフォーマンスを評価するために設計されたベンチマークを使用して AI システムを評価します。

人間向けに設計された学術試験や専門試験に注目する研究チームも増えています。

GPT-4 がリリースされたとき、OpenAI は読解力、数学、コーディングなど、機械向けに設計された一連のベンチマークでそのパフォーマンスをテストしました。

技術レポートによると、GPT-4 はこれらのテストのほとんどで優れた結果を達成しました。

さらに、GPT-4は、アメリカの医師の臨床知識の現状を評価する試験であるGREや、アメリカの高校生向けに設計されたさまざまな科目別の試験など、30のテストにも参加しました。

研究者らが後に言及した課題の 1 つは、モデルが大量のテキストでトレーニングされており、トレーニングデータで同様の質問を見たことがある可能性があるため、実際には答えを探している可能性があるということです。この質問は実際には「汚染」されています。

研究者らはまた、法学修士課程の学生が試験問題で成功するかどうかは当たり外れがあり、実社会で必要とされる高い能力につながらない可能性もあると指摘している。

これらのベンチマークが何を意味するのかを解釈するとなると、より深刻な問題が存在します。

このテストで良い成績を収めた人は、一般的に他の認知テストでも良い成績を収め、特定の抽象的な概念を習得していると想定できます。

しかし、LLM の動作は人間とはまったく異なります。したがって、人間を判断するのと同じ方法を使用して AI システムを推論することは、必ずしも効果的ではありません。

これは、LLM では言語からしか学習できないためであると考えられます。物理的な世界にいなければ、人間と同じように、物体、特性、感情に関連する言語を体験することはできません。

彼らが人間とは違った方法で言葉を理解していることは明らかです。

一方、LLM には人間にはない能力もあり、たとえば、人間が書いたほぼすべての単語間のつながりを知っています。

OpenAIの研究者であるニック・ライダー氏は、テストの成績は、同じスコアを取った人々の間では普遍的ではない可能性があることに同意している。

「人間と大規模言語モデルの評価から同等性の結論を導き出すべきではないと思う」と彼は語った。 OpenAIのスコアは「人間の能力や推論力を表すものではない。モデルがそのタスクでどれだけ優れたパフォーマンスを発揮したかを示すことを意図している」。

AI研究者は、LLMの長所と短所を特定するには、より広範かつ厳密な精査が必要だと述べている。カラフルな論理パズルも候補の一つかもしれません。

論理パズルが現実に

2019年、LLMが普及する前、ショレット氏は自身が作成した「抽象化および推論コーパス（ARC）」と呼ばれるAIシステム用の新しい論理テストをオンラインに投稿した。

解答者は、いくつかの正方形が別のパターンに変化する視覚的なデモンストレーションを見て、次の正方形がどのように変化するかを示すことで、変化の基本的なルールを習得していることを示します。

ARCは「人間の知能の特徴」を捉えたとショレ氏は語った。日常的な知識を抽象化し、それをこれまでに見たことのない問題に適用する能力。

これまでにいくつかの研究チームが ARC を使用して LLM の機能をテストしてきましたが、人間に近いパフォーマンスを達成したチームはありません。

ミッチェル氏とその同僚は、ARC にヒントを得たが 2 つの重要な点で異なる、ConceptARC と呼ばれる新しいパズルシリーズを作成しました。

ConceptARC テストは簡単です。ミッチェル氏のチームは、ベンチマークでマシンの能力の小さな進歩さえも見逃さないようにしたいと考えています。もう 1 つの違いは、チームがテストする特定の概念を選択し、各テーマのバリエーションとして一連のパズルを作成することです。

パフォーマンスが低いとはどういう意味ですか?

研究者らは、GPT-4と400人のオンライン応募者にConceptARCタスクを割り当てた。

人間はすべての概念グループで平均 91% のスコアを獲得しました (1 つのグループでは 97%)。GPT は 1 つのグループで 33% のスコアを獲得し、他のすべてのグループでは 30% 未満のスコアを獲得しました。

研究者たちは、AI がまだ人間のパフォーマンスに近づくことができないことを証明しました。しかし驚くべきことに、これまで訓練されたことのない問題も解決できるのです。

研究チームは、Chollet コンテストでトップのチャットボットもテストしました。

全体的に、GPT-4 よりは優れていましたが、人間よりは劣っており、1 つのカテゴリでは 77% という最高スコアを獲得しましたが、ほとんどのカテゴリでは 60% 未満でした。

しかし、ボウマン氏は、GPT-4がConceptARCテストに失敗したからといって、GPT-4が基本的な抽象的推論能力を欠いているということが証明されるわけではないと述べた。

実際、ConceptARC には GPT-4 に対していくつかの欠点があり、その理由の 1 つはそれが視力テストであることです。

現在、GPT-4 は入力としてテキストのみを受け入れることができるため、研究者は画像を表す数値の配列を GPT-4 に入力しました。対照的に、人間の参加者は画像を見ました。

演繹的推論

ボウマン氏は、他の実験と合わせて考えると、LLM は少なくとも抽象的な概念について推論する基本的な能力を獲得していることを示唆していると指摘しています。

しかし、LLM の推論能力は一般に「不均一」であり、人間の推論能力よりも限られています。ただし、LLM のパラメータサイズが増加すると、推論能力もそれに応じて増加します。

多くの研究者は、LLM の抽象的推論能力やその他の知能の兆候をテストする最良の方法は、未解決の問題として残っていることに同意しています。

<<:

>>: ルカン氏は再び冷や水を浴びせる: 本を読むことしかできない言語モデルが「人間のような知性」を達成することは決してないだろう

ブログ

2022年の中国人工知能産業の発展状況と市場規模の分析市場規模は3000億元を超える

チューリングテストは死んだ！ ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

AI評価はどれくらい効果的ですか?

チューリングテストは死んだのか？

ベンチマークは危険

論理パズルが現実に

2022年の中国人工知能産業の発展状況と市場規模の分析市場規模は3000億元を超える

2019 年の機械学習に関するトップ 10 の Q&A: 面接で知っておくべきこと

人工知能に関するこの記事を読むことで、90%の人を超えることができる

TensorFlow 2.0はリリースから2か月が経過したが、使いにくいと批判されている。ネットユーザー：PyTorchを見てみよう

機械学習の仕組み

推薦する

ChatGPT がまたトラブルに巻き込まれました! OpenAI が初の AI 名誉毀損訴訟に直面!

Python ベースのパーセプトロン分類アルゴリズムの実践

教育ロボットとベテラン教師の戦い：学習の効率を高めるのはどちらでしょうか?

米国はドローンに「ナンバープレート」を発行する

マジックGPTは、1秒あたり1クロスの速度でオンライン記事を自動的に書き込み、宦官の作品に無制限の更新を提供することもできます。

2023 年のエンタープライズ AI の現状: AI は仕事にどのような影響を与えるでしょうか?

たった5秒でNeRFをトレーニング？！ Nvidia の新技術は Google の研究者の手に負えない | オープンソース

DeepMind の最新研究: AI が人間に勝ち、より優れた経済メカニズムを設計 | Nature サブジャーナル

ドローン技術の飛躍的進歩とアプリケーションの革新が2017年に新たな時代を告げるかもしれない

GPT-4 の出力がなぜそれほどランダムなのか、深く考えたことはありますか?

英国はAI大規模モデルの分野で利用するためのスーパーコンピュータの開発に2億2500万ポンドを投資する予定

脳コンピューターインターフェースにおける重要な進歩！国内チームが「フルスペクトル中国語解読」に成功：トップ3の正解率は100％に迫る

MITは超伝導体を使用して、人間の脳に近いエネルギー効率を持つ極めて低電力のニューロンを作成します。