チューリングテストは死んだ! ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

チューリングテストは死んだ! ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

世界で最も強力な AI - ChatGPT は、さまざまなテストに合格し、真偽を区別するのが難しい回答を出力することさえできます。

しかし、単純なビジュアルロジックパズルを解く機能が欠けています。

画面上に並べられた一連の明るい色のブロックで構成されるテストでは、ほとんどの人が接続パターンを見つけることができます。

しかし、5月に研究者が発表した報告書によると、GPT-4は、ある種類のパターンでは約3分の1しか正しく認識できず、別の種類のパターンではわずか3パーセントしか正しく認識できなかったという。

論文アドレス: https://arxiv.org/pdf/2305.07141.pdf

この研究の背後にあるチームは、AI システムの機能をテストするためのより優れたベンチマークを提供し、GPT-4 のような大規模な言語モデルによる困難な問題の解決を支援することを目指しています。

論文の著者であるメラニー・ミッチェル氏は、人工知能分野の人々はこれらのシステムをどのように評価するかに苦慮していると述べた。

AI評価はどれくらい効果的ですか?

過去 2 ~ 3 年で、LLM はさまざまなタスクを完了する能力において以前の AI システムを上回りました。

これらは、数十億のオンライン文章内の単語間の統計的相関に基づいて、入力テキストに対して妥当な次の単語を生成するという単純な仕組みで機能します。

LLM 上に構築されたチャットボットには、追加の要素があります。人間のトレーナーがボットの応答を微調整するために多くのフィードバックを提供します。

驚くべきことに、このオートコンプリートのようなアルゴリズムは、膨大な人間の言語データに基づいてトレーニングされており、その機能の幅広さは息を呑むほどです。

他の AI システムは、あるタスクでは LLM に勝てるかもしれませんが、特定の問題に関連するデータでトレーニングする必要があり、あるタスクから別のタスクに一般化することはできません。

ハーバード大学の認知科学者トマー・ウルマン氏は、大まかに言えば、2つの陣営の研究者は法学修士課程の舞台裏で何が起こっているかについて相反する見解を持っていると語る。アルゴリズムの成果は、瞬時の推論や理解によるものだと考える人もいる。彼自身やミッチェルを含む他の人々は、はるかに慎重だった。

議論に参加した双方の研究者は、人間とAIシステムの能力の違いを明らかにする論理パズルのようなテストは正しい方向への一歩だと述べた。

ニューヨーク大学の認知コンピューティング科学者ブレンデン・レイク氏は、このようなベンチマークは、今日の機械学習システムの欠点を明らかにし、人間の知能の要素を引き出すのに役立つと述べている。

LLM をテストする最良の方法とこれらのテストの意味に関する研究も有用です。

ミッチェル氏は、医学や法律など現実世界のさまざまな分野にLLMを応用したいと考えていると述べました。彼らの能力の限界を理解することが重要です。

チューリングテストは死んだのか?

機械知能の最も有名なテストは、長い間チューリングテストでした。

チューリングテストは、コンピューターがまだ初期段階だった1950年に、イギリスの数学者でコンピューターの第一人者であるアラン・チューリングによって提案されました。

チューリングは「模倣ゲーム」と呼ぶ評価法を提案した。

このシナリオでは、「人間の審査員」がコンピューターと目に見えない人物と短いテキストベースの会話を交わします。

この人間はどれがコンピューターであるかを確実に検出できるでしょうか?チューリングは、これは「機械は考えることができるか?」という質問と同等の質問だと言いました。

ミッチェル氏は、チューリングがシナリオの詳細をあまり指定しなかったため、従うべき厳密な基準は存在しないと指摘している。

他の研究者は、GPT-4 や他の LLM は、少なくとも短い会話では多くの人を騙すことができるため、「チューリング テスト」に合格する可能性が高いと考えています。

5月に、AI21研究所の研究者らは、チューリングテストに基づいたオンラインゲームを150万人以上がプレイしたと報告した。

プレイヤーがボットを正しく識別できたのはわずか 60 パーセントで、偶然と大差ありませんでした。

しかし、このゲームでは、LLM に精通した研究者が勝つ可能性があります。 LLM は、AI システムの既知の弱点を悪用することで簡単に発見できます。

重要なのは、LLM を「快適ゾーン」から抜け出させることです。

Google のソフトウェア エンジニアである François Chollet 氏は、トレーニング データで頻繁に見られるシナリオのバリエーションである LLM シナリオを示すことを提案しました。多くの場合、LLM は、新しいシナリオの正しい答えではなく、トレーニング データ内の元の質問に最も関連していると思われる単語を吐き出して応答しました。

しかし、Chollet 氏らは、欺瞞中心のテストがコンピューター サイエンスの目標であるかどうかについては懐疑的です。

ベンチマークは危険

代わりに、研究者は通常、チューリングテストではなく、言語、常識的推論、数学などの特定の能力のパフォーマンスを評価するために設計されたベンチマークを使用して AI システムを評価します。

人間向けに設計された学術試験や専門試験に注目する研究チームも増えています。

GPT-4 がリリースされたとき、OpenAI は読解力、数学、コーディングなど、機械向けに設計された一連のベンチマークでそのパフォーマンスをテストしました。

技術レポートによると、GPT-4 はこれらのテストのほとんどで優れた結果を達成しました。

さらに、GPT-4は、アメリカの医師の臨床知識の現状を評価する試験であるGREや、アメリカの高校生向けに設計されたさまざまな科目別の試験など、30のテストにも参加しました。

研究者らが後に言及した課題の 1 つは、モデルが大量のテキストでトレーニングされており、トレーニング データで同様の質問を見たことがある可能性があるため、実際には答えを探している可能性があるということです。この質問は実際には「汚染」されています。

研究者らはまた、法学修士課程の学生が試験問題で成功するかどうかは当たり外れがあり、実社会で必要とされる高い能力につながらない可能性もあると指摘している。

これらのベンチマークが何を意味するのかを解釈するとなると、より深刻な問題が存在します。

このテストで良い成績を収めた人は、一般的に他の認知テストでも良い成績を収め、特定の抽象的な概念を習得していると想定できます。

しかし、LLM の動作は人間とはまったく異なります。したがって、人間を判断するのと同じ方法を使用して AI システムを推論することは、必ずしも効果的ではありません。

これは、LLM では言語からしか学習できないためであると考えられます。物理的な世界にいなければ、人間と同じように、物体、特性、感情に関連する言語を体験することはできません。

彼らが人間とは違った方法で言葉を理解していることは明らかです。

一方、LLM には人間にはない能力もあり、たとえば、人間が書いたほぼすべての単語間のつながりを知っています。

OpenAIの研究者であるニック・ライダー氏は、テストの成績は、同じスコアを取った人々の間では普遍的ではない可能性があることに同意している。

「人間と大規模言語モデルの評価から同等性の結論を導き出すべきではないと思う」と彼は語った。 OpenAIのスコアは「人間の能力や推論力を表すものではない。モデルがそのタスクでどれだけ優れたパフォーマンスを発揮したかを示すことを意図している」。

AI研究者は、LLMの長所と短所を特定するには、より広範かつ厳密な精査が必要だと述べている。カラフルな論理パズルも候補の一つかもしれません。

論理パズルが現実に

2019年、LLMが普及する前、ショレット氏は自身が作成した「抽象化および推論コーパス(ARC)」と呼ばれるAIシステム用の新しい論理テストをオンラインに投稿した。

解答者は、いくつかの正方形が別のパターンに変化する視覚的なデモンストレーションを見て、次の正方形がどのように変化するかを示すことで、変化の基本的なルールを習得していることを示します。

ARCは「人間の知能の特徴」を捉えたとショレ氏は語った。日常的な知識を抽象化し、それをこれまでに見たことのない問題に適用する能力。

これまでにいくつかの研究チームが ARC を使用して LLM の機能をテストしてきましたが、人間に近いパフォーマンスを達成したチームはありません。

ミッチェル氏とその同僚は、ARC にヒントを得たが 2 つの重要な点で異なる、ConceptARC と呼ばれる新しいパズル シリーズを作成しました。

ConceptARC テストは簡単です。ミッチェル氏のチームは、ベンチマークでマシンの能力の小さな進歩さえも見逃さないようにしたいと考えています。もう 1 つの違いは、チームがテストする特定の概念を選択し、各テーマのバリエーションとして一連のパズルを作成することです。

パフォーマンスが低いとはどういう意味ですか?

研究者らは、GPT-4と400人のオンライン応募者にConceptARCタスクを割り当てた。

人間はすべての概念グループで平均 91% のスコアを獲得しました (1 つのグループでは 97%)。GPT は 1 つのグループで 33% のスコアを獲得し、他のすべてのグループでは 30% 未満のスコアを獲得しました。

研究者たちは、AI がまだ人間のパフォーマンスに近づくことができないことを証明しました。しかし驚くべきことに、これまで訓練されたことのない問題も解決できるのです。

研究チームは、Chollet コンテストでトップのチャットボットもテストしました。

全体的に、GPT-4 よりは優れていましたが、人間よりは劣っており、1 つのカテゴリでは 77% という最高スコアを獲得しましたが、ほとんどのカテゴリでは 60% 未満でした。

しかし、ボウマン氏は、GPT-4がConceptARCテストに失敗したからといって、GPT-4が基本的な抽象的推論能力を欠いているということが証明されるわけではないと述べた。

実際、ConceptARC には GPT-4 に対していくつかの欠点があり、その理由の 1 つはそれが視力テストであることです。

現在、GPT-4 は入力としてテキストのみを受け入れることができるため、研究者は画像を表す数値の配列を GPT-4 に入力しました。対照的に、人間の参加者は画像を見ました。

演繹的推論

ボウマン氏は、他の実験と合わせて考えると、LLM は少なくとも抽象的な概念について推論する基本的な能力を獲得していることを示唆していると指摘しています。

しかし、LLM の推論能力は一般に「不均一」であり、人間の推論能力よりも限られています。ただし、LLM のパラメータ サイズが増加すると、推論能力もそれに応じて増加します。

多くの研究者は、LLM の抽象的推論能力やその他の知能の兆候をテストする最良の方法は、未解決の問題として残っていることに同意しています。

<<: 

>>:  ルカン氏は再び冷や水を浴びせる: 本を読むことしかできない言語モデルが「人間のような知性」を達成することは決してないだろう

ブログ    
ブログ    
ブログ    
ブログ    

推薦する

トランスワープテクノロジーの孫元浩氏が「中国の人工知能起業家30人」の一人に選出

2020 年は特別な年であり、World Innovators Meet (WIM) の 6 年目と...

...

通信事業者のRPAロボット活用事例紹介

国際・国内電話サービス、インターネット事業、通信ネットワーク資源・設備サービスなどを主力事業とする米...

2021年に予測される6つのテクノロジートレンド

2020年、COVID-19パンデミックは世界各国の経済に壊滅的な影響を及ぼし、業界を問わずビジネス...

あなたの写真を「秘密裏に」使用した顔認識システムはいくつありますか?ツールを使って確認する時が来た

テクノロジー企業が「個人のプライバシーを侵害する」顔認識システムを開発する際、彼らはあなたが予想して...

Java プログラミング スキル - データ構造とアルゴリズム「バランス バイナリ ツリー」

[[390860]]バイナリソートツリーで起こりうる問題シーケンス {1,2,3,4,5,6} が...

Google 検索と競合する FRESHLLM は、より少ない幻想とより正確な情報で「最新の出来事」を把握しています。

BARD や CHATGPT/GPT-4 などの大規模言語モデルの機能は誰の目にも明らかです。これ...

Golang と OpenCV ライブラリ: 顔認識を実装するには?

Go 言語で顔認識を実装するには、通常、OpenCV ライブラリを使用する必要があります。 Go ...

マイクロソフトは2022年にリモートワーカー向けに3Dワークスペースを提供する予定

Microsoft は、仮想会議用に Mesh for Teams と呼ばれる没入型 3D プラット...

GPT-4: 私が書いたコードを使ってみますか?調査によると、APIの不正使用率は62%を超えている。

言語モデリングの新しい時代が到来し、大規模言語モデル (LLM) は自然言語を理解するだけでなく、ユ...

DeepMind の新しいモデルは CAD スケッチを自動的に生成します。ネットユーザー: 建築設計が飛躍しそうです

[[399928]]製造業ではCADが広く使われています。 CAD は、その正確性、柔軟性、高速性に...

AI列車に乗ってみよう!マーケティングに人工知能を活用する3つの方法

この記事は、公開アカウント「Reading the Core」(ID: AI_Discovery)か...

展望: 2023 年のディープラーニングとメタバースの未来

ディープラーニング (DL) は、再帰型ニューラル ネットワーク、長期短期記憶、畳み込みニューラル ...

次世代の顔認識技術とは何でしょうか?ここを見て

アクセス制御業界における顔認識の需要の高まりに応えて、このコンセプトをより高い技術レベルで拡張する新...

...