チューリングテストは死んだ! ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

チューリングテストは死んだ! ChatGPTは人間テストに合格してもカウントされない、スーパーAIが新参者「ロジックパズル」を評価

世界で最も強力な AI - ChatGPT は、さまざまなテストに合格し、真偽を区別するのが難しい回答を出力することさえできます。

しかし、単純なビジュアルロジックパズルを解く機能が欠けています。

画面上に並べられた一連の明るい色のブロックで構成されるテストでは、ほとんどの人が接続パターンを見つけることができます。

しかし、5月に研究者が発表した報告書によると、GPT-4は、ある種類のパターンでは約3分の1しか正しく認識できず、別の種類のパターンではわずか3パーセントしか正しく認識できなかったという。

論文アドレス: https://arxiv.org/pdf/2305.07141.pdf

この研究の背後にあるチームは、AI システムの機能をテストするためのより優れたベンチマークを提供し、GPT-4 のような大規模な言語モデルによる困難な問題の解決を支援することを目指しています。

論文の著者であるメラニー・ミッチェル氏は、人工知能分野の人々はこれらのシステムをどのように評価するかに苦慮していると述べた。

AI評価はどれくらい効果的ですか?

過去 2 ~ 3 年で、LLM はさまざまなタスクを完了する能力において以前の AI システムを上回りました。

これらは、数十億のオンライン文章内の単語間の統計的相関に基づいて、入力テキストに対して妥当な次の単語を生成するという単純な仕組みで機能します。

LLM 上に構築されたチャットボットには、追加の要素があります。人間のトレーナーがボットの応答を微調整するために多くのフィードバックを提供します。

驚くべきことに、このオートコンプリートのようなアルゴリズムは、膨大な人間の言語データに基づいてトレーニングされており、その機能の幅広さは息を呑むほどです。

他の AI システムは、あるタスクでは LLM に勝てるかもしれませんが、特定の問題に関連するデータでトレーニングする必要があり、あるタスクから別のタスクに一般化することはできません。

ハーバード大学の認知科学者トマー・ウルマン氏は、大まかに言えば、2つの陣営の研究者は法学修士課程の舞台裏で何が起こっているかについて相反する見解を持っていると語る。アルゴリズムの成果は、瞬時の推論や理解によるものだと考える人もいる。彼自身やミッチェルを含む他の人々は、はるかに慎重だった。

議論に参加した双方の研究者は、人間とAIシステムの能力の違いを明らかにする論理パズルのようなテストは正しい方向への一歩だと述べた。

ニューヨーク大学の認知コンピューティング科学者ブレンデン・レイク氏は、このようなベンチマークは、今日の機械学習システムの欠点を明らかにし、人間の知能の要素を引き出すのに役立つと述べている。

LLM をテストする最良の方法とこれらのテストの意味に関する研究も有用です。

ミッチェル氏は、医学や法律など現実世界のさまざまな分野にLLMを応用したいと考えていると述べました。彼らの能力の限界を理解することが重要です。

チューリングテストは死んだのか?

機械知能の最も有名なテストは、長い間チューリングテストでした。

チューリングテストは、コンピューターがまだ初期段階だった1950年に、イギリスの数学者でコンピューターの第一人者であるアラン・チューリングによって提案されました。

チューリングは「模倣ゲーム」と呼ぶ評価法を提案した。

このシナリオでは、「人間の審査員」がコンピューターと目に見えない人物と短いテキストベースの会話を交わします。

この人間はどれがコンピューターであるかを確実に検出できるでしょうか?チューリングは、これは「機械は考えることができるか?」という質問と同等の質問だと言いました。

ミッチェル氏は、チューリングがシナリオの詳細をあまり指定しなかったため、従うべき厳密な基準は存在しないと指摘している。

他の研究者は、GPT-4 や他の LLM は、少なくとも短い会話では多くの人を騙すことができるため、「チューリング テスト」に合格する可能性が高いと考えています。

5月に、AI21研究所の研究者らは、チューリングテストに基づいたオンラインゲームを150万人以上がプレイしたと報告した。

プレイヤーがボットを正しく識別できたのはわずか 60 パーセントで、偶然と大差ありませんでした。

しかし、このゲームでは、LLM に精通した研究者が勝つ可能性があります。 LLM は、AI システムの既知の弱点を悪用することで簡単に発見できます。

重要なのは、LLM を「快適ゾーン」から抜け出させることです。

Google のソフトウェア エンジニアである François Chollet 氏は、トレーニング データで頻繁に見られるシナリオのバリエーションである LLM シナリオを示すことを提案しました。多くの場合、LLM は、新しいシナリオの正しい答えではなく、トレーニング データ内の元の質問に最も関連していると思われる単語を吐き出して応答しました。

しかし、Chollet 氏らは、欺瞞中心のテストがコンピューター サイエンスの目標であるかどうかについては懐疑的です。

ベンチマークは危険

代わりに、研究者は通常、チューリングテストではなく、言語、常識的推論、数学などの特定の能力のパフォーマンスを評価するために設計されたベンチマークを使用して AI システムを評価します。

人間向けに設計された学術試験や専門試験に注目する研究チームも増えています。

GPT-4 がリリースされたとき、OpenAI は読解力、数学、コーディングなど、機械向けに設計された一連のベンチマークでそのパフォーマンスをテストしました。

技術レポートによると、GPT-4 はこれらのテストのほとんどで優れた結果を達成しました。

さらに、GPT-4は、アメリカの医師の臨床知識の現状を評価する試験であるGREや、アメリカの高校生向けに設計されたさまざまな科目別の試験など、30のテストにも参加しました。

研究者らが後に言及した課題の 1 つは、モデルが大量のテキストでトレーニングされており、トレーニング データで同様の質問を見たことがある可能性があるため、実際には答えを探している可能性があるということです。この質問は実際には「汚染」されています。

研究者らはまた、法学修士課程の学生が試験問題で成功するかどうかは当たり外れがあり、実社会で必要とされる高い能力につながらない可能性もあると指摘している。

これらのベンチマークが何を意味するのかを解釈するとなると、より深刻な問題が存在します。

このテストで良い成績を収めた人は、一般的に他の認知テストでも良い成績を収め、特定の抽象的な概念を習得していると想定できます。

しかし、LLM の動作は人間とはまったく異なります。したがって、人間を判断するのと同じ方法を使用して AI システムを推論することは、必ずしも効果的ではありません。

これは、LLM では言語からしか学習できないためであると考えられます。物理的な世界にいなければ、人間と同じように、物体、特性、感情に関連する言語を体験することはできません。

彼らが人間とは違った方法で言葉を理解していることは明らかです。

一方、LLM には人間にはない能力もあり、たとえば、人間が書いたほぼすべての単語間のつながりを知っています。

OpenAIの研究者であるニック・ライダー氏は、テストの成績は、同じスコアを取った人々の間では普遍的ではない可能性があることに同意している。

「人間と大規模言語モデルの評価から同等性の結論を導き出すべきではないと思う」と彼は語った。 OpenAIのスコアは「人間の能力や推論力を表すものではない。モデルがそのタスクでどれだけ優れたパフォーマンスを発揮したかを示すことを意図している」。

AI研究者は、LLMの長所と短所を特定するには、より広範かつ厳密な精査が必要だと述べている。カラフルな論理パズルも候補の一つかもしれません。

論理パズルが現実に

2019年、LLMが普及する前、ショレット氏は自身が作成した「抽象化および推論コーパス(ARC)」と呼ばれるAIシステム用の新しい論理テストをオンラインに投稿した。

解答者は、いくつかの正方形が別のパターンに変化する視覚的なデモンストレーションを見て、次の正方形がどのように変化するかを示すことで、変化の基本的なルールを習得していることを示します。

ARCは「人間の知能の特徴」を捉えたとショレ氏は語った。日常的な知識を抽象化し、それをこれまでに見たことのない問題に適用する能力。

これまでにいくつかの研究チームが ARC を使用して LLM の機能をテストしてきましたが、人間に近いパフォーマンスを達成したチームはありません。

ミッチェル氏とその同僚は、ARC にヒントを得たが 2 つの重要な点で異なる、ConceptARC と呼ばれる新しいパズル シリーズを作成しました。

ConceptARC テストは簡単です。ミッチェル氏のチームは、ベンチマークでマシンの能力の小さな進歩さえも見逃さないようにしたいと考えています。もう 1 つの違いは、チームがテストする特定の概念を選択し、各テーマのバリエーションとして一連のパズルを作成することです。

パフォーマンスが低いとはどういう意味ですか?

研究者らは、GPT-4と400人のオンライン応募者にConceptARCタスクを割り当てた。

人間はすべての概念グループで平均 91% のスコアを獲得しました (1 つのグループでは 97%)。GPT は 1 つのグループで 33% のスコアを獲得し、他のすべてのグループでは 30% 未満のスコアを獲得しました。

研究者たちは、AI がまだ人間のパフォーマンスに近づくことができないことを証明しました。しかし驚くべきことに、これまで訓練されたことのない問題も解決できるのです。

研究チームは、Chollet コンテストでトップのチャットボットもテストしました。

全体的に、GPT-4 よりは優れていましたが、人間よりは劣っており、1 つのカテゴリでは 77% という最高スコアを獲得しましたが、ほとんどのカテゴリでは 60% 未満でした。

しかし、ボウマン氏は、GPT-4がConceptARCテストに失敗したからといって、GPT-4が基本的な抽象的推論能力を欠いているということが証明されるわけではないと述べた。

実際、ConceptARC には GPT-4 に対していくつかの欠点があり、その理由の 1 つはそれが視力テストであることです。

現在、GPT-4 は入力としてテキストのみを受け入れることができるため、研究者は画像を表す数値の配列を GPT-4 に入力しました。対照的に、人間の参加者は画像を見ました。

演繹的推論

ボウマン氏は、他の実験と合わせて考えると、LLM は少なくとも抽象的な概念について推論する基本的な能力を獲得していることを示唆していると指摘しています。

しかし、LLM の推論能力は一般に「不均一」であり、人間の推論能力よりも限られています。ただし、LLM のパラメータ サイズが増加すると、推論能力もそれに応じて増加します。

多くの研究者は、LLM の抽象的推論能力やその他の知能の兆候をテストする最良の方法は、未解決の問題として残っていることに同意しています。

<<: 

>>:  ルカン氏は再び冷や水を浴びせる: 本を読むことしかできない言語モデルが「人間のような知性」を達成することは決してないだろう

ブログ    

推薦する

AI の力: Docker による機械学習アプリケーションの導入とスケーラビリティの簡素化

翻訳者 |李睿レビュー | Chonglou近年、機械学習の応用が爆発的に増加しており、堅牢でスケー...

学生の未来を照らすSquirrel AIは、すべての子供にAIスーパー教師を授けます

[51CTO.com からのオリジナル記事] 人工知能技術のさらなる進歩により、教師が本来行わなけれ...

人工知能 (AI) は、研究室から実際のアプリケーションまでどのように異なるのでしょうか?

人工知能が実際の応用に入ると、遭遇する問題のほとんどは複雑になります。 しかし、現段階では、人工知能...

...

2018 年の画期的なテクノロジー トップ 10: AI と知覚都市

2017年、MITテクノロジーレビューは、強化学習、自動運転トラック、360度セルフィー、顔認証決済...

PyTorch の 4 分間のチュートリアルで線形回帰の実行方法を学びます

[[271978]]ビッグデータダイジェスト制作編纂者:洪英飛、寧静PyTorch は、ディープラー...

音声認識システムが裁判にかけられる

舒城県裁判所杭埠法廷は最近、建設工事契約紛争事件の審理に法廷音声認識システムを使用した。これは、杭埠...

人工知能は改めてすごいですね!科学者は偶然、死者を「蘇らせる」ことができることを発見した

マイクロソフトは現在、チャットボットを開発中との報道もある。将来的に実用化に成功すれば、デジタル技術...

オフライン認識率が最大99%のオープンソースPython顔認識システム〜

これまでの顔認識には、主に顔画像の取得、顔認識の前処理、本人確認、本人検索などの技術やシステムが含ま...

人工知能産業は活況を呈しているが、スタートアップ企業は資金調達が難しくなっている

12月13日、人工知能(AI)スタートアップ企業へのベンチャーキャピタルの収益が鈍化している可能性が...

0パラメータ+0トレーニング、3D点群解析手法Point-NNは複数のSOTAを更新します

論文リンク: https://arxiv.org/pdf/2303.08134.pdfコードアドレス...

人工知能がサイバーセキュリティに及ぼす3つの影響

人工知能 (AI) と機械学習 (ML) は、人々の働き方、話し方、ビジネスのやり方を根本的に変えて...

...

中国のAIハイテクが2018CESを制覇、Zhuner翻訳機が世界の家電「オスカー」を驚かせる

2018 CES(国際コンシューマー・エレクトロニクス・ショー)が1月9日から12日まで米国ラスベガ...