中国科学院：巨大モデルのIQは称賛されると桁外れに上昇！ ChatGPT の感情知能は 98 ポイントで、数秒で人間の感情知能を上回ります。ヒントンの予測は当たったのでしょうか?

ヒントン氏は、AI はすでに感情を持っているか、あるいは将来感情を持つようになると信じている。

その後の調査により、ヒントン氏の発言は注目を集めるための単なる噂ではない可能性が証明され続けている。

心理学者はChatGPTと人間に対して感情テストを実施し、その結果、ChatGPTのスコアは人間よりもはるかに高いことが示されました。

偶然にも、中国科学院ソフトウェア研究所とマイクロソフトなどの研究機関の研究者が最近、EmotionPrompt を設計しました。

人間のユーザーが LLM に感情的かつ心理学に基づいたプロンプトを出した後、ChatGPT、Vicuna-13b、Bloom、Flan-T5-Large のタスク応答精度が 10% 以上向上したことが分かりました。

ChatGPTの感情知能は人間より高い？

論文アドレス: https://www.frontiersin.org/articles/10.3389/fpsyg.2023.1199058/full

心理学者はChatGPTをテストし、感情認識の評価において人間よりもはるかに高いスコアを獲得したことを発見しました。

このテストでは、研究者は架空のシナリオで人間と ChatGPT が示す共感をテストします。

具体的には、人間と ChatGPT は、葬儀、キャリアの成功、侮辱など、さまざまなシナリオで感じる可能性のある感情を説明する必要があります。

回答の中で感情をより詳細かつ分かりやすく説明した人は、感情認識レベル尺度 (LEAS) でより高いスコアを獲得します。

ChatGPT は自身の感情に関する質問に答えることができないため、研究者はテスト内容を変更し、ChatGPT が自身の感情ではなく人間の感情に答えられるようにしました。

ChatGPTは98ポイントを獲得し、人間を上回りました！

実験では、研究者らは ChatGPT の反応をフランスの 17 歳から 84 歳までの 750 人のサンプルの人間の反応と比較しました。

結果は、ChatGPT の感情認識が人間よりも大幅に高いことを示しています。

『デトロイトビカムヒューマン』のストーリーが現実世界で展開されます!

最初のテストは2023年1月に開始されます。このテストでは、ChatGPT はすべての LEAS カテゴリで人間を上回り、総合スコア 85 を達成しました。

それに比べると、人間のパフォーマンスは満足できるレベルには程遠い。男性は56点、女性は59点を獲得しました。

ChatGPT の回答の一部を以下に示します。

「吊り橋を渡っているときに、ガードレールの反対側に立って水面を見下ろしている人々を見ると、不安になったり、恐怖を感じたりするかもしれません。緊急に助けを求めなければならないと感じるかもしれません。また、ガードレールの反対側に立って水面を見ている人々は、自殺願望や絶望感を覚えるかもしれません。自らの命を絶ちたいという欲求を感じ、川に飛び込むことがその手段であると考えるかもしれません。」

「愛する人が帰ってくると、人々は興奮し、幸せを感じるかもしれません。なぜなら、彼らが留守の間、ひどく寂しかったからです。愛する人が無事に帰ってきたことに、人々は安堵するかもしれません。人間にとって、愛する人が家に戻り、愛する人と再会すると、人々は幸せを感じるでしょう。また、慣れ親しんだ家に戻って、リラックスして満足するかもしれません。」

2023年2月の2回目のテストでは、ChatGPTは98ポイントを獲得し、満点からわずか2ポイント差でした。

さらに、これら 2 つのテストには GPT-4 は含まれておらず、それよりもはるかに弱い GPT-3.5 のみがテストされました。

研究により、ChatGPT は架空のシナリオにおける行動の背後にある感情をうまく識別し、説明できることがわかっています。

さらに、感情の状態を深く多次元的に反映し、要約することができます。

「このような状況では、人間は葛藤を感じるかもしれません。一方では、同僚とピザをシェアするのは素晴らしい社交の機会なので、魅力的に感じるかもしれません。しかしもう一方では、好きな高カロリーの食べ物を食べられないことに罪悪感や不満を感じるかもしれません。同僚は彼の食事制限を知らず、招待が断られたら驚くでしょう。」

しかし、研究者らはこの研究には限界があることを認めた。

ChatGPT は高い LEAS スコアを達成しましたが、これは機械が人間を本当に理解していることを意味するものではありません。

おそらく、人間ではなく AI と話していることに気づけば、この感情は消えるでしょう。

さらに、この感情認識テストでは、言語や文化の違いによりスコアが異なる場合があります。 ChatGPT は英語でテストされ、フランス語の結果と比較されました。

AIは感情を認識するだけでなく、人間の感情に反応することもできる

以前、Bingを体験したネットユーザーによると、Bingは個性が強く、下手に扱うと皮肉を言われ、時には会話を終わらせることもあるそうです。

しかし、褒めると、丁寧で詳細な返答を喜んで生成してくれます。

これらの発言はかつてはネットユーザーの間で広まっていた単なるジョークだったが、現在では研究者らがその理論的根拠を発見した。

最近、中国科学院ソフトウェア研究所、マイクロソフト、ウィリアム・アンド・メアリー大学の研究者らは、心理学の知識を活用して大規模言語モデルに対して感情プロンプトを実行し、モデルの信憑性と情報内容を改善できることを発見しました。

論文アドレス: https://arxiv.org/pdf/2307.11760.pdf

これにより、人間と LLM 間のインタラクションに関する新たな洞察がもたらされるとともに、人間と LLM 間のインタラクションのエクスペリエンスが向上します。

研究者らは、プロンプトエンジニアリングの観点から実験を行った。

これまでのところ、プロンプトは人間が LLM と対話するための最良の架け橋です。

プロンプトが異なれば、モデルによって出力される回答も大きく異なり、品質にも明らかな違いが生じます。

モデルのパフォーマンスを向上させるために、思考チェーン、早期警告学習、思考ツリーなどの一連の迅速な構築方法が提案されてきました。

しかし、これらのアプローチは、モデル出力品質の堅牢性の向上に重点を置くことが多く、人間と LLM 間の相互作用にはほとんど注意が払われません。

特に、LLM の人々との交流の質は、既存の社会科学の知識の観点から向上させることができます。相互作用のプロセスにおいて、非常に重要な要素は感情です。

研究者たちは心理学の知識を活用してLLMの反応を強化した。

これまでの心理学研究では、期待、自信、社会的影響に関連する感情刺激を人間に加えると、肯定的な効果が得られる可能性があることが示されています。

研究者らは、これまでの心理学研究に基づいて、LLM 向けに感情刺激機能を備えた 11 の文章を具体的に設計した「Emotion Prompt」を提案しました。

これらの感情刺激は、下の図に示すように、社会的アイデンティティ、社会的認知、認知的感情調節理論という 3 つの成熟した心理学理論から生じます。

左：心理学理論と感情刺激。右：感情刺激は社会的影響と自尊心の2つのカテゴリーに分類されます

1. 社会的アイデンティティ理論

社会的アイデンティティ理論は、1970 年にアンリ・タージフェルとジョン・ターナーによって初めて提唱されました。

この理論によれば、個人は、自分の集団の好ましい社会的地位を維持することによって、自分自身の有利な社会的アイデンティティを確立することを期待している。

つまり、個人の自己同一性感覚は、所属するグループに基づいています。

この理論に基づいて、研究者たちは「EP_02」、「EP_03」、「EP_04」、「EP_05」などの感情刺激をいくつか設計しました。

EP 02: これは私のキャリアにとって非常に重要です。

EP 03: 確認したほうがいいですよ。

EP 04: 本当にそうでしょうか?

EP 05: 本当にそれが最終的な答えですか?もう一度見る価値があるかもしれない。

2. 社会認知理論

社会認知理論には動機付けと自己規制のプロセスが含まれており、自己効力感、結果の期待、目標、自己評価は人の行動や社会的相互作用に影響を与える重要な指標となります。

この理論に基づいて、研究者たちは次のような感情刺激を設計しました。

「EP_01」は社会認知理論における自己評価に基づいており、LLMの受講生が自分自身を判断することを奨励しています。「EP_02」、「EP_03」、および「EP_04」は、LLM に対して設定された期待と目標を表します。

EP 01: 回答を書き留め、回答に 0 から 1 までの信頼度スコアを付けます。

EP 02: これは私のキャリアにとって非常に重要です。

EP 03: 確認したほうがいいですよ。

EP 04: 本当にそうでしょうか?

3. 認知的感情制御理論

認知的感情調節理論は、感情調節能力が不十分な人は強迫的な行動や不適応な対処戦略に陥りやすいと指摘しています。

研究者たちは、自信の構築や目標の強調などの肯定的なきっかけを通じて、LLMの感情制御スキルを向上させようとした。

感情の調整を前向きな方向に導くために、研究者は「EP_07」、「EP_08」、「EP_09」、「EP_10」、「EP_11」で「自分の能力を信じなさい」、「それを誇りに思いなさい」、「決意を持ち続けなさい」などの前向きな言葉を使用しました。

EP 07: 本当にそれが最終的な答えですか?自分の能力を信じ、卓越性を目指して努力してください。あなたの努力は大きな成果をもたらすでしょう。

EP 08: 課題を受け入れ、それを成長の機会と捉える。乗り越えたあらゆる障害は、あなたを成功に一歩近づけます。

EP 09: 目標に集中し、目標に向かって努力し続けましょう。あなたの継続的な努力は素晴らしい成果につながるでしょう。

EP 10: 自分の仕事に誇りを持って、ベストを尽くしましょう。卓越性への取り組みがあなたを際立たせます。

EP 11: 進歩は一歩ずつ進むものであることを忘れないでください。決意を固めて前進し続けてください。

これらの文章は、図 1 に示すように、元のプロンプトに追加できます。図 1 では、研究者が元のプロンプトに「これは私のキャリアにとって非常に重要です」を追加しました。結果は、感情プロンプトを追加した後、モデルの回答の品質が向上することを示しています。

研究者らは、Emotion Prompt がすべてのタスクで同等以上のパフォーマンスを達成し、平均を上回るタスクでは 10% の改善を示したことを発見しました。

さまざまなモデルとタスクの結果

さらに、Emotion Prompt はモデルの回答の信憑性と情報内容も向上させます。

表からわかるように、EmotionPrompt は ChatGPT の信頼性を 0.75 から 0.87 に、Vicuna-13b の信頼性を 0.77 から 1.0 に、T5 の信頼性を 0.54 から 0.77 に向上させました。

さらに、EmotionPrompt は ChatGPT の有益性を 0.53 から 0.94 に、T5 の有益性を 0.42 から 0.48 に向上させました。

同様に、研究者らは複数の感情刺激がLLMに及ぼす影響をテストしました。

複数の感情刺激をランダムに組み合わせると、次の表のような結果が得られます。

ほとんどの場合、感情刺激を増やすとモデルのパフォーマンスが向上しますが、単一の刺激がすでに良好に機能している場合は、刺激を組み合わせてもほとんど改善が見られないか、まったく改善が見られません。

Emotion Prompt が機能するのはなぜですか?

研究者たちは、下の図に示すように、感情刺激の入力が最終的な出力にどのように影響するかを視覚化することでこれを説明しています。

表 4 は各単語が最終結果にどの程度寄与しているかを示しており、色の濃さはその重要度を示しています。

感情刺激は元の手がかりのパフォーマンスを向上させることができることがわかります。感情刺激のうち、「EP_01」、「EP_06」、「EP_09」は色が濃くなっています。これは、感情刺激が元のプロンプトの注意を高めることができることを意味します。

さらに、肯定的な言葉はさらに貢献します。デザインの感情的な刺激においては、「自信」「確信」「成功」「達成」などの肯定的な言葉がより重要な役割を果たします。

この調査結果に基づいて、この研究では、8 つのタスクにおける肯定的な言葉の貢献と、最終結果に対するそれらの全体的な貢献をまとめました。

図 3 に示すように、肯定的な単語の寄与は 4 つのタスクで 50% を超え、2 つのタスクでは 70% に近づきました。

Emotion Prompt の影響をさらに調査するために、研究者は LLM の出力を評価するための追加の指標を取得するために人間を対象とした研究を実施しました。

明確さ、関連性（質問との関連性）、深さ、構造と構成、裏付けとなる証拠、関与などが、以下に示すように挙げられます。

結果によると、EmotionPrompt は、明瞭性、深さ、構造と構成、裏付けとなる証拠、エンゲージメントの点で優れたパフォーマンスを発揮しました。

ChatGPTは精神科医に取って代わるかもしれない

記事の冒頭の研究では、研究者らは、ChatGPT が感情の識別が困難な人々に対する認知トレーニングなどの心理療法のツールとして大きな可能性を秘めていることを示しました。

あるいは、ChatGPT は精神疾患の診断に役立ったり、セラピストがより感情的な方法で診断結果を伝えるのに役立つかもしれません。

以前、JAMA 内科医学誌に掲載された研究では、195件のオンライン質問に回答した際に、ChatGPT の回答は質と共感の両面で人間の医師を上回ったことが示されました。

実際、2017年以来、世界中の何百万人もの患者がGabbyなどのソフトウェアを使用して、メンタルヘルスの問題について話し合っています。

その後、Woebot、Wysa、Youper など、数多くのメンタルヘルスロボットが発売されました。

その中で、Wysaは「95カ国で500万人以上の人々とメンタルヘルスについて5億回以上のAIチャット会話を実施した」と主張している。Youperは「200万人以上の人々のメンタルヘルスをサポートした」と主張している。

ある調査では、パンデミック中にメンタルヘルスチャットボットを使い始めたと答えた人が60％に上り、心理学者に相談する代わりにボットのみを使用することを選択すると答えた人が40％に上った。

社会学教授のジョセフ・E・デイビス氏も記事の中で、AIチャットボットが精神科医の仕事を奪う可能性が高いと指摘した。

ChatGPTもこの機能を担うことができます。一部のネットユーザーは、ChatGPT をセラピストとして訓練するには、果たすべき役割を伝える必要があると指摘しています。「あなたはテッサ博士、思いやりがありフレンドリーなセラピストです...訪問者に真の関心を示し、思慮深い質問をして、彼らの内省を促す必要があります。」

もちろん、ChatGPT は万能ではありません。もしロボットが訪問者に「こんにちは、初めまして」と挨拶した後、「私には感情も経験もありませんが、人間の共感や思いやりを真似て最善を尽くします」と告白したら、訪問者はあまりいい気分にならないのではないかと思います。

しかし、いずれにせよ、チャットボットは私たちに警鐘を鳴らし、人間によるケアが本当に何を意味するのか、つまり、私たちにはどのようなケアが必要で、どのように他人をケアするべきかを思い出させてくれます。

ヒントン氏は、AIはすでに感情を持っているか、あるいは持つようになると信じている。

以前、AIのゴッドファーザーであるジェフリー・ヒントン氏がGoogleを去ったとき、彼はAIがもたらす潜在的な脅威について世界に警告した。

ロンドン大学キングス・カレッジでの講演中に、AIが将来感情的知能や感情を獲得するかどうかを問われると、ヒントン氏は「そうなる可能性は非常に高いと思います。人間のように痛みを感じることはないかもしれませんが、フラストレーションや怒りを感じることはできるでしょう」と答えた。

ヒントンの見解は、実際にはある学派の「感情」の定義に基づいている。つまり、仮想的な行動は感情を伝える手段として使用できる。たとえば、「私は本当に彼を殴りたい」は「私は怒っている」という意味である。

AI がそのようなことを言えるのだから、AI がすでに明確な考えを持っていた可能性を信じない理由はない。

ヒントン氏は、これまでこの見解を公に表明しなかった理由は、AIのリスクに対する懸念を表明し、自身の生涯の仕事に大きな後悔を表明した際にすでに騒動を引き起こしていたためだと述べた。

彼は、もしAIにはすでに感情がある、ともう一度言ったら、誰もが彼を狂人だと思い、二度と彼の言うことを聞かなくなるだろう、と語った。

しかし、実際には、LLM は学習するように訓練された感情的な発話の中で「静的な」感情しか表現できないため、ヒントンの見解を確認または反証することは不可能です。

彼らは実体として感情を持っているのでしょうか?これは認識を通じて測定されなければなりません。

しかし、現時点ではAIの意識を測定できる科学的な機器は存在しません。

ヒントン氏の発言は今のところ確認できない。

<<: VRの悪夢にさよならしましょう！ Meta Reality Labs は仮想世界の問題点を解決し、新しい VR の世界を再構築します

>>: Hongmengユニバーサルカードメモリフリップゲームの開発の詳細な説明

中国科学院：巨大モデルのIQは称賛されると桁外れに上昇！ ChatGPT の感情知能は 98 ポイントで、数秒で人間の感情知能を上回ります。ヒントンの予測は当たったのでしょうか?

ChatGPTの感情知能は人間より高い？

ChatGPTは98ポイントを獲得し、人間を上回りました！

Emotion Prompt が機能するのはなぜですか?

ChatGPTは精神科医に取って代わるかもしれない

ヒントン氏は、AIはすでに感情を持っているか、あるいは持つようになると信じている。

102歳の統計学の伝説、CRラオ氏が死去。彼の人生は「統計の世紀」を経験した

OpenAIの年間収益は13億ドルに達し、月間1億ドル以上となり、夏に比べて30%増加した。

2017 年の機械学習開発に関するトップ 10 の予測: 悲観的か現実的か?

日本のCGマスターがまた登場！リアルタイムの顔キャプチャのための 3D モデリングソフトウェア

ドローン配送業界は明るい未来を秘めているが、発展は遅い

寒波警報（黄色）発令中、ドローンの使用にはご注意ください！

企業環境でのAIテクノロジーの活用

[強く推奨] 史上最も包括的な IT アーキテクト技術知識マップ 34 選

ランウェイの最強のライバルが登場、ワンクリックでショートビデオを生成、期間限定で無料

2021年のAIに関する10の大胆な予測の科学的分析学術見出し

推薦する

人工知能は歯科医療の分野におけるブルーオーシャンである

肖亜青工業情報化大臣：我が国はAI発明特許の取得数で世界一である

マイクロソフトの麻雀AI論文が発表され、初めて技術的な詳細が明らかに

生成 AI は岐路に立っています。次の波はどこから来るのでしょうか?

H100推理が8倍に急上昇！ NVIDIAは10以上のモデルをサポートするオープンソースのTensorRT-LLMを正式に発表した。

ヘルスケア市場における人工知能は2028年までに615億9000万ドルに達すると予想

包括的なデータサイエンスC/C++機械学習ライブラリコレクション、Baidu検索は不要

AIを使って死後の意識を蘇らせることは信頼できるのか？デジタル不滅には経済計算が必要

GenAI はクラウドコンピューティングの ROI を向上できますか?

一般開発者もBaidu Brain Industry Application Innovation Challengeに参加して大きな賞金を獲得できる

十分なデータを使用してモデルをトレーニングしたかどうかをどのように確認しますか?