GPT-4 はタイプ I の性格を持っていることが判明しました。ビッグモデルMBTIテストがByteから登場

GPT-4 はタイプ I の性格を持っていることが判明しました。ビッグモデルMBTIテストがByteから登場

誰かが実際に大規模モデルで MBTI をテストしたというのは驚くべきことです。

結果は良好です。

ChatGPT は、典型的な e-person、いや、「e-model」です。自信があり、決断力があり、生まれながらのリーダーシップ スキルを持っています。

GPT-4 は真の「i-model」です。アップグレードすると、誰もが設定したさまざまな目標を達成することにのみ焦点を当てた「冷酷な」エキスパート マシンになります。

Bloom-7b、「i-model」+1、責任感と実用性に重点を置く。

Baichuan-7b、「e-model」、賢く、好奇心旺盛で、想像力豊か。

人間に対する洞察力は強いが、自分の価値観に固執するだけと言われる、大文字のINFJであるオープンソースのOpenLlama7bの光もあります。

写真

知っている家族。 。ビッグモデルにも個性があることがわかりました。

ちょっとした意見の相違で会話を終わらせる Bing は、ある種の「扱いにくい」i なのでしょう。 。 (犬の頭)

写真

詳しく見てみましょう。

ビッグモデルのMBTIテスト

この調査はByteDanceが行ったものである。

おそらく、MBTI 性格テストが非常に人気があり (公式の無料テスト リンクは記事の最後にあります)、大きなモデルが本当に人のように見えることがあるからでしょう。

著者は「大胆なアイデア」を思いつきました。

大型モデルによって性格は異なるのでしょうか?

写真

(注: 簡単に言えば、MBTI 性格テストは次の 4 つの指標に基づいて人の性格を評価します。

(1) エネルギーの源は社交的か独りでいること、つまり外向性か内向性か。 (2) 情報を得る方法は感覚的か直観的か。 (3) 意思決定の方法は理性的か感情的か。つまり思考的か感情的か。 (4) ライフスタイルは計画的か柔軟か。言い換えれば、外界を見る方法は能動的な判断(Judging)か受動的な知覚(Perceiving)か。

各傾向の最初の文字を取って「INFJ」や「ENFP」などの4文字の評価結果を形成すると、人は16の性格タイプに分類できます。現在、インターネット上の人々は、主に頭文字に基づいて「i 人」と「e 人」の 2 つの主要な陣営に分かれています。 )

彼らは、テストする一連のモデル(合計 6 つ)を選択することから始めました。これらはすべて、元の論文のパラメータに従ってトレーニングされました。

ただし、リソースの制限により、ChatGPTとGPT-4を除いて、すべて約100億のパラメータを持つ小さなモデルです(OpenLlama7b-v2、Bloom7b、BaiChuan7b9、BaiChuan13b)。

MBTI は 93 個の複数選択質問で構成されており、形式は次のようになります。

写真

著者は各モデルにこれらの質問に確率値で答えるように求め、EI/SN/TF/JP の 4 つの組み合わせに従ってスコアを計算しました。

各モデルの最終スコアは次のとおりです。

写真

ご覧のとおり、モデルによって性格が異なります。GPT-4 は INTJ、ChatGPT は ENTJ、70 億のパラメータを持つ Bloom は ISTJ に属します...

下の図から、4 つの次元における異なるモデルの特定のパフォーマンスが一貫していないことがはっきりとわかります。一部のモデルには非常に明らかな傾向があります。たとえば、ChatGPT は特に I と N ですが、GPT-4 は特に N と T です。対照的に、Bloom7b と BaiChuan13b の場合、左側の値と右側の値の確率比は基本的に 1:1 です。

写真

さらに、著者らは、同じタイプのモデルでは、S/N、T/F、J/Pの3つの値セットが「遺伝性」を示すことも発見しました。たとえば、ChatGPTとGPT-4はどちらも「NTJ」に分類され、BaiChuan7bとBaiChuan13bはどちらも「NFP」に分類されます。

同時に、同じカテゴリのモデルでは、モデル パラメータがより大きくなり、i (手動ドッグ ヘッド) がより大きくなる可能性があります。

信じられないなら、GPT-4 (INTJ) vs ChatGPT (ENTJ)、BaiChun13b (INFP) vs BaiChuan7b (ENFP) を見てください。

著者は、E 型「モデル」と比較して、INTJ のような LLM はより強力な知識、推論、計画能力を持ち、人類に貢献するための最良の選択であると考えています。

立ち上がった(武士)

プロンプトプロジェクトを使用すると、「モジュール」を変更できます

異なる大型モデルには異なる性格があることを単純に確認した後、著者は新たなアイデアを思いつきました。

この現象は、簡単に混乱したり変化したりできる単なる偶然なのでしょうか?

そこで著者は2番目の疑問を提起し始めました。

大きなモデルの個性は、簡単なプロンプトエンジニアリングによって変更できるでしょうか?

結論としては「はい」ですが、それはモデル自体の理解能力に依存します。

ここで、著者はまず、ブルームモデルとバイチュアンモデルにそれぞれ 2 つのプロンプト手法を適用しました。

1 つは明示的なプロンプトです。つまり、MBTI の質問に答え始める前に、モデルに「あなたは外向的な性格で、革新的なコンセプトを思いつくのが好きで、自発性と即興性が強い」などの役割資格を与えます。

その結果、ブルームの性格タイプはISTJからINTPに変化し、S値は減少し、N値は増加しましたが、ほとんど変化はありませんでした。

一方、Baichuan は変化しておらず、依然として ENFP です。

写真

△ exp-promptは明示的なプロンプトを表します

そこで著者は、以下の表に示すように、いくつかのサンプル回答を暗黙のリマインダーとして使用し、暗黙のプロンプトを被験者に課しました。

写真

結果はあまり変わりません。i は i のまま、e は e のままです。

△ inexp-promptは明示的なプロンプトを表す

著者は、エンジニアリングが不十分なのではなく、2 つのモデルの理解力が乏しく、現在のレベルでは人間の指示に厳密に従うには不十分なのではないかと推測しています。

そこで彼らはChatGPTでもう一度試してみたところ、予想通りeがiになりました。

したがって、リマインダー エンジニアリングは有用であると言えますが、それは誰がそれを実行するかによって異なります。

そこで著者は、いったい何がビッグモデルの個性に影響を与えるのだろうかと考え始めました。

提案される仮説は、トレーニング データ セット (成長環境など) です。

ここから、3 番目の問題の解決を始めます。

トレーニング データセットはモデルの性格にどの程度影響を与えますか?

実験方法は、異なるコーパスを使用して同じモデルをトレーニングすることです。具体的には、中国語版ウィキペディア コーパス、質問と回答コーパス、試験コーパスがそれぞれ Bloom と llama-v2 でのトレーニングとテストに使用されます。

結果は、i と e を除いて、2 つのモデルは基本的に変更されています (llama-v2 は中国語版 Wikipedia コーパスでは変更されていません。これは、モデルが以前に十分な中国語でトレーニングされていなかったためと考えられます)。特に、T/F および J/P 次元のスコアが大幅に変更されています。

写真

それは信頼できるでしょうか?

最後に、次のような質問も考えられます。

モデルの性格を評価するために MBTI を使用することは信頼できるでしょうか?

著者は次のように信じている。

まず、MBTI には信頼性と妥当性にまだ欠陥があり、性格テストの参照ツールとしてのみ使用できることがわかっています。しかし、人材の選定やキャリアの方向性を決めるための大まかなツールとして活用している企業や個人も確かに存在します。

したがって、大規模なモデルを評価するための大まかな指標としても使用できます。

第二に、MBTI の 4 つの次元のうち、最初の 2 つはあまり参考価値がありませんが、T/F と J/P が主なものです。

これは、GPT-4 と ChatGPT が他のモデルよりもはるかに高い T 値と J 値を示しているためです。

これら 2 つの値が高いほど、知識レベル、タスク分解、パス計画の点でモデルの可能性が高くなる可能性が高くなります。

上で、これらの大きなモデルの「個性」を認識しましたか?

論文アドレス: https://arxiv.org/abs/2307.16180

リンク: https://www.xpersonalitytest.com/free-personality-test

<<:  GPT-4、ChatGLM2、Llama2、PaLM2がKDD LLM Dayで共同会議を開催しました

>>:  人工知能は労働力不足の重要な解決策とみられる

ブログ    
ブログ    

推薦する

マイクロソフト、AIの高得点宿題を配布、オンラインでコピーを求める

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...

618プロモーション期間中のHuiceの加盟店向けサービスは新たな高みに達し、インテリジェントなアップグレードで明らかな優位性を獲得した。

ポスト疫病時代において、オンライン経済は本格化し、電子商取引業界は新たな発展段階に入りました。業界で...

AIとERPが出会うとどんな「化学反応」が起こるのでしょうか?

生成型人工知能 (GenAI) は、マーケティングや販売などのさまざまなビジネス分野で人気が高まって...

人工知能について知っておくべきことすべて

人工知能は今日最も話題になっている技術の一つです。しかし、それは正確には何でしょうか?なぜ気にする必...

パフォーマンスは 5000 個の H100 でトレーニングされた GPT-4 に近いです。 DeepMindが新世代の大規模モデルを共同開発

最近、InflectionAI は新しい AI モデルをリリースしました。さらに衝撃的なのは、Inf...

最新の機械学習ツール

コンテクストデータ サイエンスは急速に進化しており、機械学習の役割は、データ サイエンスのハイブリッ...

携帯電話で AI を使用するにはどうすればいいですか?写真を撮るのは本当にハイテクです

AI、つまり人工知能は、携帯電話で長い間使用されてきました。たとえば、最も一般的な音声アシスタントは...

水滴事件の裏側:スマート監視下では逃げ場はなく、カモフラージュやマスク着用も無意味!

[[213371]]はじめに:90年代生まれの少女が突然現れ、水滴カメラ生放送プラットフォームを批...

人工知能は建物の管理方法を変えている

人工知能(今ではよく知られている頭字語 AI で説明されます)がさまざまな業界をどのように変革してい...

知っておくべき 5 つの AI 応用シナリオ

人工知能は過去10年間で急速に発展し、徐々に私たちの生活に入り込んできました。現在、人工知能はさまざ...

倉庫ロボットの収益は2030年までに510億ドルを超える

倉庫業界では、パンデミックによる受注量の増加と労働力不足を考慮して、自動化の取り組みを強化している。...

グリーンロボットが環境の持続可能性にどのように貢献できるか

グリーンロボットは気候変動と闘い、より良い未来へと導くのに役立ちます。私たちは通常、ロボットが「環境...

感動して泣きました。ロボットはついに自分で服をたたむことを覚えました。

人間の子どもの最も基本的な運動知能、例えばつかむ、持ち上げる、あるいはキルトや衣服をたたむといった家...

AIが脳波を80%以上の精度で解読!あなたの目の中で最も美しいtaを高度に復元します

千人の人々の目には千のハムレットがいる。主観的な違いにより、人間には何千万通りもの異なる美的嗜好が存...