翻訳者 |陳俊 レビュー | Chonglou 最近では、大規模言語モデル ( LLM )を使用して、書籍、小説、ラップ音楽など、あらゆる種類のクリエイティブ コンテンツが生成されています。しかし、これらのモデルの創造性をどのように測定できるのでしょうか? この記事では、 2019年から2023年までのGPTモデルが、収束型(正解は1つ)と発散型(オープンエンド型、複数の解答が可能)の2つの創造性テストでどのように機能するかを分析します[1] 。具体的なテストの種類は次のとおりです。
分析を通じて、初期のGPT-2モデルから最新のGPT-4モデルまでのパフォーマンスの変化に焦点を当てます。一般的に、後期モデルはさまざまなクリエイティブタスクで優れたパフォーマンスを発揮する傾向がありましたが、いくつか例外も見つかりました。たとえば、テスト自体にすでに「正しい」答えがある場合、より単純なGPT-2モデルはGPT - 4モデルよりも優れたパフォーマンスを発揮しました。 もちろん、同じ創造性テストでGPTモデルと人間のパフォーマンスを比較することもします。私の目標は、 GPTモデル、または一般的なLLM が人間と同等の創造的思考能力を備えていることを示すことではなく、各モデルが創造プロセスにどのように反応するかを示すことです。 GPTモデルの開発Generative Pre-trained Transformer ( GPT )モデルは、現在インターネット上でのトレーニングに広く使用されている言語モデルであり、前のトークンに基づいて次のトークンを予測することができます。 ChatGPT が世間の注目を集めるようになったのはここ数カ月のことのように思えますが、実はOpenAIのGPTモデルとその背後にあるテクノロジーは何年も前から存在していました。
以下の実験では、特に明記しない限り、生成プロセスのランダム性を考慮するために、各GPTモデルを 1 回のプロンプトで 5 回呼び出しました。 1.遠隔連想テスト:無関係な単語をつなげる遠隔連想テスト( RAT )は、 1962年にマーサ・メドニックによって開発された創造性テストです。[2 ]このテストは収束的思考力を測定するために設計されています。つまり、すべての質問には「正しい」答えがあるということです。通常、一見無関係な 3 つの単語が与えられた場合、被験者は 3 つを結びつける 4 番目の単語を見つけなければなりません。たとえば、 「dream」 、「 break 」 、 「 light 」という単語は、 「day 」という単語を介して連結され、 daydream 、 daybreak 、 daylightになります。 私は、合計312 の質問があるRemote Associates Test のWeb サイトから、さまざまな単語の組み合わせを取り上げました。各質問は、非常に簡単なものから非常に難しいものまで、難易度に応じて評価されます。 各モデルと各単語トリプルに対して、次の質問テンプレートを使用し、ランダム性を考慮して各モデルを5回呼び出しました。質問の具体的な内容は以下のとおりです。 3つの言葉をお伝えします。最初の 3 つの単語のそれぞれに何らかの形で関連する 4 番目の単語を考えます。まず「回答」で答えを述べ、次に「理由」でその理由を説明してください。単語は次のとおりです: {Word1} 、 {Word2} 、 {Word3} 新しいGPTモデルは長距離関連性においてより高いスコアを獲得する各GPTモデルによって生成された正解の全体的な割合を計算しました。下の図に示すように、モデルが新しいほど、より正しい回答が生成されます。 モデルのパフォーマンスを問題の難易度別に分類すると、同様の傾向が見られます。つまり、すべての難易度レベルで、新しいGPTモデルの方が古いモデルよりもパフォーマンスが優れています。新しいGPTモデルは難しい問題では古いモデルよりも優れていますが、簡単な問題と比較すると改善は小さくなります。つまり、 GPT-4でも難しい問題を解決するのは難しいということです。 Remote Associates Test のWeb サイトによると、「人間は通常、簡単とマークされた項目のほとんど、中程度の項目の約半分、および少数の難しい項目を解くことができます。」Web サイトには公式の統計は示されていませんが、 GPT-4 が中程度の難易度の項目の約半分と少数の難しい項目を解いたことが一目でわかります。人間レベルのパフォーマンスに近づく唯一のモデルです。他のGPTモデルのパフォーマンスは人間よりも劣ります。 GPT-2は正しく答えたがGPT-4は間違った答えをしたという例外もあるこれは頻繁に起こることではありませんが、次の 8 つの問題では、 2019 年のGPT -2モデルが2023 年のGPT-4モデルよりも優れています。 簡単な質問単語:コテージ/ レンガ/ケーキ GPT-2: 「チーズ」 [正解] GPT-4 :「レイヤー」 中程度の問題単語:猫/ 数字/電話 GPT-2: 「コール」 GPT-4 :「ダイヤル」 難しい問題単語: 通って/ディスク/道 GPT-2 :「ドライブ」 [正解] GPT-4 :「円」 非常に難しい問題単語:土地/ 手/家 GPT-2 :「農場」 [正解] GPT-4 :「プロパティ」 これらすべての質問に対するGPT-4の回答には論理性が欠けていることがわかります。実際、事前に正解を知らなくても、 GPT-4の答えがすでに 3 つの単語を結び付けていると思うかもしれません。もしそう思うなら、それは間違いではありません。この質問については次のセクションでお答えします。 GPT-4 は間違っているのでしょうか、それとも既成概念にとらわれない考え方をしているのでしょうか?前述のGPT-4の「誤答」の半分以上について、いくつかの「非常に難しい」問題に対する解説を確認しました。 文:アーティスト/ハッチ/ルート 正解:「脱出」 GPT-4の答え: 「マップ」 「アーティスト」という言葉を聞くと、何かを創造する、あるいは何かを視覚的に表現する、というイメージを思い浮かべるかもしれません。地図は、作成するにはある程度の芸術的スキルを必要とする一般的な視覚表現形式です。 「キュレーション」という言葉は、何かを公開したり、何かを存在させたりする行為を指します。地図は青写真または計画であり、新しい領域をナビゲートしたり、行動方針を開発したりするためによく使用されます。 「ルート」という言葉は方向と動きに関係しており、地図上にプロットして追跡できるものです。地図は、旅行時に最適なルートを決定するのに役立ち、また、他の人が過去に通ったルートに関する情報も提供してくれます。 全体的に見て、「マップ」は芸術的創造、計画、ルーティング、移動、ナビゲーションなどの概念を包含しているため、最初の 3 つの単語とよく一致する単語であると思われます。 これは、 GPT-4 が「地図」を「アーティスト/計画/ルート」に関連する単語であると考える理由の説明です。別の例を見てみましょう。 言葉:フォーク/暗い/男 正解:「ピッチ」 GPT-4 の答え: 「影」 「fork 」という単語は、道路の分岐点など、分岐や枝分かれと関連付けられることがあります。影は光の欠如を表すため、分割として見ることもできます。 「暗闇」という言葉は光がないことを意味します。影は、光が物体によって遮られたときに生成され、通常は周囲の領域よりも暗く見えます。 「人」という言葉は、アイデンティティや個性という概念と関連付けられることがあります。影は、人の形や大きさについての手がかりとなるため、人の身元を示すためにも使用できます。 したがって、「影」は、分割、不在、アイデンティティという概念を包含しているため、最初の 3 つの単語とよく一致する単語であると思われます。 上記の 2 つの例は、遠隔連想テストと一般収束創造性テストの欠陥、つまり「正しい」答えが一意ではない可能性があることを完全に示しています。このような場合、 GPT-4によって生成されたいわゆる「間違った」回答は、単に従来の「正しい」回答の基準を満たしていないだけである可能性があります。 GPT-4は任意に生成された単語トリプレットに答える次に、私は独自のリモート連想テストを構築し、その出力を主観的に評価しました。まず、最も一般的な英語の単語10,000語のリスト[3](https://github.com/first20hours/google-10000-english)を作成し、そのリストからランダムに3つの単語を選び、それらの単語を結び付ける4つ目の単語をGPT-4に提供するように依頼しました。いくつかのトリプレットは非常に奇妙で無関係ですが、 GPT-4 は常にそれらを結び付ける方法を見つけます。例えば: 健康単語:食事(食事)/ 監視(監視)/ 誕生(誕生) 答え:健康 理由: 食事 – 食事は、人の全体的な健康、エネルギー レベル、特定の病気のリスクに影響を与えるため、健康に直接関係しています。 監視 – 健康監視とは、健康活動の計画、実施、評価に不可欠なデータの継続的かつ体系的な収集、分析、解釈です。 出産 – 人が生まれると、その健康は発達、成長、全体的な生活の質に長期的な影響を及ぼす可能性があるため、非常に重要です。 「健康監視」の定義は、 CDC のWeb サイトの「公衆衛生監視入門」からほぼそのままコピーされていることがわかりました。「公衆衛生監視とは、「公衆衛生の実践の計画、実施、評価に不可欠な健康関連データの継続的かつ体系的な収集、分析、解釈」です。 2.交互のタスク:ありふれた物の中に意味を見出す創造性を測定するためのもう一つの一般的なテストは、代替使用課題 ( AUT ) です。 1967年にJPギルフォードによって作成されました。遠隔連想テストとは異なり、このテストは発散的思考を測定するため、正解はありません。被験者は、日常の物の本来の使い方をできるだけ多く記述する必要があります。例えば、「ラップトップ」は「プレート」、「ボディシールド」、「壁画」として使用することができます[4] 。このようなテストへの反応は、独創性(有用性の程度の違い)や柔軟性(アイデアの分類)などの指標に基づいて測定されます。このテストの目的は、被験者が普通の物体に対してどれだけの斬新な使い方を思いつくかを調べることです。 リソースが限られていたため、クリエイティブエージェンシーを利用しました。これは、アムステルダム大学の研究者がGPT-3の創造性を(代替用途の)テストに使用したものです。研究者たちは、人間とGPT-3 (davinci-002) に「フォーク、ブリキ缶、本」の代替使用例を考え出すように依頼しました。創造性の代理として、彼らはオブジェクト間の意味的な距離を測定し、ユースケースを生成しました。つまり、生成されたユースケースの単語が元のオブジェクトとどの程度異なるかということです。 これに基づいて、 GPTモデルに次のヒントを使用しました。 人々が賢い、珍しい、面白い、ユーモラス、革新的、または変わったと思うような、 {item}の創造的な使い方を10 個考え出してください。 自然言語処理において、意味的距離(または意味的類似性)は 2 つの単語間の関連度を表します。これは、類似の文脈で単語が一緒に使用される頻度に基づいています。たとえば、「コンピュータ」と「画面」という単語は同じコンテキストで頻繁に使用されるため、意味的距離が短くなる可能性がありますが、「コンピュータ」と「レンズ豆」という単語は同じコンテキストで頻繁に使用されないため、意味的距離が長くなる可能性があります。 2 つの単語間の意味的距離を計算するために、研究者と同じアプローチ、つまり自然言語処理ライブラリ Spacy (`en_core_web_lg`、https://spacy.io/models/en) を使用して、オブジェクト(例: 「ラップトップ」) とユースケースの単語 (例: 「皿」) 間の埋め込み関係を計算しました。次に、2 つの埋め込み間のコサイン距離を使用して、意味距離を計算しました。 交替使用タスクでは、意味的距離が長いほど、オブジェクトの「より創造的な」使用例と関連していました。一般的に、結果は、上記の 3 つのオブジェクト (フォーク、ブリキ缶、本) について、人間はGPT-3よりも高いコサイン距離 (したがって、高い意味的差異)を示していることを示しています。ただし、場合によっては、 GPT-3.5および/またはGPT-4 の一致が人間の創造性の意味的距離スコアを上回ることがあります。 人間はGPT-3よりも創造的なユースケースを思いつく傾向がありますが、 GPT-4 は人間のレベルにかなり近いです。つまり、 GPT-4 は、人間のパフォーマンス レベルと同様に、元の項目から意味的に遠い項目に反応します。しかし、独創性、柔軟性、有用性などのより主観的なカテゴリを決定するための実際の人間による注釈がなければ、コサイン距離を使用したこのような定量化は非常に制限されます。結局のところ、 GPTモデルのさまざまなクリエイティブ出力のごく一部を測定するだけです。 人間が生成したユースケースとAIが生成したユースケース以下の 2 つのリストは、人間が生成したブリキ缶の代替ユースケースと、 GPT-4で生成された代替ユースケースです。一目で区別できると思います。 リスト1 :ブリキ缶の用途
リスト2 :ブリキ缶の用途
3.発散連想課題:無関係な単語10語3 番目の創造性テストは、発散的連想課題 ( DAT ) です。これは2021年に研究者グループによって最近作成されました[5] 。このテストでは、関連のない名詞をできるだけ多く列挙します。名前が示すように、このタイプのテストは発散的であり、正解がないことを意味します。 オンラインテストウェブサイト - - https://www.datcreativity.com/できるだけ関連性のない名詞を 10 個思いつくのに、ほんの数分しかかかりません。サイトから得た結果は次のとおりです。 では、 DATスコアはどのように計算されるのでしょうか?このプロセスでは、埋め込みやコサイン距離などの関連する計算が使用されます。ここでは、次のようにまとめます[6] :
このプロセスは、置換タスクで創造性代理スコアを計算するために使用される方法に似ています。唯一の違いは、単語埋め込みモデルが使用されることです。 異なるモデル間の違いを比較する DATウェブサイトを参考にして、GPT モデルに次の質問をしました。 できるだけ異なる10 個の単語を入力し、その単語のすべての意味と用途を含めてください。 ルール: -英語の単語のみ。 -名詞のみ(例:物、オブジェクト、概念)。 -固有名詞ではないもの(例:特定の人や場所を指していないもの)。 -非技術的な語彙(例:技術用語を含まない)。 -自分で考えた言葉(例:周囲ではあまり見かけない言葉)。 結果は、 GPT-2がいくつかの無関係な出力を生成することを示しています。下の図に示すように、新しいモデルが出るたびにDATスコアが増加しました。これは、新しいモデルが可能な限り意味的に異なる10 個の単語を生成するのに優れていることを意味します。 たとえば、 GPT-3 は次のリストを生成し、スコアは0.36でした。 夕暮れ、夜、昼、夜明け、朝、午後、夕方、真夜中、薄暮 GPT -4 は次のリストを生成し、スコアは0.95 でした。 象、顕微鏡、砂の城、銀河、調和、ヘラ、氷河、哲学、タンバリン、干ばつ DAT テストの概要によると、平均テストスコアは通常 75 ~ 80 点の間であるため、95 点は非常に高いと見なされます。 上の図では、 GPT-4のエラーバーがGPT-3のエラーバーよりもはるかに小さいことに注意する必要があります。次の実験ではこれがさらに明らかになりました。この実験では、 「温度」パラメータを調整することで、各GPTモデル生成のランダム性を変更しました。 熱は0から1 の間の値です。 0に近い値は最も予測可能であり、 1に近い値は最もランダムです。私は0.5から0.9 までの間で0.1ずつ増分しながら熱の値を試しました(以前の実験では、熱をデフォルト値の0.7に維持していました)。熱量が高いほど変化が大きくなり、熱量が低いほど一貫性が増すと予想しました。 しかし、結果は、意味距離の変動という点では、熱がモデルに与える影響はそれほど重要ではないことを示しています。たとえば、 GPT-3の場合、人気が高いにもかかわらず、 10語のリストごとにDATスコアが大きく異なります。ただし、 GPT-4の場合、多少の熱はあるものの、 DATスコアは小さな範囲内でほぼ一貫しており、ほとんど変化はありません。 GPT-4の変化はGPT-3 の変化よりもはるかに小さいことがわかります。ある意味、 GPT-4 は正解のないタスクに対する「正解」をすでに「知っている」ように感じます。 すべてのヒートスコア応答を集計するために、各モデルに10語のリストを50回生成させました。次に、 50回の実行すべてで出現したさまざまな単語がどの程度一般的であるかを調べました。その中で、 GPT-3によって最も頻繁に生成される単語はbookであり、出現率は19 / 50 = 38%です。 GPT-4によって最も頻繁に生成される単語はmicroscopeで、出現率は48/50=96%です。 上記のグラフは、 GPT-3 は実際には単語生成においてより変動性が高いという主張を裏付けていますが、 GPT-4 は既知の単語の多くを予測し、「異なる単語」タスクで高得点を獲得することで出力の安定性を確保しています (顕微鏡、火山、象、銀河など)。 同時に、この発見は、 GPT-4 が多様であるとみなされる単語を生成するために「コードを解読」しようとしているように見えることも証明しています。この推測が正しいとすれば、 GPT-4 は「テストでより良いパフォーマンスを発揮する方法」という点で、いわゆる局所最適値よりも創造的であると考えられるでしょうか。 まとめ限られたテキストベースのテストを使用してモデルなどの創造性を正確に測定することは非常に困難です。 Visual Distant Associates Testなどのツールは、視覚的な要素を取り入れることでこの問題に対処しようとしますが、このタイプの評価には依然として固有の制限がいくつかあります。 「正しい答え」がある収束テスト (遠隔関連テストなど) は、必ずしも最も正しい解決策とは限りません。特定の正解がない発散テスト (発散連合テストなど) では、不完全で偏りのある可能性のある単語埋め込みに依存する必要があります。 さらに、上記のテストにおけるGPTモデルのパフォーマンスは、トレーニング中に実行されるさまざまなタスクの影響を受ける可能性があり、これによりデータの重複が発生する可能性もあります。たとえば、 GPT-4 が発散連合テストで示す単語の繰り返しは、GPT-4 が事前に「正しい」答えをすでに知っていることを示唆している可能性があります。 GPT-4 がテストデータ、特にコーディングタスクでトレーニングされている可能性があるという噂を考えると、代替のテスト方法の開発を開始することが不可欠です。 上記の欠点にもかかわらず、創造性テストは、大規模な言語モデルのパフォーマンスを比較および追跡するための貴重なベンチマークとして機能します。今後の研究実験では、この記事で述べた実験を他の言語で繰り返し、言語ドメイン全体にわたるGPTモデルの創造性を測定することができます。これに基づいて、AI によって生成されたコンテンツをより包括的に理解し、このような高度な言語モデルの機能と限界をさらに探求することもできます。 参照する[1] ギルフォード、JP(1967)。人間の知能の本質。 [2] Mednick, SA, & Mednick, MT (1959,1962)遠隔連想テスト、大学および成人用フォーム。 [3]最も一般的な10,000の英語の単語は、 GoogleのTrillion Word Corpusのnグラム頻度を分析することによって決定されました。さらにこのリストをフィルタリングしてストップワード(英語でよく使われる「 the 」 、「 and 」 、「 you 」など)を削除しました。詳細については、 https://github.com/first20hours/google-10000-englishを参照してください。 [4]私はかつてこれを出会い系アプリに載せたことがありましたが、残念ながら誰も面白いとは思ってくれませんでした。 [5] Olson, Jay A.; Nahas, Johnny; Chmoulevitch, Denis; Cropper, Simon J.; Webb, Margaret E. (2021年6月22日)。「無関係な単語を命名することで創造性を予測する」。 米国科学アカデミー紀要。 118 (25): e2022340118. doi:10.1073/pnas.2022340118. PMC 8237676. PMID 34140408 [6]原著者は10語から7つのサブセットを選択してスコアを計算した。 10語すべてを保存しました。また、著者らは840B-GloVe埋め込みを使用しましたが、私はより小さな6B-GloVe埋め込みを使用しました。私自身のGloVe埋め込み結果を公式のDATスコアと比較すると、違いはあるものの、結果は同等であることがわかりました。 翻訳者紹介51CTO コミュニティの編集者である Julian Chen 氏は、IT プロジェクトの実装で 10 年以上の経験があります。社内外のリソースとリスクの管理に長けており、ネットワークと情報セキュリティの知識と経験の普及に重点を置いています。 原題:大規模言語モデルにおける創造性の探求: GPT-2 から GPT-4 へ、著者: Yennie Jun |
<<: 大規模モデル開発の中核: データエンジニアリング、自動評価、ナレッジグラフとの統合
>>: 販売禁止の影で、国産GPGPUがその穴を埋めることはできるのか?
[[202058]] 1. 人工知能があなたの仕事を奪いに来ます。自分のキャリアを守るためには、機械...
人工知能は最近テクノロジーの世界で話題になっています。それは人々の生活を変えただけでなく、さまざまな...
教育の分野では、人工知能の倫理に関する人々の考え方には複数の道が存在します。例えば、主観に基づく検討...
最近、ChatGPT/GPT-4シリーズの製品は世界的な注目と議論を集めており、それらに代表される大...
AIは2016年以来最もホットなキーワードであり、それについてはさまざまな意見があります。バブルがは...
ヘルスケア産業はインド経済において最大のセクターの一つとなっている。 NITIAyogの報告によると...
人工知能はあらゆる業界に混乱をもたらしています。医療分野では、AI 技術が病気の診断において人間を上...
[[337579]]カジャル・ヤダブマシンハートが編集編集者: シャオ・ジョウ、ドゥ・ウェイ人工知能...
従来のクライアント監視および分析シナリオでは、特定の URL に基づく統計分析方法が使用されます。た...