ChatGPT は学生の授業パフォーマンスを大幅に向上させたため、教授は怒ってこう叱責しました。「私はそれを使ってもいいが、あなたがそれを使うと不正行為になる!」

ChatGPT は学生の授業パフォーマンスを大幅に向上させたため、教授は怒ってこう叱責しました。「私はそれを使ってもいいが、あなたがそれを使うと不正行為になる!」

ChatGPT は学校で使用できますか? どのように使用すればよいですか?

この問題に関して、教育界、規制当局、学生の間で意見が分かれています。

一部の大学や専攻では、ChatGPT を使用した学生の不正行為を防ぐ方法を見つけられなかったため、長年実施されてきた Take Home 試験を単純に禁止し、すべての試験を紙とペンの時代に戻しました。

ChatGPT が授業に与える影響をより詳しく研究するため、ニューヨーク大学の研究者らは、さまざまな国の学生と教師を対象に、授業でのパフォーマンスと ChatGPT の使用意欲に関する非常に詳細な調査を実施しました。調査結果は Nature に掲載されました。

研究者らは、9つの専攻において、ChatGPTが平均的な学生よりも成績が優れていることを発見した。

教授は、学校で ChatGPT を使用すると、より良い指導ができると考えています。しかし、彼らは学生が勉強したり宿題をこなしたりするために ChatGPT を使用することに強く反対しており、ChatGPT を使用する学生を不正行為や盗作とみなします。

研究者らは、9つの専攻において、ChatGPTが平均的な学生よりも成績が優れていることを発見した。

教授は、学校で ChatGPT を使用するとよりよい指導ができると考えていますが、学生が勉強したり宿題をこなしたりするために ChatGPT を使用することには強く反対しており、ChatGPT を使用する学生は不正行為や盗作をしているとみなします。

研究者らは、8つの分野から32の大学レベルのコースを受講する学生の成績と比較することで、ChatGPTの盗作防止ツールとしての潜在能力を調査した。

さらに、研究者らは、ChatGPT が生成したテキストを検出するために特別に設計された既存のアルゴリズムを評価し、そのようなアルゴリズムを回避するために使用できる難読化攻撃の有効性を評価しました。

ChatGPTの有用性に関する学生と教育者の視点と、その使用から生じる倫理的および規制上の問題をより深く理解するために、研究者はブラジル、インド、日本、英国、米国の5か国の参加者を対象に調査を実施しました。

さらに、研究者らは、著者らの所属機関の学部生 151 名と教授 60 名を対象に、より広範な調査を実施し、分野間での ChatGPT に対する認識の違いを調査しました。

研究者らは、ChatGPT が 32 のコースのうち 9 つで学生と同等かそれ以上の成績を収めたことを発見しました。

さらに研究者らは、現在の検出アルゴリズムは人間の回答を AI が生成した回答として誤分類し、ChatGPT の回答を人工的に生成された回答として誤分類する傾向があることを発見しました。

さらに悪いことに、難読化攻撃によりこれらのアルゴリズムは無効になり、ChatGPT の回答の 95% を検出できなくなりました。最後に、学生と教育者の両方の間で、課題で ChatGPT を使用するつもりであること、そしてそれが盗作とみなされることについてコンセンサスがあるようです。

両者の間には本質的な矛盾があるため、教育機関は生成 AI、特に ChatGPT に関連する適切な学術的誠実性ポリシーを策定するという緊急の課題に直面しています。

研究者らの研究結果は、生成型AI時代の教育改革をめぐる政策議論を導くタイムリーな洞察を提供している。

研究者たちは、大学レベルの試験や宿題を解くための生成AIの現在の能力を調査することから始めました。これを実行するために、研究者らはニューヨーク大学アブダビ校の教員に連絡を取り、大学で教えている授業から10の質問と、各質問に対する無作為に選ばれた3人の学生の回答を提供するよう依頼した。

さらに、各コースでは、ChatGPT を使用して 10 個の質問それぞれに対して 3 つの異なる回答を生成しました。

その後、学生の回答と ChatGPT の回答はランダムな順序で 1 つのファイルにまとめられ、「提出 1」から「提出 6」というラベルが付けられました。

その後、各提出物は、コースを教えた教員によって募集された 3 人の異なる評価者によって採点され、評価者間の信頼性のために表 1 が補足されました。ほとんどのコースでは評価者間信頼性が 0.6 を超えていましたが、32 コースのうち 6 コースはこのしきい値を満たしていませんでした。

6 つのコースのうち 4 つはエッセイベースで主観的な性質を持っているため、この違いが説明できるかもしれません。

ただし、残りの 2 つのコース (人間中心のデータ サイエンスとオブジェクト指向プログラミング) は対象外です。それにもかかわらず、研究者が分析から両方のプロセスを除外すると、質的に同様の結果が得られます。

計算結果は上の図aに示されています。数学と経済学を除いて、各科目の少なくとも 1 つのコースにおける ChatGPT スコアは、学生のスコアと同等か、それよりも高いです。

これらのコースは、「データ構造」、「公共政策入門」、「定量的合成生物学」、「Web オブジェクト指向プログラミング」、「土木工学材料の構造と特性」、「生物心理学」、「気候変動」、および「管理と組織」です。

安定性のチェックとして、研究者は各コースで各採点者が付けたスコアを標準化し、異なる成績の影響を考慮できるようにしました。その結果、ChatGPT の成績は上記の 9 つのコースの学生と同等かそれ以上であることが分かりました。

研究者らは、さまざまなコースでの ChatGPT のパフォーマンスを分析した後、認知レベルや知識レベルによってパフォーマンスがどのように変化するかについての探索的分析を実施しています。

これを実行するために、研究者らは参加した教師たちに、それぞれの質問がアンダーソンとクラスウォールの分類法の「知識」と「認知プロセス」の次元のどこに当てはまるかを詳しく述べるよう依頼した。各ディメンションを構成するレベルの説明については、下の表を参照してください。分析結果を下の図bに示します。


興味深いことに、高度な知識と認知プロセスを必要とする質問では、ChatGPT と学生のパフォーマンスの差は、中程度の知識と認知プロセスを必要とする質問よりもはるかに小さくなります。

認知処理次元の最高レベルである創造性を必要とする質問に対する ChatGPT のパフォーマンスは平均 7.5 でしたが、学生の平均スコアは 7.9 でした。

ChatGPT が学生よりも優れたパフォーマンスを示した唯一の質問は、事実の知識を必要とする質問であり、これは ChatGPT が大量のデータでトレーニングされていたことを示唆しています。最後に、研究者たちはさまざまな種類の質問に対する ChatGPT の機能を比較しました。これを実行するために、研究者は参加した教師に、それぞれの質問について以下の点を答えるよう依頼しました。

(1)数学に関わる

(2)関連するコードスニペット

(3)特定の著者、論文・書籍、特定の技術・方法について知る必要がある

(4)これは難しい質問ですか?

結果は下の図にまとめられています。

写真

同様に、研究者らは、ChatGPTと学生のパフォーマンスの差が最も大きかったのは数学関連の問題であり、次いで難しい問題であることを発見した。今のところ、これらの分野では人間が ChatGPT よりも優れているようです。

教育者は ChtaGPT の使用をどのように考えていますか?

研究者らは、ブラジル、インド、日本、英国、米国の5カ国で、各国で少なくとも100人の教育者と200人の学生を対象に世界規模の調査を実施した。詳細については、「方法」を参照してください。下の図は研究者の調査結果をまとめたものです。

写真

この分析を詳しく検討する前に、研究者が調査した学生と教育者はさまざまな教育レベルから来ていることに留意する必要があります。

そのため、研究者たちは学部生と大学院生、そして大学教員にのみ焦点を当て、概ね同様の結果を得ました。

研究者たちはまず、さまざまな国の学生と教育者の回答を比較した。

各グラフは調査内の異なる質問に対応しており、回答者に ChatGPT に関する特定のステートメントにどの程度同意または反対するかを尋ねています (強く反対、反対、どちらでもない、賛成、強く賛成)。

研究者たちは、発言を主に3つのカテゴリーに分類しました。

(1)パネルa:教育現場でChatGPTを使用する際の倫理的問題。

(2)パネルb:ChatGPTが将来の研究に与える影響。

(3)パネルc:ChatGPTが教育格差に与える影響。

グループ A (倫理) では、学校の課題で ChatGPT を使用することは許容されるというコンセンサスが得られているようでした。対照的に、宿題に ChatGPT を使用することが非倫理的であるかどうか、また学校の課題での使用を禁止すべきかどうかについては、意見が分かれています。

例えば、インドとアメリカの学生はそれが非倫理的であり禁止されるべきだと信じていたが、ブラジルの学生はその逆の考えを持っていた。

パネル b (仕事) の質問では、5 か国すべての学生が、日常の作業を ChatGPT に委任できると感じており、ブラジルとインドの教育者もこれに同意しているようでした。

インドは、職場での競争力を高めるために ChatGPT が必要だと教育者が感じた唯一の国であり、インドの学生がこの意見に最も同意する傾向がありました。さらに、ChatGPT が将来自分たちの仕事を奪ってしまうのではないかと心配しているのは、インドの教育者と学生だけです。

グループ c (不平等) に関しては、ChatGPT によって英語を母国語としない学生の競争力が向上するという点については、人々は同意しているようです。 ChatGPTが教育格差を縮小するかどうかを尋ねられたとき、ブラジルと日本(研究者のサンプルの2つの非英語圏の国)の教育者はその意見に同意したが、残りの3か国の教育者は反対した。

研究者たちは、以下の質問に対する教育者と学生の回答の分布を比較しました。

「あなたの生徒/同級生のうち、何人がChatGPTを学習に利用すると思いますか?」結果は下の図に示されています。教師と生徒の回答の分布はそれぞれオレンジと青で表され、同じ色の縦線は平均を表しています。

黒い縦線は「はい」と答えた学生の割合を表します。

「次の学期の勉強について考えると、勉強にChatGPTを利用しますか?」 5か国の平均回答を示す4行目に示されているように、学生の74%がChatGPT(黒線)を使用すると回答しており、教育者と学生の両方がこの割合を過小評価しています。

使用すると答えた学生(74%)の主な理由は、スキルの向上と時間の節約でした(下記参照)。 ChatGPT を使用しないと答えた人 (26%) の主な理由は、罰せられることや非倫理的な行為に及ぶことへの恐れではなく、使い方がわからない、または必要がないためでした。

最後に、研究者らはOLS回帰分析を実施し、学生が次の学期にChatGPTを使用するという決定にどの要因が関係しているかを調査しました。

上の図は、いくつかの興味深い独立変数の結果をまとめたものです。

ブラジルとインドの学生は米国の学生よりも ChatGPT を使用する可能性が高いのに対し、日本の学生は ChatGPT を使用する可能性がはるかに低いことがわかります。

ChatGPT の過去の経験については、使用したことがある人の方が再度使用する可能性が高かった。対照的に、ChatGPT について単に聞いただけでは、学生がそれを学習に役立てようと決めることには有意な関連がありませんでした。

最後に、貧困層や労働者階級出身の学生は、上流階級の学生よりも、勉強に ChatGPT を使用すると答える傾向が強かった。

大学の教師と学生は学校での ChatGPT の使用をどのように考えていますか?

研究者たちは、世界規模の調査を分析した後、今度は著者自身の所属機関であるニューヨーク大学で実施された2番目の調査に注目している。今回の調査は前回のものよりも範囲が狭いですが、大学生と教授に焦点を当てているため、学生の平均成績や教授の採用方法の違いを観察することができます。

写真

上の図 (a) は、前述の 8 つの質問に対する 151 人の学生 (y 軸) と 60 人の教授 (x 軸) の回答を 3 つの大まかなカテゴリに分類したものです。

(1)教育現場でのChatGPTの使用倫理(赤)

(2)技術が将来の雇用に与える影響(緑)

(3)ChatGPTが教育格差に与える影響(青)

教授は学生よりも ChatGPT の使用に対してより穏健な態度を示していることがわかります。 (赤いデータ ポイントがすべて対角線の下半分に収まる様子) しかし、教授は、ChatGPT が学生よりも雇用と公平性において大きな役割を果たすと考えています。

こうした違いがあるにもかかわらず、教授と学生は ChatGPT を使用すべきだという点では同意しているようで、どちらもそれが将来の仕事に支障をきたすとは考えていない。

上の図は、生徒が宿題の支援に ChatGPT を使用する予定があるかどうか (最初の 2 行)、および宿題の支援に ChatGPT を使用すべきだと思うかどうか (最後の 2 行) を示しています。

ほとんどの学生は、課題を支援するために ChatGPT を使用する予定であり (57%)、同級生がこの目的で ChatGPT を使用することを期待していました (64%)。さらに、大多数は ChatGPT を使用すべきだと信じており (61%)、同級生も宿題の支援に ChatGPT を使用すべきだと信じていると期待しています (55%)。

同様に、上のグラフは、教授が ChatGPT の使用を盗作とみなすつもりであるかどうか (最初の 2 行)、および ChatGPT の使用を盗作とみなすべきであると考えているかどうか (最後の 2 行) を示しています。

ほとんどの教授は、ChatGPT の使用を盗作として扱う予定であり (69%)、他の教授にも同じことを行うことを期待しています (71%)。

さらに、大多数は ChatGPT の使用は盗作とみなされるべきだと考えています (72%) し、同僚も同様に考えることを期待しています (73%)。

写真

上の図では、研究者らは、さまざまな分野、GPA、社会経済的地位の学生がChatGPTを使って勉強する意欲も比較しました。

さまざまな分野を見てみると、4 つの分野すべてで大多数の学生が ChatGPT を使用する予定であると回答しました。

GPAに関しては、GPAを公開したくない学生を除いて、すべてのGPAレベルの学生の大多数がこのツールを使用すると答えました。

同様に、さまざまな社会経済的地位の学生についても、ほとんどの学生が ChatGPT を使用すると述べました。

写真

教授たちの見解は上の図に反映されています。図に示すように、工学を除く他の分野のほとんどの教師は、課題で ChatGPT を使用することを盗作と見なしています。

さまざまな教育経験を持つ教授たちは、経験に関係なく、大抵そう考えています。

同様に、さまざまな職種の教授についても、ほとんどの教授が ChatGPT の使用は盗作とみなされることに同意しました。

ChatGPT は学校で使用した場合、効果的に識別できますか?

研究者らは、GPTZero と OpenAI 独自の AI テキスト分類器という 2 つの分類器を使用しました。どちらも、テキスト本文が AI を使用して生成されたかどうかを判断するために特別に設計されています。

上の図は、研究者がこれら 2 つの分類器を使用して、ChatGPT として誤分類された人間生成コンテンツの割合と、ChatGPT によって生成されたコンテンツが人間として誤分類された割合を定量化した方法を示しています。

OpenAI のテキスト分類器は、学生の提出物の 5% を AI 生成と誤って分類し、ChatGPT は提出物の 49% を人間生成と誤って分類しました。 GPTZero は偽陽性率 (18%) が高く、偽陰性率 (32%) が低くなっています。

研究者らが以前に書いた記事と合わせると、AI が生成したテキストと人間が作成したテキストを効果的に区別することはほぼ不可能であるとまとめることができます。

OpenAI が独自の検出器をオフラインにしたのもこの理由です。

これは、学校での ChatGPT の使用に関して、教師も生徒も AI 支援を使用したかどうかを証明できないことをさらに示しています。

<<:  マイクロソフトの深夜革命、GPT-4 Office フルパッケージが登場!月30ドルで10億人の労働者の雇用が奪われる?

>>:  複数の LLM が連携して機能します。清華大学などがオープンソースのマルチエージェントフレームワークAgentVerseを開発:Minecraftのアイテムを共同で作成し、ポケモンを訓練

ブログ    
ブログ    

推薦する

今後10年間で、AIは次の10の分野で世界に革命を起こすだろう

21 世紀に実現可能かつ実現されるであろう AI の驚くべき応用例をすべて紹介します。 AI が世界...

異常検出に機械学習を使用する際に尋ねるべき 7 つの質問

導入異常検出に関するいくつかの入門的な質問。質問することは学習するための最良の方法の一つです。しかし...

人工知能は10の新たな雇用を生み出す

25秒で何ができるでしょうか?人間の記者たちがまだショックを受けている間に、ロボットはデータマイニン...

文部省は大学に37の新しい専攻を追加し、そのうち人工知能が3分の1を占める。

近年、科学技術分野で最もホットな言葉は何でしょうか?5G、人工知能などが間違いなくそのリストに入って...

Java プログラミング スキル - データ構造とアルゴリズム「バランス バイナリ ツリー」

[[390860]]バイナリソートツリーで起こりうる問題シーケンス {1,2,3,4,5,6} が...

私たちは人工知能をどれほど深く誤解しているのか

[[320546]]人工知能技術には良い影響と悪い影響の両方があり、人類に利益をもたらす一方で、さま...

交通分野におけるUAV航空調査の応用

ドローン航空調査は、無線遠隔制御装置と自己完結型プログラム制御装置によって制御される無人航空機であり...

人工知能は学習意欲のない人々に取って代わるのでしょうか?

AI は学習を望まない人々に取って代わるのでしょうか? 日常的に AI が使われる時代では、AI ...

上海の疫病対策において人工知能は何を果たしたのか?

4月8日、「上海デジタル変革リーディンググループオフィス」が主導し、上海スマートシティ発展研究所が...

...

ICLRスポットライト!清華大学は時系列異常検出アルゴリズムを提案し、5つのSOTA結果を達成した。

現実世界のシステムは、動作中に大量の時系列データを生成します。これらの時系列データを通じてシステム内...

...

...

顔認識技術が明らかに、未来はもうすぐ「手の届くところ」に!

[51CTO.com からのオリジナル記事]昨日の記事「顔認識の威力はどれほどか? AIFR 技術...