GPT-3は創造性に欠けるにもかかわらず、わずか20分で合格できる大学論文を書いた。

GPT-3で書かれた論文は通過したのでしょうか？教育リソースウェブサイトEduRefがこれに関するテストを実施したところ、結果は満足のいくもので、合格レベルに達しました。

2020年5月、OpenAIは1750億のパラメータを持つ史上最大のAIモデルGPT-3をリリースしました。このモデルは質問に答えたり、翻訳したり、記事をより良く書いたりできるだけでなく、数学的な計算機能も備えています。このモデルは発売以来、質問ベースの検索エンジン、歴史上の人物との会話、テキスト記述に基づくコード生成、描画や画像の完成など、さまざまな分野でその能力を発揮し始めています。

しかし、GPT-3 の応用はまだ終わっていません...

最近、教育リソースウェブサイトEduRefがテストを実施しました。彼らは教授のグループを見つけてライティングプロンプトを作成し、最近の卒業生、学部生、GPT-3に同時にプロンプトに従って書くように依頼しました。最後に、教授グループは匿名で提出されたエッセイを採点し、著者に対して追跡調査を実施しました。それで、結果はどうでしょうか? GPT-3 は人間の著者を上回るスコアを獲得できるでしょうか?必ずしもそうではありません!

GPT-3はほとんどのコースのライティングテストに合格しました

諺にもあるように、「C は学位を得る」。 AIは完璧からは程遠く、GPT-3のライティングレベルはフリーランスのライターとほぼ同等です。

結果によると、COVID-19ワクチンの有効性に関する研究方法論文を書く場合、人間の著者はBまたはDの評価を受けることができるが、GPT-3はCしか受けないことが多い。アメリカの歴史に関するテストでは、人間の著者はアメリカの例外主義に関するエッセイで B または C+ を獲得できましたが、GPT-3 は B- しか獲得できませんでした。最後に、法律の授業での政策レター作成タスクでは、GPT-3 は B- を獲得しましたが、高得点を獲得できたのは 3 人の学生のうち 1 人だけでした。

次の図は、さまざまな科目における人間の著者と GPT-3 の執筆スコアを示しています。

GPT-3 のライティングスキルは主に技術文書に反映されていることがわかります。クリエイティブライティングコースの代替物語ライティングタスクでは、GPT-3 は F 評価しか得られず、テストに不合格となりました。対照的に、フリーランスのライターは A、B+、D+ を獲得しました。 GPT-3 は創作教授たちの目には失敗作に映ったものの、自然言語生成 (NLG) ソフトウェアは今でも、受賞寸前の小説『コンピューターが小説を書く日』など、あらゆる種類のコンテンツの作成に使用できます。過去の成功は将来の失敗を予兆するものでもあります。GPT-3 が有能なクリエイティブライターになるには、いくつかの調整のみが必要になる可能性があります。全体として、 AIはほぼすべてのコースライティングテストに合格しました。

GPT-3は20分で論文を完成させた

教授ごとに採点方法は異なりますが、採点委員会には博士号取得者 2 名と医学博士号取得者 1 名が含まれています。二人合わせて、高校やさまざまな大学レベルで 55 年以上の教育経験があります。執筆者には最近卒業した学生や学部生も含まれ、中には自分の研究分野に関するテーマを書いた人もいました。平均すると、タスクを完了するには 3 日かかります。

ほとんどの学生にとって、3日以内に大学の論文を完成させることは、主に時間が短すぎるという理由で難しい作業のように思えますが、 GPT-3 は 20 分以内にこの作業を完了しました。 GPT-3 はディープラーニングを使用して人間のようなテキストを生成します。各タスクの完了には 3 ～ 20 分かかり、創造的な文章を書くのに最も時間がかかります。人間の介入を避けるために、GPT-3 は出力の長さと繰り返しテキストにわずかな編集のみを行い、生成されたコンテンツ、実際の情報、文法には影響しませんでした。

GPT-3 によって生成されたアメリカの歴史エッセイの例は次のとおりです。

GPT-3は人間の文章に似たコンテンツを生成できる

人間の介入がなくても、GPT-3 のタスクは人間の著者とほぼ同じフィードバックを受け取りました。コメントの 49.2% は文法と構文に関するもので、26.2% は強調と詳細に関するもので、語調とテキスト構造についても言及されていましたが、それぞれ 12.3% と 10.8% に過ぎませんでした。これは人間のライターが受け取るコメントの割合とほぼ同じで、コメントの約 50% が文法と構文に関連し、25.4% が焦点と詳細に関連しています。コメントの 13% 以上は人間の専門知識に関するものであり、10.4% は全体的なスタイルなどに関するものでした。

人間の著者から受け取ったコメントとフィードバックと GPT-3 の執筆結果:

同じスタイルのコメントを受け取ったにもかかわらず、 GPT-3 によって生成されたコンテンツは人間の著者のものとそれほど類似していませんでした。上位 2 語の組み合わせを例にとると、GPT-3 と人間の著者が共有したのは、上位の組み合わせ「of the」のみでした。 GPT-3 では「People who」、「it is」、「those who」がよく使用されますが、人間の著者は「to the」、「in the」、「on the」をよく使用します。全体的に、これらの単語は英語で頻繁に使用されており、組み合わせの違いは AI と人間の文章構造の違いを示しています。

人間の著者と GPT-3 の文言の違いの分析:

GPT-3 の論文スコアが非常に高いことを考えると、コロケーション統計の違いは、人間の著者が AI よりもはるかに多くの独自のコンテンツを作成していることを示唆しています。

GPT-3 の出力は素晴らしいものの、生成される論文だけではすぐに大学の学位を取得するには不十分です。 GPT-3 は人間の作家と競争したとき、ある程度の合格点を獲得しましたが、創造的な執筆では不十分でした。多くの分野での成功は AI の将来に希望をもたらしますが、大学教授にとってはまだ不十分です。

<<: ホワイトペーパー「マシンビジョンセキュリティカメラの画質評価手法に関する調査レポート」を公開

>>: 2021年の世界トップ10の画期的テクノロジー：TikTokアルゴリズムと北斗ナビゲーションがリストに