米国のパデュー大学が最近発表した「誰の回答が優れているか? ChatGPT と Stack Overflow のソフトウェア エンジニアリングの質問に対する回答の詳細な分析」と題する研究レポートでは、ChatGPT がソフトウェア プログラミングの質問に答える際のエラー率が半分以上であることが指摘されています。 研究チームは、517 件の Stack Overflow の質問に対する ChatGPT の回答を分析し、ChatGPT の回答の正確性、一貫性、包括性、簡潔性を評価しました。同時に、これらの回答に対して大規模な言語分析とユーザー調査を実施し、ChatGPT 回答の特徴を言語的および人文的な側面から理解しました。 結果によると、ChatGPT の回答の 52% は誤りであり、77% は長すぎることがわかりました。しかし、それにもかかわらず、39.34% の人が、その包括性と明確な言語スタイルを考慮して、ChatGPT の回答を選択しました。 徹底的な手動分析により、ChatGPT の回答には多数の概念的および論理的エラーがあることが明らかになりました。「ChatGPT は質問の基本的な文脈を理解できなかったため、多くの回答が間違っていました。」言語分析の結果、ChatGPT の応答は非常に形式的で、否定的な感情やリスクを描写することはほとんどないことがわかりました。「ChatGPT が『間違いなくお手伝いできます』や『これは間違いなく解決できます』などの文を挿入するのを何度も観察しました。」 「私たちの研究結果は、ChatGPTのエラーを注意深く確認して修正するとともに、一見正しいように見えるChatGPTの回答がもたらすリスクをユーザーに認識させる必要があることを示唆しています。」 研究者たちは、ユーザーが ChatGPT の回答のエラーに気付くのは、エラーが非常に明白な場合のみであることを観察しました。しかし、エラーの検証が容易でなかったり、外部の IDE やドキュメントが必要な場合、ユーザーはエラーを認識できなかったり、答えが間違っていることを過小評価したりする傾向があります。 「丁寧な言葉遣い、教科書通りの明確な回答、包括的で関連性のある回答により、完全に間違った回答が正しいように感じられることがあります。」 パデュー大学の博士課程の学生で、論文の著者の一人であるサミア・カビール氏は、回答者はStack Overflowの回答よりも、不正確で長いChatGPTの回答を好んだとThe Registerに語った。この現象にはいくつかの理由があります。
研究者による ChatGPT の回答と Stack Overflow の回答の言語分析では、ボットの応答は「より形式的で、より分析的な思考を表現し、より分析的な思考を表現し、目標達成に向けてより多くの努力を注ぎ、否定的な感情をあまり表現していない」ことが示されました。感情分析の結果、ChatGPT の回答は Stack Overflow の回答よりも「より肯定的な感情」を表現していると結論付けられました。 「この調査の調査結果と観察に基づいて、Stack Overflow はコメントや回答の有害性と否定性を検出し、感情と礼儀正しさを向上させる効果的な方法を採用できると提案します。また、Stack Overflow は回答の発見可能性を向上させて、役立つ回答を見つけやすくしたいと考えているかもしれません。さらに、Stack Overflow は、回答者が回答を作成するのに役立つ、たとえばステップバイステップで詳細に焦点を当てた方法など、より具体的なガイドラインを提供する必要があるかもしれません。」 この論文では、この研究は、さまざまな種類の概念的および事実上の誤りを特定し、削減する方法についてのさらなる研究を促進することも目的としていると指摘しています。 「この研究が、特にSEの分野において、機械が生成した回答の透明性と不正確さの伝達に関する研究をさらに促進することを期待しています。」 |
>>: 「磁石の可能性が高い!」プリンストン大学のLK-99研究は北京大学の結果を支持し、38ページの論文は銅が鉛の代替品として現実的ではない可能性を示唆している
人工知能(AI)への世界的な支出は、今後4年間で2020年の501億ドルから2024年には1100億...
バイオニック鳥類や昆虫はドローン研究の分野で常に重要なテーマであり、スタンフォード大学の学者が作った...
建設業は最も長い歴史を持つ産業の一つであると言えます。結局のところ、人々は数千年前から様々なタイプの...
中国のバレンタインデーがちょうど終わったばかりで、編集者がオンラインにアクセスするとすぐに、偉大な芸...
最近では、GPT や LLaMA などの大規模言語モデル (LLM) が世界中で人気になっています。...
複雑なシステムを予測するには、より多くのニューロンを使用する必要がありますか?ネイチャー・コミュニケ...
注意してください、小帥は振り向きましたが、スウェットシャツのフードの中には何もありませんでした。さて...
世界的なパンデミックの影響で、世界各地でロックダウンが実施されたことにより、街の交通量は減少し、地域...
人工知能は、コンピューターが人間と同様のレベルの知能を発揮できるようにするさまざまな技術を網羅する幅...