ChatGPT と Stack Overflow: どちらの回答がより良いでしょうか?

ChatGPT と Stack Overflow: どちらの回答がより良いでしょうか?

米国のパデュー大学が最近発表した「誰の回答が優れているか? ChatGPT と Stack Overflow のソフトウェア エンジニアリングの質問に対する回答の詳細な分析」と題する研究レポートでは、ChatGPT がソフトウェア プログラミングの質問に答える際のエラー率が半分以上であることが指摘されています。

研究チームは、517 件の Stack Overflow の質問に対する ChatGPT の回答を分析し、ChatGPT の回答の正確性、一貫性、包括性、簡潔性を評価しました。同時に、これらの回答に対して大規模な言語分析とユーザー調査を実施し、ChatGPT 回答の特徴を言語的および人文的な側面から理解しました。

結果によると、ChatGPT の回答の 52% は誤りであり、77% は長すぎることがわかりました。しかし、それにもかかわらず、39.34% の人が、その包括性と明確な言語スタイルを考慮して、ChatGPT の回答を選択しました。

徹底的な手動分析により、ChatGPT の回答には多数の概念的および論理的エラーがあることが明らかになりました。「ChatGPT は質問の基本的な文脈を理解できなかったため、多くの回答が間違っていました。」言語分析の結果、ChatGPT の応答は非常に形式的で、否定的な感情やリスクを描写することはほとんどないことがわかりました。「ChatGPT が『間違いなくお手伝いできます』や『これは間違いなく解決できます』などの文を挿入するのを何度も観察しました。」

「私たちの研究結果は、ChatGPTのエラーを注意深く確認して修正するとともに、一見正しいように見えるChatGPTの回答がもたらすリスクをユーザーに認識させる必要があることを示唆しています。」

研究者たちは、ユーザーが ChatGPT の回答のエラーに気付くのは、エラーが非常に明白な場合のみであることを観察しました。しかし、エラーの検証が容易でなかったり、外部の IDE やドキュメントが必要な場合、ユーザーはエラーを認識できなかったり、答えが間違っていることを過小評価したりする傾向があります。 「丁寧な言葉遣い、教科書通りの明確な回答、包括的で関連性のある回答により、完全に間違った回答が正しいように感じられることがあります。」

パデュー大学の博士課程の学生で、論文の著者の一人であるサミア・カビール氏は、回答者はStack Overflowの回答よりも、不正確で長いChatGPTの回答を好んだとThe Registerに語った。この現象にはいくつかの理由があります。

主な理由の 1 つは、ChatGPT の回答が非常に詳細であることです。多くの場合、参加者は回答から有益な情報を得られるのであれば、回答の長さを気にしませんでした。さらに、ポジティブな感情と丁寧な回答も他の 2 つの要素です。

参加者は ChatGPT の回答が有益だと感じた場合、間違いを無視しました。 ChatGPT が洞察に富んだ情報を自信を持って伝える方法 (たとえそれが間違っていても) はユーザーの信頼を獲得し、間違った回答を好むようになります。

研究者による ChatGPT の回答と Stack Overflow の回答の言語分析では、ボットの応答は「より形式的で、より分析的な思考を表現し、より分析的な思考を表現し、目標達成に向けてより多くの努力を注ぎ、否定的な感情をあまり表現していない」ことが示されました。感情分析の結果、ChatGPT の回答は Stack Overflow の回答よりも「より肯定的な感情」を表現していると結論付けられました。

「この調査の調査結果と観察に基づいて、Stack Overflow はコメントや回答の有害性と否定性を検出し、感情と礼儀正しさを向上させる効果的な方法を採用できると提案します。また、Stack Overflow は回答の発見可能性を向上させて、役立つ回答を見つけやすくしたいと考えているかもしれません。さらに、Stack Overflow は、回答者が回答を作成するのに役立つ、たとえばステップバイステップで詳細に焦点を当てた方法など、より具体的なガイドラインを提供する必要があるかもしれません。」

この論文では、この研究は、さまざまな種類の概念的および事実上の誤りを特定し、削減する方法についてのさらなる研究を促進することも目的としていると指摘しています。 「この研究が、特にSEの分野において、機械が生成した回答の透明性と不正確さの伝達に関する研究をさらに促進することを期待しています。」

<<:  AIに人間の思考や行動を模倣させる方法

>>:  「磁石の可能性が高い!」プリンストン大学のLK-99研究は北京大学の結果を支持し、38ページの論文は銅が鉛の代替品として現実的ではない可能性を示唆している

推薦する

センスタイムは香港証券取引所に上場し、最悪の時期から脱却した。

【51CTO.comオリジナル記事】著者: 張傑本日2021年12月30日、SenseTimeの2...

データベースは再び削除されましたが、今回はAIによって削除されました

最近、またデータベース削除事件が起こっていると聞きました。しかし、今回はこれまでとは異なります。作業...

高度な機械学習ノート 1 | TensorFlow のインストールと開始方法

[[185581]]導入TensorFlow は、DistBelief に基づいて Google が...

AIのダークサイド: AIを信頼できるものにする方法

セキュリティとプライバシーに関する懸念は、AI 導入に対する最大の障壁であり、それには十分な理由があ...

パートナーはいますか? Facebookの従業員が休暇中にロボットを家に持ち帰り、死に関する質問に答える

[[286539]]ビッグデータダイジェスト制作著者: 張大毓如、陳若夢春節が近づいてきました!叔母...

...

「電力を大量に消費する」データセンターで AI はどのような役割を果たすのでしょうか?

我が国の「デュアルカーボン」目標の提唱により、データセンターにおける省エネと消費削減が社会的に注目さ...

Yandexとロシア郵便が配達ロボットサービスを開始

外国メディアの報道によると、ロシアの検索エンジン会社ヤンデックスとロシア郵便は最近、モスクワのいくつ...

顔認識はどのような技術サポートに依存していますか?個人のプライバシーが漏洩するでしょうか?

[51CTO.com からのオリジナル記事] 顔認識技術は新しいものではありません。多くの人が携帯...

すべての画像が16x16ワードの価値があるわけではない。清華大学とファーウェイは動的ViTを提案した

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

疫病との戦いに人工知能とビッグデータが爆発的に役立つでしょうか?

[[315014]]新型コロナウイルス感染症の発生と蔓延は、全国の人々の心を動かしました。社会のあ...

AIを活用してパイロットプロジェクトを計画する方法

人工知能 (AI) は、あらゆる業界の企業にビジネス運営の成長と改善の機会を提供します。 Fortu...

DALL·Eの超進化により、写真の品質と芸術性が大幅に向上し、写真をシームレスに修正することもできるようになりました。

この記事はAI新メディアQuantum Bit(公開アカウントID:QbitAI)より許可を得て転載...

...