ChatGPT と Stack Overflow: どちらの回答がより良いでしょうか?

ChatGPT と Stack Overflow: どちらの回答がより良いでしょうか?

米国のパデュー大学が最近発表した「誰の回答が優れているか? ChatGPT と Stack Overflow のソフトウェア エンジニアリングの質問に対する回答の詳細な分析」と題する研究レポートでは、ChatGPT がソフトウェア プログラミングの質問に答える際のエラー率が半分以上であることが指摘されています。

研究チームは、517 件の Stack Overflow の質問に対する ChatGPT の回答を分析し、ChatGPT の回答の正確性、一貫性、包括性、簡潔性を評価しました。同時に、これらの回答に対して大規模な言語分析とユーザー調査を実施し、ChatGPT 回答の特徴を言語的および人文的な側面から理解しました。

結果によると、ChatGPT の回答の 52% は誤りであり、77% は長すぎることがわかりました。しかし、それにもかかわらず、39.34% の人が、その包括性と明確な言語スタイルを考慮して、ChatGPT の回答を選択しました。

徹底的な手動分析により、ChatGPT の回答には多数の概念的および論理的エラーがあることが明らかになりました。「ChatGPT は質問の基本的な文脈を理解できなかったため、多くの回答が間違っていました。」言語分析の結果、ChatGPT の応答は非常に形式的で、否定的な感情やリスクを描写することはほとんどないことがわかりました。「ChatGPT が『間違いなくお手伝いできます』や『これは間違いなく解決できます』などの文を挿入するのを何度も観察しました。」

「私たちの研究結果は、ChatGPTのエラーを注意深く確認して修正するとともに、一見正しいように見えるChatGPTの回答がもたらすリスクをユーザーに認識させる必要があることを示唆しています。」

研究者たちは、ユーザーが ChatGPT の回答のエラーに気付くのは、エラーが非常に明白な場合のみであることを観察しました。しかし、エラーの検証が容易でなかったり、外部の IDE やドキュメントが必要な場合、ユーザーはエラーを認識できなかったり、答えが間違っていることを過小評価したりする傾向があります。 「丁寧な言葉遣い、教科書通りの明確な回答、包括的で関連性のある回答により、完全に間違った回答が正しいように感じられることがあります。」

パデュー大学の博士課程の学生で、論文の著者の一人であるサミア・カビール氏は、回答者はStack Overflowの回答よりも、不正確で長いChatGPTの回答を好んだとThe Registerに語った。この現象にはいくつかの理由があります。

主な理由の 1 つは、ChatGPT の回答が非常に詳細であることです。多くの場合、参加者は回答から有益な情報を得られるのであれば、回答の長さを気にしませんでした。さらに、ポジティブな感情と丁寧な回答も他の 2 つの要素です。

参加者は ChatGPT の回答が有益だと感じた場合、間違いを無視しました。 ChatGPT が洞察に富んだ情報を自信を持って伝える方法 (たとえそれが間違っていても) はユーザーの信頼を獲得し、間違った回答を好むようになります。

研究者による ChatGPT の回答と Stack Overflow の回答の言語分析では、ボットの応答は「より形式的で、より分析的な思考を表現し、より分析的な思考を表現し、目標達成に向けてより多くの努力を注ぎ、否定的な感情をあまり表現していない」ことが示されました。感情分析の結果、ChatGPT の回答は Stack Overflow の回答よりも「より肯定的な感情」を表現していると結論付けられました。

「この調査の調査結果と観察に基づいて、Stack Overflow はコメントや回答の有害性と否定性を検出し、感情と礼儀正しさを向上させる効果的な方法を採用できると提案します。また、Stack Overflow は回答の発見可能性を向上させて、役立つ回答を見つけやすくしたいと考えているかもしれません。さらに、Stack Overflow は、回答者が回答を作成するのに役立つ、たとえばステップバイステップで詳細に焦点を当てた方法など、より具体的なガイドラインを提供する必要があるかもしれません。」

この論文では、この研究は、さまざまな種類の概念的および事実上の誤りを特定し、削減する方法についてのさらなる研究を促進することも目的としていると指摘しています。 「この研究が、特にSEの分野において、機械が生成した回答の透明性と不正確さの伝達に関する研究をさらに促進することを期待しています。」

<<:  AIに人間の思考や行動を模倣させる方法

>>:  「磁石の可能性が高い!」プリンストン大学のLK-99研究は北京大学の結果を支持し、38ページの論文は銅が鉛の代替品として現実的ではない可能性を示唆している

ブログ    
ブログ    
ブログ    

推薦する

トレンドにおける危険とチャンス: 生成 AI の黄金期をどう捉えるか?

ChatGPTは今年9月末に音声チャットと画像認識機能を追加しました。テキスト駆動型と比較して、C...

アンドリュー・ン氏のチームが2019年のAIトレンドを振り返る:自動運転は寒い冬を迎え、ディープフェイクはモンスターとなった

あと数日で2019年も終わりです。今年は AI が夢から現実へと移り変わる年です。NLP から自動運...

人工知能について知っておくべきことすべて

人工知能とは何でしょうか? この質問に対する答えは、誰に尋ねるかによって異なります。 1950 年代...

誰もが今から準備すべき、2020 年のキャリアを変える 6 つのテクノロジー トレンド

[51CTO.com クイック翻訳] 新しいテクノロジーの導入により、私たちの職場は変化しています。...

マイクロソフトはOpenAIに10億ドルを投資:公にはAGIのため、密かにGoogleと競合、クラウドコンピューティングを投資と交換したと非難

[[271493]] AIの巨大競争において、マイクロソフトは本日、新たな重要な一歩を踏み出しました...

顔認識はどのように実現されるのでしょうか? コンピューターはカメラを通じてどのように私たちの身元を識別するのでしょうか?

携帯電話を使って顔をスキャンして支払いをするとき、会社の入退室管理を通過するとき、あるいは道路を運転...

知らないうちに個人のプライバシーを人工知能に「提供」しないでください

[[260334]] BBCによると、IBMは最近、顔認識アルゴリズムの訓練のため、ユーザーの同意を...

人工知能が都市の健康に革命をもたらす方法

今日、健康は精神的、社会的、政治的、経済的、都市的健康など、さまざまな分野に関連しています。今日、都...

...

自動運転はトラック運転手の失業を加速させている

上海深水港物流園区を出発し、東シナ海大橋を通り、陽山港ターミナルまで、往復72キロの有名な地元物流環...

マーケターが人工知能を採用する時が来た

[[275753]] [51CTO.com クイック翻訳] あらゆる業界の先進的な企業は、人工知能を...

自動運転開発ツールチェーンの現状と動向を20,000語で解説

要点: 1. 自動車会社が独自の自動運転システムを開発することがトレンドとなっている。 2. MBD...

もう一つの(深層)学習:自己教師あり学習は次の大きなものになるでしょうか?

自己教師あり学習入門[[251602]]確かに、ディープラーニングは、特に画像認識タスクにおいて、機...

リモートワークにおけるAIの活用事例

世界中の組織がリモートワークに移行する必要に迫られ、業務を維持するために技術的な対策が必要になりまし...

ソフトウェアの欠陥予測のためのソフトウェア可視化と転移学習の活用

論文のデータセットとコードはオープンソース化されています: https://zenodo.org/r...