ChatGPTの科学的推論の不整合性を検証(AI gets a D: Study shows inaccuracies, inconsistency in ChatGPT answers)

026-03-16 ワシントン州立大学(WSU)

ワシントン州立大学(WSU)の研究は、AIチャットボット(特にChatGPT)の回答精度と一貫性に課題があることを示した。複数の質問に対する応答を評価した結果、誤情報や矛盾した回答が一定割合で発生し、信頼性にばらつきがあることが確認された。特に専門的・事実確認が必要な内容では精度低下が顕著で、同一質問でも異なる回答が生成されるケースが見られた。研究者は、AIの活用には人間による検証が不可欠であると指摘し、教育や意思決定への利用には慎重さが求められるとしている。

ChatGPTの科学的推論の不整合性を検証(AI gets a D: Study shows inaccuracies, inconsistency in ChatGPT answers)
Illustration by ismagilov on iStock

<関連情報>

不安定な知能:ジェネレーティブAIは精度と一貫性に課題を抱えている Unstable Intelligence: GenAI Struggles with Accuracy and Consistency

Mesut Cicek,Sevincgul Ulu,Can Uslay ,Kate Karniouchina
Rutgers Business Review   Published:2025

Abstract

This study examines the accuracy and consistency of Generative AI (GenAI) by testing ChatGPT’s ability to estimate the accuracy of 719 business research hypotheses. For critical tasks, we find GenAI performance to be inadequate in terms of accuracy and consistency. Accuracy improved only marginally from 76.5% (GPT-3.5, 2024) to 80% (GPT-5 mini, 2025), yielding an effective chanceadjusted accuracy of only 60%. Moreover, accuracy drops significantly for insignificant hypotheses, reaching only 16.4% in 2025. Crucially, consistency across ten identical prompts was poor, with over a quarter of the cases having at least one incorrect estimation. We conclude that GenAI’s linguistic fluency is not yet backed by commensurate conceptual intelligence and frequently produces unreliable output, necessitating vigilant human oversight.

1603情報システム・データ工学
ad
ad
Follow
ad
タイトルとURLをコピーしました