研究称五大头部AI平台50%医学建议有问题
好,我现在需要帮用户总结一篇文章的内容,控制在100字以内,而且不需要特定的开头。首先,我得仔细阅读用户提供的文章内容。 文章讲的是美国、加拿大和英国的研究人员评估了五个主要的AI平台,包括ChatGPT、Gemini、Meta AI、Grok和DeepSeek。他们测试了这些AI在五个健康类别下的表现,每个类别提了10个问题。结果显示,大约50%的回答有问题,其中20%属于高度有问题。 接下来,我需要提取关键信息:研究人员来自哪些国家?评估了哪些AI平台?测试的方法是什么?结果如何?以及不同问题类型的表现差异。 然后,我要把这些信息浓缩到100字以内。注意不要使用“文章内容总结”这样的开头词。可能的结构是:研究人员评估了五个AI平台,在健康问题上的回答中50%有问题,20%高度问题。不同问题类型表现差异明显。 最后,检查字数是否符合要求,并确保信息准确无误。 </think> 来自美国、加拿大和英国的研究人员评估了ChatGPT、Gemini等五大AI平台在健康领域的表现。测试结果显示,约50%的回答存在问题,其中近20%属于高度问题。不同问题类型下表现差异明显:封闭式提问及疫苗、癌症相关问题表现较好,而开放式问题及干细胞研究等领域表现较差。 2026-4-15 02:33:37 Author: blog.upx8.com(查看原文) 阅读量:5 收藏

来自美国、加拿大和英国的研究人员评估了五大头部AI平台:ChatGPT、Gemini、Meta AI、Grok和DeepSeek,方法是在五个健康类别下分别向每个平台提出10个问题。根据本周发表在医学期刊《BMJ Open》上的研究结果,在这些AI聊天机器人的所有回答中,约有50%被认为 “有问题”,其中近20%属于“高度有问题”。研究发现,这些聊天机器人在不同类型问题上的表现差异明显:在封闭式提问 (答案确定) 以及与疫苗和癌症相关的问题上表现相对更好,但在开放式问题以及如干细胞研究和营养学等领域表现较差。研究人员表示,这些回答通常以自信和确定的口吻给出,但没有一个聊天机器人在回答任何提示时能提供完整且准确的参考文献列表。

—— 凤凰网科技彭博社


文章来源: https://blog.upx8.com/%E7%A0%94%E7%A9%B6%E7%A7%B0%E4%BA%94%E5%A4%A7%E5%A4%B4%E9%83%A8AI%E5%B9%B3%E5%8F%B050-%E5%8C%BB%E5%AD%A6%E5%BB%BA%E8%AE%AE%E6%9C%89%E9%97%AE%E9%A2%98
如有侵权请联系:admin#unsafe.sh