OpenAI发布旗舰AI模型GPT-5:高精度与编程能力再突破,幻觉降低45%
OpenAI发布最新旗舰AI模型GPT-5,在智能基准测试中全面超越前代产品。该模型采用混合系统设计,在编程、前端设计等方面实现突破,并显著提升了上下文理解能力。启用思考模式后,“幻觉问题”大幅减少。即日起向ChatGPT用户开放,默认取代前代模型。 2025-8-7 13:15:8 Author: www.freebuf.com(查看原文) 阅读量:9 收藏

freeBuf

主站

分类

云安全 AI安全 开发安全 终端安全 数据安全 Web安全 基础安全 企业安全 关基安全 移动安全 系统安全 其他安全

特色

热点 工具 漏洞 人物志 活动 安全招聘 攻防演练 政策法规

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户,每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序

image

模型性能全面升级

OpenAI今日正式发布其最新旗舰人工智能模型GPT-5,该模型在智能基准测试中全面超越前代产品,能够以极高准确率回答问题。OpenAI首席执行官兼联合创始人Sam Altman表示:"GPT-5是GPT-4o的重大升级,也是我们通往AGI(通用人工智能)道路上的重要里程碑。如果说GPT-3像是与高中生对话,那么GPT-5已展现出质的飞跃。"

该模型在编程、前端设计和大型代码库调试方面实现显著突破,同时在写作和报告生成等场景中展现出更深入的上下文理解能力。技术架构上,GPT-5采用混合系统设计,可自动在标准应答模式与深度推理的"思考模式"间切换,用户也可通过指令手动启用思考模式。

基准测试表现亮眼

性能测试显示,GPT-5在数学、编程、视觉感知和健康等领域创下新纪录:

  • 数学:在AIME 2025测试中达到94.6%(无工具辅助)
  • 编程:SWE-bench Verified测试74.9%,Aider Polyglot测试88%
  • 多模态理解:MMMU测试84.2%
  • 健康领域:HealthBench Hard测试46.2%

横向对比显示,GPT-5在SWE-bench Verified测试中领先Anthropic的Claude Opus 4.1(74.5%)和谷歌Gemini 2.5 Pro(59.6%)。在综合智力测试"Humanity's Last Exam"中,强化推理版的GPT-5 Pro获得42%的得分(使用工具时),略低于xAI的Grok 4 Heavy(约44%)。

关键问题改进

针对用户关心的"幻觉问题"(模型虚构事实的倾向),OpenAI表示启用网络搜索时,GPT-5产生事实错误的概率比GPT-4o降低约45%;启用思考模式后进一步降低80%。模型还解决了"谄媚问题"——减少过度附和用户的倾向及不必要表情符号的使用。

智能编程新突破

GPT-5在代理式编程(agentic coding)领域展现出卓越能力。Cursor代码平台开发商Anysphere公司CEO Michael Truell评价:"GPT-5不仅能发现深藏的逻辑错误,还能运行多轮后台代理程序完成复杂任务。"该模型已深度集成至Cursor、Windsurf、GitHub Copilot等编程平台。

特别值得注意的是,GPT-5强化了"氛围编程"(vibe coding)能力——开发者通过自然语言提示生成代码,而非手动编写。OpenAI研究员Yan Dubois表示:"GPT-5真正让每个人都能创作优美高效的代码。"模型还新增对色彩、界面设计和用户意图的深度理解能力。

商业化部署

GPT-5即日起作为默认模型向ChatGPT登录用户开放,取代GPT-4o。开发者可通过API获取三个版本:GPT-5、GPT-5-mini和GPT-5-nano,支持成本、延迟和推理深度的灵活配置。新增工具调用引导、冗余控制等功能,使模型比前代更可靠、更可调。

OpenAI解决方案架构师Yan Dubois表示:"这是首个让我放心托付重要工作的AI模型,它已超越氛围编程的范畴。"

参考来源:

OpenAI unveils GPT-5, a new flagship AI model with high accuracy and coding power

本文为 独立观点,未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件,请联系 FreeBuf 客服小蜜蜂(微信:freebee1024)


文章来源: https://www.freebuf.com/articles/ai-security/443484.html
如有侵权请联系:admin#unsafe.sh