OpenAI发布旗舰AI模型GPT-5：高精度与编程能力再突破，幻觉降低45%

官方公众号企业安全新浪微博

FreeBuf.COM网络安全行业门户，每日发布专业的安全资讯、技术剖析。

FreeBuf+小程序

FreeBuf+小程序把安全装进口袋

AI安全

模型性能全面升级

OpenAI今日正式发布其最新旗舰人工智能模型GPT-5，该模型在智能基准测试中全面超越前代产品，能够以极高准确率回答问题。OpenAI首席执行官兼联合创始人Sam Altman表示："GPT-5是GPT-4o的重大升级，也是我们通往AGI（通用人工智能）道路上的重要里程碑。如果说GPT-3像是与高中生对话，那么GPT-5已展现出质的飞跃。"

该模型在编程、前端设计和大型代码库调试方面实现显著突破，同时在写作和报告生成等场景中展现出更深入的上下文理解能力。技术架构上，GPT-5采用混合系统设计，可自动在标准应答模式与深度推理的"思考模式"间切换，用户也可通过指令手动启用思考模式。

基准测试表现亮眼

性能测试显示，GPT-5在数学、编程、视觉感知和健康等领域创下新纪录：

数学：在AIME 2025测试中达到94.6%（无工具辅助）
编程：SWE-bench Verified测试74.9%，Aider Polyglot测试88%
多模态理解：MMMU测试84.2%
健康领域：HealthBench Hard测试46.2%

横向对比显示，GPT-5在SWE-bench Verified测试中领先Anthropic的Claude Opus 4.1（74.5%）和谷歌Gemini 2.5 Pro（59.6%）。在综合智力测试"Humanity's Last Exam"中，强化推理版的GPT-5 Pro获得42%的得分（使用工具时），略低于xAI的Grok 4 Heavy（约44%）。

关键问题改进

针对用户关心的"幻觉问题"（模型虚构事实的倾向），OpenAI表示启用网络搜索时，GPT-5产生事实错误的概率比GPT-4o降低约45%；启用思考模式后进一步降低80%。模型还解决了"谄媚问题"——减少过度附和用户的倾向及不必要表情符号的使用。

智能编程新突破

GPT-5在代理式编程（agentic coding）领域展现出卓越能力。Cursor代码平台开发商Anysphere公司CEO Michael Truell评价："GPT-5不仅能发现深藏的逻辑错误，还能运行多轮后台代理程序完成复杂任务。"该模型已深度集成至Cursor、Windsurf、GitHub Copilot等编程平台。

特别值得注意的是，GPT-5强化了"氛围编程"（vibe coding）能力——开发者通过自然语言提示生成代码，而非手动编写。OpenAI研究员Yan Dubois表示："GPT-5真正让每个人都能创作优美高效的代码。"模型还新增对色彩、界面设计和用户意图的深度理解能力。

商业化部署

GPT-5即日起作为默认模型向ChatGPT登录用户开放，取代GPT-4o。开发者可通过API获取三个版本：GPT-5、GPT-5-mini和GPT-5-nano，支持成本、延迟和推理深度的灵活配置。新增工具调用引导、冗余控制等功能，使模型比前代更可靠、更可调。

OpenAI解决方案架构师Yan Dubois表示："这是首个让我放心托付重要工作的AI模型，它已超越氛围编程的范畴。"

参考来源：

OpenAI unveils GPT-5, a new flagship AI model with high accuracy and coding power

本文为独立观点，未经授权禁止转载。
如需授权、对文章有疑问或需删除稿件，请联系 FreeBuf 客服小蜜蜂（微信：freebee1024）