测试表明 DeepSeek V4 的性能比美国领先模型落后约 8 个月

测试表明 DeepSeek V4 的性能比美国领先模型落后约 8 个月
DeepSeek V4 是迄今为止在 CAISI 评估的各个领域（网络安全、软件工程、自然科学、抽象推理和数学）中性能最强的 PRC 模型。CAISI 在上述五个领域 2026-5-3 08:1:44 Author: blog.upx8.com(查看原文) 阅读量:13 收藏

DeepSeek V4 是迄今为止在 CAISI 评估的各个领域（网络安全、软件工程、自然科学、抽象推理和数学）中性能最强的 PRC 模型。CAISI 在上述五个领域中的九个基准测试中对模型进行了评估，其中包括两个未受污染的独立基准测试：ARC-AGI-2 的半私有数据集和 CAISI 内部开发的软件工程评估平台 PortBench。DeepSeek V4 的性能比美国领先模型落后约 8 个月

DeepSeek V4 是迄今为止经 CAISI 评估的最强大的中国人工智能模型。CAISI的评估涵盖网络安全、软件工程、自然科学、抽象推理和数学等领域。
DeepSeek V4 在 DeepSeek 自行发布的评估中得分高于 CAISI 的评估结果。根据 DeepSeek 的数据，DeepSeek V4 的性能与大约两个月前发布的 Opus 4.6 和 GPT-5.4 相当。然而，CAISI 的评估（包括非公开基准测试）表明，DeepSeek V4 的性能与大约八个月前发布的 GPT-5 类似。
与其他功能相近的型号相比，DeepSeek V4 更具成本效益。与最具性价比的美国参考型号（GPT-5.4 mini）相比，DeepSeek V4 在 7 项基准测试中的 5 项上都更具成本效益。在这 7 项基准测试中，DeepSeek V4 的价格优势在 53% 到 41% 之间。

文章来源: https://blog.upx8.com/%E6%B5%8B%E8%AF%95%E8%A1%A8%E6%98%8E-DeepSeek-V4-%E7%9A%84%E6%80%A7%E8%83%BD%E6%AF%94%E7%BE%8E%E5%9B%BD%E9%A2%86%E5%85%88%E6%A8%A1%E5%9E%8B%E8%90%BD%E5%90%8E%E7%BA%A6-8-%E4%B8%AA%E6%9C%88
如有侵权请联系:admin#unsafe.sh