AI推理对比
测试AI回答姜文导演拍摄《让子弹飞》时的年龄问题,考察细节理解与推理计算能力。成功模型准确找出开拍时间和年龄差值;半成功和失败模型则存在错误或不稳定性。 2025-7-16 15:2:31 Author: blog.xlab.app(查看原文) 阅读量:6 收藏

发表于 分类于 阅读次数: 本文字数: 385 阅读时长 ≈ 1 分钟

看着姜文新电影预告,想到一个问题考考AI:让子弹飞是导演几岁的时候拍的

考点

问题是什么时候拍的,而不是什么时候上映的,需要细节理解能力

需要查到开拍时间,再对比姜文出生日期,准确的计算差值得到年龄,需要推理和计算能力

成功的模型

正确理解问题,找到开拍时间,并正确计算年龄,给出正确答案

  • openai-o3,思考1m34s
  • deepseek-r1,思考18s
  • 元宝-t1,思考8s

半成功的模型

过程和结论有一个模糊或者错误,或者结果不稳定

  • openai-4.1
  • openai-4.1-mini
  • 豆包-思考
  • claude-sonnet-4
  • kimi-k2

失败的模型

  • openai-4o
  • openai-o4-mini
  • openai-o4-mini-high
  • 元宝-微信对话
  • kimi-k1.5
  • 豆包-自动
  • qwen3-235b-a22b-思考-网页
  • qwen3-30b-a3b
  • qwen3-32b
  • qwen2.5-max

文章来源: https://blog.xlab.app/p/32a259a3/
如有侵权请联系:admin#unsafe.sh