现在选择有点多,手机装太多app也有点麻烦,对比测试一下
参赛选手
ChatGPT:图文,可选联网/推理
豆包:图文,自动联网
元宝:混元支持图文,自动联网,DeepSeek仅文本,可选联网
DeepSeek:文本,可选联网
Gemini:图文,自动联网,推理模型不联网
Kimi:图文,可选联网
推理搜索
搞了一个需要一点点推理能力的简单问题
1926-08-17 有什么特殊含义,主要考虑中国相关信息
对于模型/联网可选项进行排列组合,回答出来的有
- 元宝-混元+自动联网
- 元宝-DeepSeek+联网
- Kimi-k1.5+联网
- ChatGPT+推理(o3-mini)+联网
- Gemini-2.0 Flash+自动联网
没联网的模型全军覆没,看来模型的内置知识库确实都没有答案
能联网的可能输在搜索太差
创作类
对于创作类问题,问了关于内容平台在推荐算法差异的问题
定性分析推荐内容包含历史内容的情况
B站:首页推荐仅包含近期发布,最多包含历史1-2个月
抖音:虽然移动端不显示时间,但Web版本显示,与B站类似,但有极少数1年前的
YouTube:首页推荐多数近期,但1年前,甚至3年前也有不少
为什么不抄YouTube把优质的历史内容推荐出来呢?
第一梯队:Gemini 2.0 Flash Thinking-无法联网
第二梯队:元宝-DeepSeek+联网,ChatGPT+推理+联网
第三梯队:其他
Gemini Thinking的质量意外的好,断层领先
元宝DeepSeek有微信公众号加成,比原版DeekSeek好
Kimi k1.5显得有些普通,和非推理模型没有显著优势
网页阅读总结
只有豆包和Kimi能完成,Kimi比豆包效果好
Kimi k1.5容易丢失细节,感觉不如Kimi
图片理解
上传一个铁艺制品照片,问这是什么,分4个项目:理解材质,理解形象,包含其他细节,理解寓意
- ChatGPT:4
- 豆包:3,缺少理解寓意
- Gemini:3,缺少其他细节
- 元宝-混元:理解材质,包含其他细节,无法理解形象
- Kimi:理解材质,形象错误
总结
这是一个可长期跟踪的事情,设定自己日常任务做Benchmark
ChatGPT在功能和效果上都是万金油般的存在,Gemini可以作为备选
元宝DeekSeek,带微信公众号搜索的特殊加成,且没有限速问题,比原版好用
Kimi独占网页总结