AI应用功能和效果对比
文章对比测试了多个AI模型(如ChatGPT、豆包、元宝等),评估其联网能力、推理能力和内容推荐算法等性能。结果显示联网模型表现更优,Gemini在创作类问题中领先,元宝结合微信公众号搜索效果较好。 2025-2-16 14:57:4 Author: blog.xlab.app(查看原文) 阅读量:2 收藏

现在选择有点多,手机装太多app也有点麻烦,对比测试一下

参赛选手

ChatGPT:图文,可选联网/推理

豆包:图文,自动联网

元宝:混元支持图文,自动联网,DeepSeek仅文本,可选联网

DeepSeek:文本,可选联网

Gemini:图文,自动联网,推理模型不联网

Kimi:图文,可选联网

推理搜索

搞了一个需要一点点推理能力的简单问题

1926-08-17 有什么特殊含义,主要考虑中国相关信息

对于模型/联网可选项进行排列组合,回答出来的有

  • 元宝-混元+自动联网
  • 元宝-DeepSeek+联网
  • Kimi-k1.5+联网
  • ChatGPT+推理(o3-mini)+联网
  • Gemini-2.0 Flash+自动联网

没联网的模型全军覆没,看来模型的内置知识库确实都没有答案

能联网的可能输在搜索太差

创作类

对于创作类问题,问了关于内容平台在推荐算法差异的问题

定性分析推荐内容包含历史内容的情况
B站:首页推荐仅包含近期发布,最多包含历史1-2个月
抖音:虽然移动端不显示时间,但Web版本显示,与B站类似,但有极少数1年前的
YouTube:首页推荐多数近期,但1年前,甚至3年前也有不少
为什么不抄YouTube把优质的历史内容推荐出来呢?

第一梯队:Gemini 2.0 Flash Thinking-无法联网

第二梯队:元宝-DeepSeek+联网,ChatGPT+推理+联网

第三梯队:其他

Gemini Thinking的质量意外的好,断层领先

元宝DeepSeek有微信公众号加成,比原版DeekSeek好

Kimi k1.5显得有些普通,和非推理模型没有显著优势

网页阅读总结

只有豆包和Kimi能完成,Kimi比豆包效果好

Kimi k1.5容易丢失细节,感觉不如Kimi

图片理解

上传一个铁艺制品照片,问这是什么,分4个项目:理解材质,理解形象,包含其他细节,理解寓意

  • ChatGPT:4
  • 豆包:3,缺少理解寓意
  • Gemini:3,缺少其他细节
  • 元宝-混元:理解材质,包含其他细节,无法理解形象
  • Kimi:理解材质,形象错误

总结

这是一个可长期跟踪的事情,设定自己日常任务做Benchmark

ChatGPT在功能和效果上都是万金油般的存在,Gemini可以作为备选

元宝DeekSeek,带微信公众号搜索的特殊加成,且没有限速问题,比原版好用

Kimi独占网页总结


文章来源: https://blog.xlab.app/p/274d272e/
如有侵权请联系:admin#unsafe.sh