AI应用功能和效果对比

现在选择有点多，手机装太多app也有点麻烦，对比测试一下

参赛选手

ChatGPT：图文，可选联网/推理

豆包：图文，自动联网

元宝：混元支持图文，自动联网，DeepSeek仅文本，可选联网

DeepSeek：文本，可选联网

Gemini：图文，自动联网，推理模型不联网

Kimi：图文，可选联网

搞了一个需要一点点推理能力的简单问题

1926-08-17 有什么特殊含义，主要考虑中国相关信息

对于模型/联网可选项进行排列组合，回答出来的有

没联网的模型全军覆没，看来模型的内置知识库确实都没有答案

能联网的可能输在搜索太差

对于创作类问题，问了关于内容平台在推荐算法差异的问题

定性分析推荐内容包含历史内容的情况
B站：首页推荐仅包含近期发布，最多包含历史1-2个月
抖音：虽然移动端不显示时间，但Web版本显示，与B站类似，但有极少数1年前的
YouTube：首页推荐多数近期，但1年前，甚至3年前也有不少
为什么不抄YouTube把优质的历史内容推荐出来呢？

第一梯队：Gemini 2.0 Flash Thinking-无法联网

第二梯队：元宝-DeepSeek+联网，ChatGPT+推理+联网

第三梯队：其他

Gemini Thinking的质量意外的好，断层领先

元宝DeepSeek有微信公众号加成，比原版DeekSeek好

Kimi k1.5显得有些普通，和非推理模型没有显著优势

只有豆包和Kimi能完成，Kimi比豆包效果好

Kimi k1.5容易丢失细节，感觉不如Kimi

上传一个铁艺制品照片，问这是什么，分4个项目：理解材质，理解形象，包含其他细节，理解寓意

这是一个可长期跟踪的事情，设定自己日常任务做Benchmark

ChatGPT在功能和效果上都是万金油般的存在，Gemini可以作为备选

元宝DeekSeek，带微信公众号搜索的特殊加成，且没有限速问题，比原版好用

Kimi独占网页总结