面壁、智谱，卷上新赛道

面壁、智谱，卷上新赛道
2025-1-17 10:45:0 Author: mp.weixin.qq.com(查看原文) 阅读量:0 收藏

模型长出了「眼睛」，将打开硬件最重要的一扇门。

作者 | 黎诗韵
编辑 | 郑玄

去年 5 月，OpenAI 推出可实时语音交互的「4o」模型，相当于模型长出了「耳朵」和「嘴巴」。到去年 12 月，OpenAI 宣布在高级语音模式中加入视频通话和屏幕共享，相当于模型长出了「眼睛」，电影《Her》中人工智能助理慢慢成为现实。

而在国内，大模型公司也在加快布局这一技术方向。1 月 16 日，主打端侧模型的公司面壁智能宣布推出全球首个媲美「4o」的端侧模型「MiniCPM-o 2.6」，仅 8B 参数，能在端侧实现实时流畅的音视频通话，团队称该模型能实现「以端胜云」的效果。

同一天，智谱宣布推出全新端到端模型「GLM-Realtime」，能实现低延迟的视频理解与语音交互，同时模型融入了清唱功能，还能支持 2 分钟的记忆及 Function Call（能调用外部知识和工具）功能。这是自 8 月「智谱清言」上线视频通话功能之后，智谱在「4o」技术方向上的又一进展。

国内模型公司抢跑「4o」系列模型，一方面因为它是打造人工智能超级助理（AI Agent）的重要一环，另一方面它可能也是 AI 硬件进化的关键。

近期 AI 硬件火热背后，在于它展现出了成为下一代智能交互入口的可能。作为最靠近人类的设备，AI 硬件能感知真实物理世界、收集数据，再通过内嵌的智能，有望给人类带来交互的革命性体验——而这个过程里，「看」是相当关键的，因为人类接收的信息里约 80% 来自视觉——因此，解锁实时视频能力的「4o」系列模型或将成为技术关键。

目前，「MiniCPM-o 2.6」和「GLM-Realtime」都已经在硬件落地。不过分别是端侧部署、调用云端 API。据面壁智能介绍，「MiniCPM-o 2.6」将率先落地于汽车、机器人等硬件生态。据智谱介绍，「GLM-Realtime」API 已被集成到智能眼镜和陪伴娃娃中。

「我们相信实时视频&语音能力，将为 AI 硬件的爆发奠定坚实的智能基础。」智谱表示。

和追平「4o」性能同样重要的，

是如何最高效地实现它

2020 年，OpenAI 发布「GPT-3」，训练参数约为 1750 亿；到了 2024 年，面壁智能发布「MiniCPM -2.4B」——和 GPT-3 同等性能、但参数仅为 24 亿，相当于模型智能密度提高了 86 倍。

在国内的大模型公司里，只有面壁智能公开宣称「高效」是第一性原理。核心是通过提高模型训练效率，用最小参数、实现同等模型性能。在 2024 年 12 月的一场活动上，面壁智能联合创始人、CEO 李大海认为，模型的智能密度在加速提升，可称为「Densing Law」（密度定律)：大模型的智能密度将从平均每 8 个月提升一倍，缩短为每 3.3 个月。

「今年年初我们让 GPT-3 水平的模型上了端，9 月份让 GPT-3.5 水平的模型上了端，未来会让 GPT-4o 及更高水平模型上端。」他据此做出预言。

一个月过去，他的预言就实现了。1 月 16 日，面壁宣布旗下「MiniCPM-o 2.6」追平了「4o」——「4o」的参数并未公开，一篇微软的论文透露它仍为百亿参数——而「MiniCPM-o 2.6」只有 8B，它因此成为全球对标「4o」最小的模型、也是首个端侧对标「4o」的模型。

如果说「4o」核心性能分为实时视觉、实时听觉、实时语音三方面，面壁智能称「MiniCPM-o 2.6」在这三方面均逼近「4o」。

在实时流式视频理解能力的代表榜单 StreamingBench 上，它取得实时流式全模态开源模型 SOTA；在视觉理解能力上，实现端侧全模态模型 SOTA；在语音理解方面，它超越「Qwen2-Audio-7B-Instruct」，实现通用模型开源 SOTA（包括 ASR、语音描述等任务）；在语音生成方面，它超越「GLM-4-Voice 9B」，实现通用模型开源 SOTA；

在评估全模态模型音视频能力的多个榜单上，MiniCPM-o 2.6 能力全面且逼近 GPT-4o | 图片来源：面壁智能

对于「MiniCPM-o 2.6」多模态技术的关键，MiniCPM-o 技术负责人、清华大学博士后姚远总结为三点：一是采用端到端全模态流式架构，高效整合语言、视觉和语音信息，实现了端到端的联合学习；二是引入低延迟模态并布技术，将时间划分为多个循环时间片、分别处理窗口和输入，大幅降低了响应延迟；三是高级多模态学习，基于「语言行为理论」，模型不仅能进行信息传递，更能通过观察和角色扮演，达到更高级的心智水平，为参与人类社会活动打下了基础。

目前 MiniCPM-o 2.6 已经被部署到了 iPad 终端设备上，在实际 demo 演示中，可以看到「MiniCPM-o 2.6」能猜出游戏中小球藏到了哪个杯子、记住翻牌游戏中卡片的细节；能识别说话声，翻书、倒水、敲门声等；能说四川话、广东话等方言，扩充各种情感、音色、风格等。

而同一天推出的「GLM-Realtime」则有自己的创新：比如视频通话具备 2 分钟的内容记忆能力，在 demo 中演示人员走过几幅春联之后，问模型一分钟前它看到的对联内容，它能回答上来；比如在语音交互方面，它首次让大模型拥有了歌唱能力，在 demo 中它清唱了一首《过年好》；它也在向更智能的 Agent 演进，已经可以调用其他应用，帮人类查询天气、预订酒店等。

无论是云侧还是端侧模型，似乎能看到在追逐模型性能的同时，同等重要的是如何用更高效的训练完成它。前者如 DeepSeek，后者如面壁智能。

在李大海看来，两者的高效训练路径有所不同：DeepSeek 代表的云侧，主要是研究 MOE 架构的上限，通过更多、更高的专家模型和更高的任务分配准确率，让模型能以较少的激活参数量达到更好的效果。

而对于面壁代表的端侧来说，MoE 架构并不适用，稀疏化才是关键。面壁率先推出 WSD（Warmup-Stable-Decay）学习率调度器，通过预热、稳定、衰减三个阶段的学习率调整，提升模型训练效率。如今几乎被行业所有中小模型在训练中借鉴。接下来，面壁还将继续进行训练过程、数据工程、数据治理和模型架构的创新。

「4o」模型，助力 AI 硬件

成为下一代智能交互入口

在刚刚过去的 2025 CES 上，AI 硬件成为了最热门的方向，「百镜大战」、「智能耳机」、「AI 陪伴宠物」等等被讨论最多。参加完 CES，李大海认为大模型正在走向「无所不能」和「无处不在」，他笃信大模型将「无处不在」。

AI 硬件大火的背后，是它展现出了成为下一代交互入口的可能。作为最靠近人类的设备，AI 硬件能感知真实物理世界、收集数据，再通过内嵌的智能，有望给人类带来交互的革命性体验。

「10 年之后，至少有 1000 亿硬件会搭载端侧智能，成为拥有人类成年智能水平的新型智能人口。」李大海表示。

在这个过程里，「看」是相当关键的，因为人类接收的信息里约 80% 来自视觉——因此，解锁实时视频能力的「4o」系列模型或将成为技术关键。目前，「MiniCPM-o 2.6」和「GLM-Realtime」模型落地的第一站都是硬件。

据智谱介绍，「GLM-Realtime」API 已被集成到智能眼镜和陪伴娃娃中，在 demo 演示中，「GLM-Realtime」合作的是 Inmo 影目智能眼镜。

「GLM-Realtime」搭载于眼镜中 | 图片来源：智谱 AI

据面壁智能介绍，「MiniCPM-o 2.6」将率先落地于汽车、机器人等硬件生态。李大海表示，目前模型更倾向应用于「具身化」——即硬件需要像人一样感知周围环境——程度更高的硬件设备。在这个定义下，汽车、人形机器人，就比手机、电脑的具身化程度更高。

对这些硬件设备而言，加入「4o」系列模型的实时视频能力，将有助于它们的进化。比如在人形机器人领域，「4o」系列模型或能补上机器人大脑、小脑、本体的重要拼图，助力人形机器人底层技术的突破。在去年的世界机器人大会上，面壁智能就和人形机器人厂商「加速进化」合作，实现了业内首个端侧模型在人形机器人上的应用。

IDC 预测，2024 年中国终端设备市场中，将有超过半数的设备在硬件层面具备针对 AI 计算任务的算力基础。至 2027 年，这一比例将进一步攀升至接近 80% 的水平。

在 AI 硬件爆发的未来，端侧模型或许会迎来巨大机遇。

由于参数量小，端侧模型只需消费级终端算力芯片和内存配置就能运行。相较云端模型，其优势包括：更快的响应速度、本地部署的更高隐私性、无需联网的更高便利性、更低的模型推理成本等等，这意味着它可能会有更快、更广的应用空间。这是面壁智能成立之初看到的未来，也是它提升训练效率、降低模型参数的根本动力。

将「4o」级别模型在端侧跑通后，这个未来似乎越来越近了。

*头图来源：视觉中国

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO

极客一问

AI 硬件的「视觉」能力

会对日常生活带来哪些深远影响？

热点视频

全球最柔顺的行走，宇树机器人 G1 升级，最新演示画面。

点赞关注极客公园视频号，

观看更多精彩视频

更多阅读

文章来源: https://mp.weixin.qq.com/s?__biz=MTMwNDMwODQ0MQ==&mid=2653072266&idx=1&sn=f5fdc0b28c0b122951ae8d549549a77f&chksm=7e57d63c49205f2abfec99638bd5cc8da23f5a7baabaeb89804f43d620c2067acdee9af4f346&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh