模型长出了「眼睛」,将打开硬件最重要的一扇门。
作者 | 黎诗韵
编辑 | 郑玄
去年 5 月,OpenAI 推出可实时语音交互的「4o」模型,相当于模型长出了「耳朵」和「嘴巴」。到去年 12 月,OpenAI 宣布在高级语音模式中加入视频通话和屏幕共享,相当于模型长出了「眼睛」,电影《Her》中人工智能助理慢慢成为现实。而在国内,大模型公司也在加快布局这一技术方向。1 月 16 日,主打端侧模型的公司面壁智能宣布推出全球首个媲美「4o」的端侧模型「MiniCPM-o 2.6」,仅 8B 参数,能在端侧实现实时流畅的音视频通话,团队称该模型能实现「以端胜云」的效果。同一天,智谱宣布推出全新端到端模型「GLM-Realtime」,能实现低延迟的视频理解与语音交互,同时模型融入了清唱功能,还能支持 2 分钟的记忆及 Function Call(能调用外部知识和工具)功能。这是自 8 月「智谱清言」上线视频通话功能之后,智谱在「4o」技术方向上的又一进展。国内模型公司抢跑「4o」系列模型,一方面因为它是打造人工智能超级助理(AI Agent)的重要一环,另一方面它可能也是 AI 硬件进化的关键。近期 AI 硬件火热背后,在于它展现出了成为下一代智能交互入口的可能。作为最靠近人类的设备,AI 硬件能感知真实物理世界、收集数据,再通过内嵌的智能,有望给人类带来交互的革命性体验——而这个过程里,「看」是相当关键的,因为人类接收的信息里约 80% 来自视觉——因此,解锁实时视频能力的「4o」系列模型或将成为技术关键。目前,「MiniCPM-o 2.6」和「GLM-Realtime」都已经在硬件落地。不过分别是端侧部署、调用云端 API。据面壁智能介绍,「MiniCPM-o 2.6」将率先落地于汽车、机器人等硬件生态。据智谱介绍,「GLM-Realtime」API 已被集成到智能眼镜和陪伴娃娃中。「我们相信实时视频&语音能力,将为 AI 硬件的爆发奠定坚实的智能基础。」智谱表示。2020 年,OpenAI 发布「GPT-3」,训练参数约为 1750 亿;到了 2024 年,面壁智能发布「MiniCPM -2.4B」——和 GPT-3 同等性能、但参数仅为 24 亿,相当于模型智能密度提高了 86 倍。在国内的大模型公司里,只有面壁智能公开宣称「高效」是第一性原理。核心是通过提高模型训练效率,用最小参数、实现同等模型性能。在 2024 年 12 月的一场活动上,面壁智能联合创始人、CEO 李大海认为,模型的智能密度在加速提升,可称为「Densing Law」(密度定律):大模型的智能密度将从平均每 8 个月提升一倍,缩短为每 3.3 个月。「今年年初我们让 GPT-3 水平的模型上了端,9 月份让 GPT-3.5 水平的模型上了端,未来会让 GPT-4o 及更高水平模型上端。」他据此做出预言。一个月过去,他的预言就实现了。1 月 16 日,面壁宣布旗下「MiniCPM-o 2.6」追平了「4o」——「4o」的参数并未公开,一篇微软的论文透露它仍为百亿参数——而「MiniCPM-o 2.6」只有 8B,它因此成为全球对标「4o」最小的模型、也是首个端侧对标「4o」的模型。如果说「4o」核心性能分为实时视觉、实时听觉、实时语音三方面,面壁智能称「MiniCPM-o 2.6」在这三方面均逼近「4o」。在实时流式视频理解能力的代表榜单 StreamingBench 上,它取得实时流式全模态开源模型 SOTA;在视觉理解能力上,实现端侧全模态模型 SOTA;在语音理解方面,它超越「Qwen2-Audio-7B-Instruct」,实现通用模型开源 SOTA(包括 ASR、语音描述等任务);在语音生成方面,它超越「GLM-4-Voice 9B」,实现通用模型开源 SOTA;在评估全模态模型音视频能力的多个榜单上,MiniCPM-o 2.6 能力全面且逼近 GPT-4o | 图片来源:面壁智能对于「MiniCPM-o 2.6」多模态技术的关键,MiniCPM-o 技术负责人、清华大学博士后姚远总结为三点:一是采用端到端全模态流式架构,高效整合语言、视觉和语音信息,实现了端到端的联合学习;二是引入低延迟模态并布技术,将时间划分为多个循环时间片、分别处理窗口和输入,大幅降低了响应延迟;三是高级多模态学习,基于「语言行为理论」,模型不仅能进行信息传递,更能通过观察和角色扮演,达到更高级的心智水平,为参与人类社会活动打下了基础。目前 MiniCPM-o 2.6 已经被部署到了 iPad 终端设备上,在实际 demo 演示中,可以看到「MiniCPM-o 2.6」能猜出游戏中小球藏到了哪个杯子、记住翻牌游戏中卡片的细节;能识别说话声,翻书、倒水、敲门声等;能说四川话、广东话等方言,扩充各种情感、音色、风格等。而同一天推出的「GLM-Realtime」则有自己的创新:比如视频通话具备 2 分钟的内容记忆能力,在 demo 中演示人员走过几幅春联之后,问模型一分钟前它看到的对联内容,它能回答上来;比如在语音交互方面,它首次让大模型拥有了歌唱能力,在 demo 中它清唱了一首《过年好》;它也在向更智能的 Agent 演进,已经可以调用其他应用,帮人类查询天气、预订酒店等。无论是云侧还是端侧模型,似乎能看到在追逐模型性能的同时,同等重要的是如何用更高效的训练完成它。前者如 DeepSeek,后者如面壁智能。在李大海看来,两者的高效训练路径有所不同:DeepSeek 代表的云侧,主要是研究 MOE 架构的上限,通过更多、更高的专家模型和更高的任务分配准确率,让模型能以较少的激活参数量达到更好的效果。而对于面壁代表的端侧来说,MoE 架构并不适用,稀疏化才是关键。面壁率先推出 WSD(Warmup-Stable-Decay)学习率调度器,通过预热、稳定、衰减三个阶段的学习率调整,提升模型训练效率。如今几乎被行业所有中小模型在训练中借鉴。接下来,面壁还将继续进行训练过程、数据工程、数据治理和模型架构的创新。在刚刚过去的 2025 CES 上,AI 硬件成为了最热门的方向,「百镜大战」、「智能耳机」、「AI 陪伴宠物」等等被讨论最多。参加完 CES,李大海认为大模型正在走向「无所不能」和「无处不在」,他笃信大模型将「无处不在」。AI 硬件大火的背后,是它展现出了成为下一代交互入口的可能。作为最靠近人类的设备,AI 硬件能感知真实物理世界、收集数据,再通过内嵌的智能,有望给人类带来交互的革命性体验。「10 年之后,至少有 1000 亿硬件会搭载端侧智能,成为拥有人类成年智能水平的新型智能人口。」李大海表示。在这个过程里,「看」是相当关键的,因为人类接收的信息里约 80% 来自视觉——因此,解锁实时视频能力的「4o」系列模型或将成为技术关键。目前,「MiniCPM-o 2.6」和「GLM-Realtime」模型落地的第一站都是硬件。据智谱介绍,「GLM-Realtime」API 已被集成到智能眼镜和陪伴娃娃中,在 demo 演示中,「GLM-Realtime」合作的是 Inmo 影目智能眼镜。「GLM-Realtime」搭载于眼镜中 | 图片来源:智谱 AI据面壁智能介绍,「MiniCPM-o 2.6」将率先落地于汽车、机器人等硬件生态。李大海表示,目前模型更倾向应用于「具身化」——即硬件需要像人一样感知周围环境——程度更高的硬件设备。在这个定义下,汽车、人形机器人,就比手机、电脑的具身化程度更高。对这些硬件设备而言,加入「4o」系列模型的实时视频能力,将有助于它们的进化。比如在人形机器人领域,「4o」系列模型或能补上机器人大脑、小脑、本体的重要拼图,助力人形机器人底层技术的突破。在去年的世界机器人大会上,面壁智能就和人形机器人厂商「加速进化」合作,实现了业内首个端侧模型在人形机器人上的应用。IDC 预测,2024 年中国终端设备市场中,将有超过半数的设备在硬件层面具备针对 AI 计算任务的算力基础。至 2027 年,这一比例将进一步攀升至接近 80% 的水平。在 AI 硬件爆发的未来,端侧模型或许会迎来巨大机遇。由于参数量小,端侧模型只需消费级终端算力芯片和内存配置就能运行。相较云端模型,其优势包括:更快的响应速度、本地部署的更高隐私性、无需联网的更高便利性、更低的模型推理成本等等,这意味着它可能会有更快、更广的应用空间。这是面壁智能成立之初看到的未来,也是它提升训练效率、降低模型参数的根本动力。将「4o」级别模型在端侧跑通后,这个未来似乎越来越近了。本文为极客公园原创文章,转载请联系极客君微信 geekparkGO全球最柔顺的行走,宇树机器人 G1 升级,最新演示画面。
文章来源: https://mp.weixin.qq.com/s?__biz=MTMwNDMwODQ0MQ==&mid=2653072266&idx=1&sn=f5fdc0b28c0b122951ae8d549549a77f&chksm=7e57d63c49205f2abfec99638bd5cc8da23f5a7baabaeb89804f43d620c2067acdee9af4f346&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh