智谱开源0.9B参数规模的GLM-OCR模型
好,我现在要帮用户总结这篇文章。用户的要求是用中文,控制在100字以内,不需要特定的开头。首先,我需要通读文章,抓住关键信息。
文章主要讲的是智谱发布了GLM-OCR模型,开源了,并且参数量是0.9B。这个模型支持几种部署方式:vLLM、SGLang和Ollama。在各种基准测试中表现很好,比如公式识别、表格识别和信息抽取都是SOTA。
接着,模型优化了几个场景:手写体、复杂表格、代码文档、印章识别和多语言混排。效率方面,处理PDF的吞吐量是1.86页/秒。API调用的价格是0.2元/百万Tokens。架构上用了编码器-解码器结构,自研的CogViT视觉编码器,还有两阶段技术流程:版面分析和并行识别。SDK和工具链也开源了,适合高并发和边缘计算。
现在要把这些信息浓缩到100字以内。重点包括:模型名称、参数量、支持的部署方式、应用场景优化、性能指标(吞吐量)、API定价、架构特点以及开源情况。
可能的结构:先介绍模型发布和参数规模,然后提到支持的部署方式和优化的应用场景,接着说性能指标和定价,最后提到架构和开源。
检查一下字数是否合适,确保不超过限制,并且语言简洁明了。
</think>
智谱发布并开源GLM-OCR模型,参数规模0.9B,支持多种部署方式,在公式识别等基准中表现优异。该模型优化手写体、复杂表格等场景,PDF处理吞吐量达1.86页/秒。API定价为0.2元/百万Tokens。采用编码器-解码器架构及自研视觉编码器,适用于高并发及边缘计算场景。
2026-2-3 05:2:45
Author: blog.upx8.com(查看原文)
阅读量:3
收藏
智谱正式发布并开源了 GLM-OCR。据官方介绍,该模型仅0.9B参数规模,支持vLLM、SGLang 和 Ollama部署,在公式识别、表格识别、信息抽取等主流基准中均取得 SOTA 表现。该模型针对手写体、复杂表格、代码文档、印章识别及多语言混排等场景进行了优化。在效率方面,其处理PDF文档的吞吐量可达1.86页/秒。通过API调用,其定价为0.2元/百万Tokens。该模型采用 “编码器-解码器” 架构,集成了自研的CogViT视觉编码器,并采用 “版面分析→并行识别” 的两阶段技术流程。模型完整SDK与推理工具链已同步开源,适用于高并发及边缘计算场景。
—— 凤凰网科技、智谱
文章来源: https://blog.upx8.com/%E6%99%BA%E8%B0%B1%E5%BC%80%E6%BA%900-9B%E5%8F%82%E6%95%B0%E8%A7%84%E6%A8%A1%E7%9A%84GLM-OCR%E6%A8%A1%E5%9E%8B
如有侵权请联系:admin#unsafe.sh