发布 | 中文互联网基础语料2.0、中文互联网语料资源平台发布
2025-1-13 12:9:0 Author: mp.weixin.qq.com(查看原文) 阅读量:0 收藏

 扫码订阅《中国信息安全》

邮发代号 2-786

征订热线:010-82341063

1月9日,在北京召开的中国网络空间安全协会人工智能安全治理专业委员会工作年会上,中文互联网基础语料2.0、中文互联网语料资源平台正式向社会发布。
在中央网信办指导下,中国网络空间安全协会会同国家互联网应急中心,在前期发布中文互联网基础语料1.0的基础上,持续发挥企业、高校和科研单位协同优势,依托专委会建立的语料共建共享机制,汇聚一批新的高质量可信数据,经过信源筛选、内容过滤、数据去重等一系列严格细致的数据加工处理措施,形成并对社会发布中文互联网基础语料2.0,规模120GB,数据3800万条。用户登录中国网络空间安全协会网站https://www.cybersac.cn/newhome,点击“中文互联网语料资源平台”链接,通过注册、认证等程序,即可下载相关语料。
网安协会人工智能安全治理专委会负责人表示,数据是发展人工智能的基础关键资源,中文互联网基础语料2.0是各界协同共建高质量中文语料的又一重要成果。专委会将持续加强中文互联网基础语料建设,为人工智能技术创新和产业发展提供有力支撑和保障。
同时,在中央网信办指导下,中国网络空间安全协会会同国家互联网应急中心,协同人工智能产、学、研、用单位,共同建设中文互联网语料资源平台,面向社会提供中文互联网基础语料展示下载服务。平台支持行业领域、内容模态、体量规模等多种标签分类,便于用户下载与使用。
目前平台共入驻27个语料数据集,数据总量约2.7T,主要分三类:一是中国网络空间安全协会会同国家互联网应急中心等建设的中文互联网基础语料;二是人民网、北京智源研究院、上海人工智能实验室等单位共享的互联网语料;三是中国网络空间研究院、中国国家版本馆、中国大百科全书出版社、中国社会科学院图书馆等单位贡献的优质中文基础语料样本。登录中国网络空间安全协会官网,即可在首页注册使用平台。
下一步,平台将依托中国网络空间安全协会人工智能安全治理专委会建立的语料共建共享机制,持续吸纳优质中文互联网语料进驻,探索开展数据来源合规评估、质量评价、安全检测等服务,构建健康可持续的中文互联网语料开发利用生态,促进和支撑大模型产业发展。

(来源:中国网信网)

分享网络安全知识 强化网络安全意识

欢迎关注《中国信息安全》杂志官方抖音号

《中国信息安全》杂志倾力推荐

“企业成长计划”

点击下图 了解详情


文章来源: https://mp.weixin.qq.com/s?__biz=MzA5MzE5MDAzOA==&mid=2664234446&idx=4&sn=ca8ab1d30c05c8b8112eae4b44207944&chksm=8b59ff37bc2e7621b06d1b1755f9aa866671620bacf29fddaf5074d3f01a5e343458e60d06ec&scene=58&subscene=0#rd
如有侵权请联系:admin#unsafe.sh