生僻字
探讨LLM对生僻字的识别能力及训练数据覆盖情况,发现码表来源复杂且不完整,并分析中文字符集层级关系。 2025-8-7 14:5:42 Author: blog.xlab.app(查看原文) 阅读量:11 收藏

发表于 分类于 阅读次数: 本文字数: 254 阅读时长 ≈ 1 分钟

兔子洞系列:生僻字

LLM认字吗

训练数据是否包含生僻字,又是否能覆盖全部汉字?

这是好奇的起因

于是在网上找到个码表,作者竟是deepseek工程师

但只是个巧合,作者很多年前写的,看博客应该不是做模型的,而且也不全

中文字符集的关系

Unicode > GB18030 > GBK > GB2312

其他有趣的链接

2024年你见过哪些中文字“符”街的趣事?

汉字数字化的AI“(有)知(无)能”现象

姓名生僻字处理平台 设备文化程度检测

國際電腦漢字及異體字知識庫

教育部《異體字字典》 臺灣學術網路十四版(正式七版)2024


文章来源: https://blog.xlab.app/p/aa431bb2/
如有侵权请联系:admin#unsafe.sh