发表于 2025-08-07 分类于 兔子洞 阅读次数: 本文字数: 254 阅读时长 ≈ 1 分钟 兔子洞系列:生僻字 LLM认字吗训练数据是否包含生僻字,又是否能覆盖全部汉字? 这是好奇的起因 于是在网上找到个码表,作者竟是deepseek工程师 但只是个巧合,作者很多年前写的,看博客应该不是做模型的,而且也不全 中文字符集的关系Unicode > GB18030 > GBK > GB2312 其他有趣的链接2024年你见过哪些中文字“符”街的趣事? 汉字数字化的AI“(有)知(无)能”现象 姓名生僻字处理平台 设备文化程度检测 國際電腦漢字及異體字知識庫 教育部《異體字字典》 臺灣學術網路十四版(正式七版)2024