导语:谷歌将RETVec应用于Gmail,改善了文本分类的弹性和效率。
Gmail、YouTube、Google Play等应用系统都依赖文本分类模型来识别有害内容,包括钓鱼攻击、不适当的评论内容和垃圾邮件。机器学习模型很难对此类文本进行精准分类,因此攻击者可以使用对抗文本操纵来主动绕过分类器。比如添加不可见的字符、关键字填充等来绕过防护。
为使文本分类器更加高效,谷歌研究人员开发一种新型多语言的文本向量化器——RETVec,以帮助模型实现最佳的分类性能和减少计算成本。此外,研究人员还将RETVec应用于Gmail实际场景。
使用RETVec增强Gmail垃圾邮件分类器
图1 基于RETVec的Gmail垃圾邮件过滤器改进
近年来,谷歌将RETVec广泛应用于谷歌的安全和反滥用应用中以评估其有用性和有效性。用RETVec替换Gmail垃圾邮件分类器之前使用的文本向量化器可以将垃圾邮件检测准确率在基准上改进38%,将假阳性减少19.4%。此外,使用RETVec将模型的TPU使用减少83%。
RETVec的优势
RETVec提出一种新型架构,融合了高度紧凑的字符编码器、增强驱动的训练和度量学习(Metric Learning)。RETVec可以应用于不同语言和所有UTF-8字符,无需进行文本处理,使得其适用于设备级、网页级和大型文本分类部署。使用RETVec训练的模型具有更快的推理速度。
模型更小因此计算成本和延迟更低,这对大规模应用和设备级模型至关重要。
图2 RETVec架构图
使用RETVec训练的模型还可以无缝转化为适用于移动和边缘设备的TFLite,对于web应用模型部署,研究人员还提供了TensorflowJS层的实现。
图3 使用不同向量化器训练的文本分类模型
RETVec是一种新型的开源文本向量化器,用户可以构建更加弹性和高效的服务器端和设备级文本分类器,Gmail垃圾邮件过滤器使用该模型可以帮助Gmail识别和过滤恶意邮件内容。
文章翻译自:https://security.googleblog.com/2023/11/improving-text-classification.html如若转载,请注明原文地址