大数据时代,数据是基础,业务是核心,数据安全则必然需要与业务形态有所关联,因此,数据安全和边界类的网络安全正逐渐划分开来。自2017年6月网安法实施以来,配套的法律法规也陆续出台,要求越来越高,力度越来越大,加之正在制定的《数据安全法》和《个人信息保护法》,数据安全已成为数字化转型的必要基础能力。
从整体信息化的发展来看,数据安全被重视相对是滞后的,大多行业都是信息系统已经运行了好多年,基于此开展数据安全相关工作,难度还是很大的。尤其是行业里针对高敏感数据的管控,例如明星数据、高级别领导数据、高管数据等,这些数据与普通人员的数据一般是混在一起的,全量管控会影响业务的便捷性,若不管控,一旦发生泄露,对企业的损失会非常大。
现有高敏感数据管控方案解析
进入大数据时代后,数据价值越来越高,受利益的驱使,类似事件时有发生。那么,针对这类高敏感人员的信息我们该如何加强管控?就此事,我通过走访调研了多家数据安全厂商,收集到了三个方案,并进行了弊端分析。
方案一:单独再部署一套应用,例如“VIP系统”,这样可以将高敏感数据和普通敏感数据进行隔离,有针对性的进行保护,由专门的团队进行维护,缩小数据使用的范围。
这样的高敏感数据管控方案其实存在一些弊端,首当其冲带来的问题就是运营成本的增加,一方面需要投入一套软硬件资源,另一方面需要组织人员进行运营、维护;
同时还会有重复投入的现象出现,很多时候为保证安全,需要分别为这两套系统配置数据安全产品和能力,这就造成了大量的重复投入;
另外,从价值最大化的层面来看,这样的管控模式下由于存有高敏感数据的应用系统一般不敢轻易对外提供服务,这在无形中就形成了数据孤岛,不利于数据价值的发挥;
方案二:对高敏感数据进行打标,在数据生成的时候对数据进行敏感级别判定,并做打标处理,这样可以很清晰地道哪些是高敏感数据,可以有针对性的授权,加入一些数据加密或数据脱敏的安全手段,当数据被使用时通过敏感标识来采取相应的安全技术手段予以保护。
很明显,这个方式不会造成重复投入,投入成本相比也会低很多,做好权限管控的话,高敏感数据还是可以向外共享的。但该方案会导致应用系统改造量大,数据生成时需要判断,授权时需要单独处理,使用时需要进行数据加密或数据脱敏处理,这些改动的工作会很大,甚至会改动顶层设计;
另一方面,高敏感数据与普通敏感数据一样,有很多使用场景,例如:数据更新、删除、分析、校验、查询等,这些场景都会接触到高敏感数据,采用这种方案会影响数据的便捷使用;
还有就是由于逻辑复杂,会造成明显的性能损耗。敏感数据的每次使用都需要进行判断,看是普通数据、普通敏感数据
、还是高敏感数据,判断后还需要调用相应的安全接口对数据进行处理,当数据访问峰值出现时,可能会造成宕机;
方案三:对高敏感数据进行匿名化处理,匿名处理后的数据不影响使用,同时也很好的对高敏感数据进行保护,为了保证匿名后的数据在需要时可以再逆向回原始数据,可以将对应关系进行保留。
相比前两种方案,方案三对数据业务的影响是最小的,应用改动量也不会很大,貌似看上去是最合适的,但其存在一致命的问题,即:为保证匿名后的数据可以逆向回来,需要将对应关系进行保管,一旦对应关系被篡改或删除,则数据将永远恢复不了;
从源头探寻高敏感数据“隐身”之道
以上三种方案都是从如何管控入手,虽然存在一些弊端,但还是可以起到很大作用的。我们不妨换个思路,将高敏感数据隐藏,让使用者不知道高敏感数据的存在,顺着这个思路,我设计了一下方案:
首先,重定向数据库,让应用系统不直接访问数据库,需要先访问协议解析工具,协议解析工具对访问协议进行解析,得出“谁想访问哪些数据,要做什么”。然后,将协议解析出来的结果与高敏感数据特征进行比对,确认该用户是否可以访问,若不可以访问,则通过改写返回结果的协议将高敏感数据剔除;若可以访问,则不予处理,直接放行。
结合上述内容,加入产品化的思维,与原有的数据使用逻辑结构进行对比
如上图所示,采用这种方式可以做到应用零改造,对原始数据没有造成破坏,投入成本也相对较低,虽然对访问的性能还是造成了一定的损耗,但防护效果还是很明显的。
有的放矢,方法实践初尝试
无感知管控中最核心的奥义是让使用者不知道高敏感数据的存在,如若数据能“隐身”,将直接解决无感知管控的核心问题。下面我们以数据查询为例,看下改造后的流程如何让数据隐身:
数据查询请求阶段
1) 用户可以通过web端或移动端通过应用系统提供的操作界面申请查询数据,用户可以是数据管理者、数据运维工程师、客服人员等;
2) 应用系统接收到请求后,先进行用户身份认证,若符合规则则应用系统生成SQL语句,再将用户信息和SQL语句等信息组成数据库访问协议,并发送到协议解析工具;
3) 目标数据库接收到访问协议后,进行处理,此步的处理由数据库本身完成,处理完成后将结果返回;
“隐身”处理阶段
4) 数据库访问协议解析工具获取到返回协议后(这里指的是带有数据库返回结果的返回协议),开始解析,首先对协议中的内容进行可读拆分,即拆分成“key-value”的形式,再对这些信息进行检索,获取到用户信息(用户信息一般是用户的唯一性标识,例如:User ID)和结果集;
如果结果集中涉及到了高敏感数据,则需要进行权限判断,将用户的User ID在高敏感数据特征库中的用户权限表中进行遍历查询,如果未查询到了该用户的User ID,或者查询到了但发现没有查询的权限,则需要对该结果集中的高敏感数据进行剔除,将特征库中标识出来的高敏感数据剔除掉,然后将改写后的结果集编写成报文,返回给应用;
结果返回阶段
6) 用户在web端或移动端通过应用系统提供的操作界面看到了想要查询的数据,本次数据查询操作结束;
通过处理,没有高敏感数据访问权限的用户是查询不到的,甚至不知道高敏感数据的存在。另外,由于这种方式没有对应用系统和数据库进行改造,对于开发人员、运维人员和数据库管理员这类数据权限较高的角色,是不知道已经做过安全防护的,转移了其对高敏感数据的注意力,从根本上降低了数据泄露的风险。
纵观产业发展,数据已成为国家和各行各业的战略性资源,随着《网安法》、《数安法》、《个人信息保护法》等相关法律法规的不断颁布与实施,可见国家对数据安全的重视是空前的。数据可以让我们更好地受生活,但不当的使用也会给我们带来巨大的麻烦,因此,我们需要不断的进行数据安全建设的投入。
如若转载,请注明原文地址