论文部分内容阅读
数据脱敏是个人隐私数据保护的重要手段,它能从源头上消除因数据泄露而导致个人隐私信息被窃取的风险。从海量数据的结构特性来看,数据主要分为结构化表格类数据和非结构化文本数据。现有的结构化数据脱敏方法有一些可能比较沉重复杂,比如算法加密脱敏;有一些可能比较简单粗暴,比如截断屏蔽脱敏,并且已有的脱敏方法都不能很好地保证脱敏后的数据依然保持原有的数据价值。非结构化数据脱敏的研究则比较匮乏,大多依然停留在规则匹配、数据库字段关联等方式方法上。为了对上述不足提供改进,本文在数据脱敏方面做了相关调查和研究,主要研究内容如下:(1)结构化数据脱敏方法研究。针对不同数据的内在价值、关系特性,提出了一组脱敏算法来应对多种脱敏需求,并在算法中加入哈希运算和特征混淆码来提升脱敏结果的安全性和唯一性,防止由脱敏结果倒推得到源数据。算法中使用源数据的数据特征作为特征参数参与运算,使得脱敏结果很好的保证了源数据的内在价值。经过大量的司法数据脱敏实验,实验结果很好的证明了脱敏结果的安全性、一致性、唯一性,脱敏结果也很好的保留了原始数据的内在价值。(2)非结构化文本数据脱敏方法研究。为解决非结构化文本数据中敏感信息难以定位的问题,引入命名实体识别相关技术,用于识别敏感数据实体边界。并将近两年来刚提出的BERT预训练模型加入到命名实体识别传统的Bi LSTM+CRF模型中去,取代原模型中的word2vec作为word Embedding层,使用司法文本数据对BERT模型进行了微调,收集整理和标注训练语料对模型进行训练,提升了命名实体识别的质量。再结合一些基于规则的方法以及司法领域数据脱敏白名单,提高脱敏效率的同时保证已脱敏文本的流畅性。实验结果表明,该方法很好的达到了文本数据的脱敏效果,并保持不错的阅读体验。(3)结构化数据脱敏和非结构化数据脱敏分别在S市大数据治理和大数据使用中的应用。设计并实现结构化数据脱敏系统,并将系统集成到S市数据治理系统中去,在数据治理的过程中进行数据脱敏;为S市各种大数据应用提供文本数据脱敏的接口服务,对各应用内的文本数据进行脱敏。数据脱敏简单应用的实现,证明了上述提出的脱敏方法的现实可行性。