面向司法数据的个人隐私信息保护方法研究及应用

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:tank12134
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据脱敏是个人隐私数据保护的重要手段,它能从源头上消除因数据泄露而导致个人隐私信息被窃取的风险。从海量数据的结构特性来看,数据主要分为结构化表格类数据和非结构化文本数据。现有的结构化数据脱敏方法有一些可能比较沉重复杂,比如算法加密脱敏;有一些可能比较简单粗暴,比如截断屏蔽脱敏,并且已有的脱敏方法都不能很好地保证脱敏后的数据依然保持原有的数据价值。非结构化数据脱敏的研究则比较匮乏,大多依然停留在规则匹配、数据库字段关联等方式方法上。为了对上述不足提供改进,本文在数据脱敏方面做了相关调查和研究,主要研究内容如下:(1)结构化数据脱敏方法研究。针对不同数据的内在价值、关系特性,提出了一组脱敏算法来应对多种脱敏需求,并在算法中加入哈希运算和特征混淆码来提升脱敏结果的安全性和唯一性,防止由脱敏结果倒推得到源数据。算法中使用源数据的数据特征作为特征参数参与运算,使得脱敏结果很好的保证了源数据的内在价值。经过大量的司法数据脱敏实验,实验结果很好的证明了脱敏结果的安全性、一致性、唯一性,脱敏结果也很好的保留了原始数据的内在价值。(2)非结构化文本数据脱敏方法研究。为解决非结构化文本数据中敏感信息难以定位的问题,引入命名实体识别相关技术,用于识别敏感数据实体边界。并将近两年来刚提出的BERT预训练模型加入到命名实体识别传统的Bi LSTM+CRF模型中去,取代原模型中的word2vec作为word Embedding层,使用司法文本数据对BERT模型进行了微调,收集整理和标注训练语料对模型进行训练,提升了命名实体识别的质量。再结合一些基于规则的方法以及司法领域数据脱敏白名单,提高脱敏效率的同时保证已脱敏文本的流畅性。实验结果表明,该方法很好的达到了文本数据的脱敏效果,并保持不错的阅读体验。(3)结构化数据脱敏和非结构化数据脱敏分别在S市大数据治理和大数据使用中的应用。设计并实现结构化数据脱敏系统,并将系统集成到S市数据治理系统中去,在数据治理的过程中进行数据脱敏;为S市各种大数据应用提供文本数据脱敏的接口服务,对各应用内的文本数据进行脱敏。数据脱敏简单应用的实现,证明了上述提出的脱敏方法的现实可行性。
其他文献
为纪念《德意志意识形态》一书写作170周年,2016年10月22—23日,由中国马克思主义哲学史学会、中国马克思主义研究基金会主办,《教学与研究》编辑部协办,南京大学哲学系、南
为避免现有的以钙基为主要脱硫脱硝剂的脱硫工艺可能造成的二次污染,本文提出了新型纳米二氧化钛作为吸附剂的烟气脱硫脱硝技术。论文开创了利用具有超大比表面积和高孔隙率的
“《德意志意识形态》与马克思主义哲学的当代发展”研讨会暨“中国马克思主义哲学史学会2016年年会”于2016年10月22~23日在南京召开。在马克思与恩格斯合著的伟大著作《德
目的探讨电视胸腔镜肺叶切除术治疗原发性非小细胞肺癌(NSCLC),在县级医院临床应用。方法 2010年1月至2013年6月,我科手术治疗NSCLC患者76例,其中34例接受电视胸腔镜肺叶切除术
定喘汤能显著抑制2,4——二硝基氯苯所致小鼠迟发型皮肤超敏反应;当剂量为30g/kg 时,可显著抑制小鼠脾脏空斑形成细胞数和溶血素生成。定喘汤尚能降低小鼠免疫器官胸腺的重量
近年来,认罪认罚从宽的适用成为刑事诉讼领域的热点问题。从最初在18个地区启动试点工作,到现在刑事诉讼法中的认罪认罚从宽条款,发展十分迅速。认罪认罚从宽同样是学界热议的话题。被广泛讨论的话题之一便是与美国辩诉交易的比较法研究。由于大陆法系国家有着职权主义与实体真实的司法传统,辩诉交易制度没有得到接纳,也一直被认为是英美法系与大陆法系制度差异导致的结果。但随着时间的推进,大陆法系国家在吸收和借鉴辩诉交
近几年来,我校为适应医学专科学校面向基层的教学方针,对基础课程教学课时做了较大地调整,使生物化学的教学面临着课时少而内容多的教学难题.如何在课时少的情况下,比较系统
特低渗透和非常规油气在我国及世界油气资源开发中的重要性越来越高,其核心问题之一是其孔隙相关的性质。特别是在孔隙变形、渗透性和有效应力特性方面,特低渗透岩石都展现出
本文对481例胃病患者的耳穴胃区望诊及其胃纤维内窥镜病理学诊断进行统计学分析,结果表明二者有一定相关性。从而为耳穴胃区望诊模拟病理性诊断的可行性做了初步的探讨。
<正> 据近10余年来流行病学调查,我国冠心病患病率呈上升趋势,特别是不稳定型心绞痛常是导致AMI和猝死的前驱信号,足够重视和积极探索本病的治疗,预防或减少AMI或猝死的发生,