基于互联网大数据的脱敏分析技术研究

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:lala601
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
【目的】基于现有的脱敏技术,改进匿名组的划分效果,得到较优的脱敏模型及算法。【方法】基于k-匿名技术,改进维度划分标准,以KD树作为存储结构,构造新算法。利用Python实现程序,比较所产生的匿名组数量、NCP百分比,验证算法的可行性与有效性。【结果】新算法能够使得脱敏后整个数据集所生成的匿名组个数达到最大。且NCP百分比低于同类算法。【局限】对于有某一属性离散程度显著的数据集,循环计算划分维度较为繁琐。【结论】新算法相比于传统算法增加了匿名组个数,相比于同类算法,信息损失较低。
其他文献
对安徽大别山区虫生真菌区系的物种多样性进行了研究。结果表明该地区虫生真菌资源十分丰富 ,共有虫生真菌 5 0种 ,隶属于 4目 4科 16属。科从大到小依次为麦角菌科 (Clavici
间接言语行为理论已经成为语用学研究的一个非常重要的课题。在日常交流中,出于某种目的或者是由于某种原因,人们通常不直接表达自己的真实想法或目的,而是利用间接言语来表
肿瘤-睾丸抗原又称CT抗原,是一类在多种肿瘤组织中表达而在正常组织中除睾丸外不表达的抗原,因而是很有前途的肿瘤疫苗候选抗原。本文就目前肿瘤-睾丸抗原的定义、分类及其在
目的:通过观察采用吉非替尼治疗有效率超过6个月、美国东部协作肿瘤组(Eastern Cooperative Oncology Group,ECOG)体能状况(performance status,PS)评分≥3分的非小细胞肺癌(
随着航空运输的发展,航班延误日益严重。本文从更微观的角度,研究离港不正常航班的延误特征,并根据其特征,建立离港不正常航班的延误预测模型,为不正常航班治理与应急预警提
物种多样性时空格局作为生物多样性研究的重要内容 ,是针对物种的数量变化和物种的生物学多样性程度 ,在不同尺度范围内探讨物种多样性的时空格局及其变化规律。本文首先讨论
<正> 一、工程概况某五层单身宿舍楼位于京西山区,于1979年设计施工。当地地形地貌、地质构造十分复杂。山峰突起,沟壑纵横,建设用地十分紧张。按总体规划,拟建13开间五层单
目的探讨阶梯式培训考核在提高年轻护士伦理人文素养中的效果。方法 2013年起在新护士入院后三年内,通过先简单后复杂、先规范化常规后专科特色的模拟、案例操作的阶梯式培训
本报讯(记者 王大为)9月9日,盟委书记罗虎在深入二连浩特市调研时强调,要充分发挥口岸优势,以重点开发开放试验区建设为统领,继续完善口岸城市功能,加强城市建设管理,创造性地抓好文
报纸
<正>1月15日,国务院发布了《推进普惠金融发展规划(2016—2020年)》的通知。通知提出,到2020年,要建立与全面建成小康社会相适应的普惠金融服务和保障体系"的目标与系列政策