基于关键属性的高维相似记录检测方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:babala_chen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入21世纪,计算机网络、电子商务以及物联网等信息技术快速发展,无论是IT公司内部,还是整个信息网络,信息的产生均出现爆炸式的增长。但是信息量的增多并不意味着信息价值的提高。面对如此庞大的信息量,没有价值的信息往往远多于真正有价值的信息,也就是说信息的价值很容易被淹没在海量信息中而失去它存在的意义。  本文主要研究如何从海量、多数据源中检测出那些描述同一个物理实体的相似记录。在对多源信息进行融合以及后期的数据挖掘和数据分析时,由于每个数据源所采用的数据格式、表示方式、数据定义等的不同,对应的同一事物的描述就会有不同的表示。如果对这些同一事物的描述记录不加处理,而是简单地存储到一起,不仅会造成存储信息的冗余、存储空间的浪费,也将使得从原始数据中挖掘有用信息、分析问题和效率带来不必要的开销。本文从实际工程数据出发,针对数据记录的高维、数据量大的特点进行相似重复记录的相关研究。  本文的研究主要包括两个方面的内容:第一,记录关键属性选择。每条记录包含有多个属性维,有些属性对描述记录起关键作用,有的则没有作用,甚至起负面作用。从数据挖掘主成分分析的角度出发,结合信息论的相关内容,提出统一互相信息方法,从高维属性中选择表征记录实体的关键属性,过滤噪音属性,降低记录维度,从而提高检测准确率和效率;第二,经典的SNM算法在相似重复记录检测中取得了很好的效果,但是,在高维、大数据的背景下,SNM算法有两个明显的不足:算法的本质是将记录投影在一维空间,但随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大;数据量大的情况下由于涉及到数据记录的排序,必然导致时间效率的降低。本文根据R-树索引和聚类思想,通过构建R-树保留待检测记录的空间特性,利用聚类,将潜在的相似记录聚合在叶结点中,减少相似记录间的比较次数。同时,为了避免大量属性空值对记录相似性检测的影响,改进了传统的基于编辑距离的记录相似度判定方法。  最后,在从实际工程当中提取部分数据,针对本文算法构造相应的训练集和测试集,通过在不同维度下记录检测在时间效率和准确率方面的对比,验证本文算法的有效性。
其他文献
远程教育是师生凭借现代信息网络技术与多媒体手段所进行的非面对面的教育。其中网络教育是现代远程教育的一个重要方面,它利用Internet的功能特性和丰富的资源来建立学习环境
随着最高检"科技强检"战略的提出和"213"工程的实施,检务系统信息化工程的实施,为创新办案方式和管理模式,提高办案质量和办案效率,从而逐步实现检务工作与时俱进,顺应全球新
Web作为一个全球化信息空间,蕴含着具有巨大潜在价值的信息和知识,尽管目前有大量的研究工作关注于Web数据的管理和使用,但是,现有的技术还不能让用户满意.XML为Web提供了一
该文详细的比较了几种高精度测频的方法,重点探讨了高精度测频仪的工作原理.高精度测频仪器是根据"最大公因子频率"、"相位重合点"及相检宽带测频技术而研制的.该文的创新之
本文对比了简单SAN管理上的缺陷与不足,提出了虚拟化SAN管理的优势。在明确了种种虚拟化概念之后,本文提出了原有IP-SAN管理基础上虚拟化方案,除了能进行基本磁盘资源的管理之外
学位
多年以来,软件开发经历了许多阶段,软件开发人员在解决系统资源和运行时间过长等方面花费了大量精力,但得到的软件产品却难如人意.因此,软件开发人员期望有一种理论和技术,能
网络安全状况的恶化已经使如何提高信息系统的安全性和抗攻击能力成为IT 领域中一个新的热点和需求点。 本文作者以解决计算机主机安全问题为目标,分析了网络安全问题产生的
WWW是Internet中发展最快的部分,Web应用安全也正在成为Internet上最脆弱、最容易攻击的部分。本文在分析Web系统各个环节可能出现漏洞的基础上,设计了一个增强安全的Web Serve
作为当代信息技术发展最高水平的代表之一,超级计算技术已成为大系统、大工程和大科学研究中必不可少的计算工具。然而,随着超级计算机的计算能力逼近百万亿次,以及异构系统和并