基于Hadoop平台的XML文档重复数据检测

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户:halicarnasus
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
XML数据越来越广泛地被用于信息交换与集成中,其数据质量问题引起了人们的关注.解决由数据质量引发的问题,实体识别技术非常关键.为了克服现有方法的不足,在海量XML数据上进行高效的重复对象检测,以实体识别技术为基础提出了基于Hadoop平台的XML文档重复检测算法,它将所有标签节点统称为属性,用实体来描述属性,通过属性的比较,快速地找到在某些属性上相同的所有实体对象,并利用Hadoop应用框架处理海量数据的优势实现并行处理.经过试验验证该方法良好的扩展性,伸缩性和高效性.
其他文献
每一种聚类算法都有其适合处理的特定分布的数据集.为了给未知分布数据集挑选合适的聚类算法,提出了一种挑选聚类算法的网格连通图方法SCGG-SCGG通过对数据潜在类结构的分析,若
计算机软件在线注册是实现软件版权保护的主要技术方案。WCF技术实现了跨平台的通信,为不同应用平台下的应用软件提供了统一的在线注册通信。同时,.Net的加密技术为整个注册
为了解决手持移动设备之间的实时视频传输,提出了基于Android系统的轻型流媒体视频传输系统的设计方案.利用流媒体传输控制技术,通过移植优化live555项目,实现了基于Android系统
Ch 是一种C/C++脚本语言,用Ch 脚本语言对通信设备进行测试具备简单,快速,可直接嵌入等优点。RobotFramework 是基于Python 语言开发的开源的自动化测试系统,它具有简单明了的上下
针对当前多数恒压供水系统水泵运行状态单一、不能自动完成多台水泵循环工作,影响水泵使用寿命且使其它水泵长期停歇造成资源浪费的问题。提出了采用支持图形化逻辑电路编程
OSGi是基于组件的面向服务架构,其服务组件可在运行时远程地被安装、卸载和更新,但其服务实现的各项属性必须安装后才可知,这对于有时限要求的实时系统来说,是一个挑战。在执
对电磁式计轴传感器的核心理论——电磁原理进行了麦克斯韦方程组解析。针对不同的电磁式计轴传感器做出分析和对比,总结了计轴技术的发展趋势。
集群技术为Web服务带来了新的解决方案,其核心思想是负载均衡策略。在分析已有方法的基础上,提出了一种基于内容分类的集群负载均衡算法。该算法通过对用户请求分类后均匀地
针对从Web页面获取信息的广泛需求,分析了从中提取信息的关键技术如URL地址、HTML页面和HtmlParse解析库;以从Google Map中获取企业黄页信息为例,根据从中自动提取数据的技术
针对现有的门限签密方案效率低不太实用的不足,以及基于身份的签密系统密钥托管问题,利用双线性对提出了一个新的基于身份的(t,n)门限签密方案。通过引入签密者秘密信息,实现了