基于Hadoop平台的XML文档重复数据检测

来源 :计算机系统应用 | 被引量 : 0次 | 上传用户：halicarnasus

【摘要】

：

XML数据越来越广泛地被用于信息交换与集成中，其数据质量问题引起了人们的关注．解决由数据质量引发的问题，实体识别技术非常关键．为了克服现有方法的不足，在海量XML数据上进行高效

【作者】

：

李振兴刘波

【机构】

：

暨南大学信息科学技术学院学院

【出处】

：

计算机系统应用

【发表日期】

：

2013年11期

【关键词】

：

XML 数据质量重复检测 HADOOP 分布式 XML data quality duplicate detection Hadoop distrib

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

XML数据越来越广泛地被用于信息交换与集成中，其数据质量问题引起了人们的关注．解决由数据质量引发的问题，实体识别技术非常关键．为了克服现有方法的不足，在海量XML数据上进行高效的重复对象检测，以实体识别技术为基础提出了基于Hadoop平台的XML文档重复检测算法，它将所有标签节点统称为属性，用实体来描述属性，通过属性的比较，快速地找到在某些属性上相同的所有实体对象，并利用Hadoop应用框架处理海量数据的优势实现并行处理．经过试验验证该方法良好的扩展性，伸缩性和高效性．

其他文献

挑选聚类算法的网格连通图方法

每一种聚类算法都有其适合处理的特定分布的数据集．为了给未知分布数据集挑选合适的聚类算法，提出了一种挑选聚类算法的网格连通图方法SCGG-SCGG通过对数据潜在类结构的分析，若

期刊

网格连通图挑选聚类算法grid-connected graph selection of clustering algorithms

基于WCF的软件在线注册方案

计算机软件在线注册是实现软件版权保护的主要技术方案。WCF技术实现了跨平台的通信,为不同应用平台下的应用软件提供了统一的在线注册通信。同时,.Net的加密技术为整个注册

期刊

WEB信息提取知识表示数据密集型Web页面基于本体的关键词库software online registration WCF .encryption

基于Android系统的流媒体服务器

为了解决手持移动设备之间的实时视频传输，提出了基于Android系统的轻型流媒体视频传输系统的设计方案．利用流媒体传输控制技术，通过移植优化live555项目，实现了基于Android系统

期刊

ANDROID流媒体live555视频传输FFMPEGAndroid Streaming Media live555 video transmi

面向嵌入式通信设备的Ch自动化测试框架设计

Ch 是一种C/C＋＋脚本语言，用Ch 脚本语言对通信设备进行测试具备简单，快速，可直接嵌入等优点。RobotFramework 是基于Python 语言开发的开源的自动化测试系统，它具有简单明了的上下

期刊

CHRobotFramework自动化测KEYWORD嵌入式通信设备Ch RobotFramework test automation KeyW

变频调速恒压供水系统新方法

针对当前多数恒压供水系统水泵运行状态单一、不能自动完成多台水泵循环工作,影响水泵使用寿命且使其它水泵长期停歇造成资源浪费的问题。提出了采用支持图形化逻辑电路编程

期刊

LOGO!变频调速恒压供水多泵状态转移定时切泵LOGO! variable voltage and variable frequency cons

面向实时系统的服务组件动态等级调度策略

OSGi是基于组件的面向服务架构,其服务组件可在运行时远程地被安装、卸载和更新,但其服务实现的各项属性必须安装后才可知,这对于有时限要求的实时系统来说,是一个挑战。在执

期刊

SOA架构实时系统服务调度组件SOA architecture real-time system service scheduling com

电磁式计轴传感器技术

对电磁式计轴传感器的核心理论——电磁原理进行了麦克斯韦方程组解析。针对不同的电磁式计轴传感器做出分析和对比,总结了计轴技术的发展趋势。

期刊

麦克斯韦方程电磁原理计轴传感器磁场分析Maxwell’s equationsElectromagnetic principleAxle Counti

基于内容分类的集群负载均衡算法

集群技术为Web服务带来了新的解决方案,其核心思想是负载均衡策略。在分析已有方法的基础上,提出了一种基于内容分类的集群负载均衡算法。该算法通过对用户请求分类后均匀地

期刊

集群负载均衡内容分类动态反馈权值cluster load balancing content-classification dynamic fe

一种批量抽取动态Web信息系统

针对从Web页面获取信息的广泛需求,分析了从中提取信息的关键技术如URL地址、HTML页面和HtmlParse解析库;以从Google Map中获取企业黄页信息为例,根据从中自动提取数据的技术

期刊

WEB页面HtmlParseGOOGLE地图信息抽取系统Web page HtmlParse Google map information ex

新的基于身份的（t,n）门限签密方案

针对现有的门限签密方案效率低不太实用的不足,以及基于身份的签密系统密钥托管问题,利用双线性对提出了一个新的基于身份的（t,n）门限签密方案。通过引入签密者秘密信息,实现了

期刊

基于身份密钥托管门限签密双线性对ID-based key escrow threshold signcryption bilinear pairi

基于Hadoop平台的XML文档重复数据检测

与本文相关的学术论文