Deep Web环境下重名实体识别研究

来源 :东北大学 | 被引量 : 1次 | 上传用户:nhb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Deep Web环境下存在大量可访问的Web数据库,由于Web数据库的异构性和自主性,对从各个Web数据库中抽取出的结果进行集成是一项很有挑战性的工作。这些异构的Web数据库之间存在的实体记录信息一般都是不规范的,存在实体记录的冗余或多种表现形式,从数据质量的角度分析,不能很好地满足数据的一致性、正确性及完整性,我们需要将同一实体概念对应的不同实体记录识别出来。在集成多个数据源时,需要消解模式冲突及相似重复记录的问题,重名实体识别则是数据清洗过程中必不可少的环节之一。为此,本文提出一种适用于Deep Web环境下的重名实体识别模型,由数据预处理模块和相似实体聚类模块组成。Deep Web环境下的重名实体识别模型利用XML Schema描述数据集成过程中实体记录的全局模式,对实体记录的属性信息进行统一化整理,解决了异构数据源中的模式冲突问题;通过定义多种不同的数据类型,实现了属性值数据的标准化。在数据预处理工作完成后,本文提出基于聚类的重名实体识别算法,包括实体属性相似度计算、实体记录整体相似度计算以及相似实体聚类三部分。以全局模式的实体记录属性信息作为输入,通过构建属性间的约束规则,选择合适的相似度计算方法得到实体记录各属性间的相似度;根据特征属性的权值,计算实体记录之间的整体相似度;基于实体记录相似度比较,应用近邻传播算法,实现相似实体记录聚类。输出为重名实体消歧记录集,每个聚类簇代表现实世界的一个单独实体,从而实现重名实体的识别及消歧效果。通过重名实体识别处理,我们可以得到一致的、准确的实体记录信息,从而提高Deep Web多数据源集成的数据质量,并提高用户体验效果。实验表明,重名实体识别模型在Deep Web环境下是可行且有效的。
其他文献
身份认证技术是信息安全的一个重要机制,通信的双方只有在验证彼此身份之后才进行通信。然而传统的身份认证在对身份证明时不可避免的泄露身份相关的信息。为了满足现代通信
敦煌莫高窟作为我国唯一符合世界文化遗产全部六项评定标准的文化遗产,具有极高的历史文化价值和科学艺术价值。随着人们物质文化生活水平的提高,莫高窟景区的游客数量逐年递
随着互联网技术的高速发展,IPv6取代IPv4成为下一代互联网的主要协议,是网络发展的必然趋势。与此同时,计算机网络的相关技术也越来越引起人们的重视,网络行为分析就是在这种
本课题进行多角度人脸图像的性别分类和相应的特征选择研究。单一正面人脸图像的性别识别已经是一个得到较充分研究的问题,但是在实际环境下,由于人脸角度和朝向的多变性,使
近年来,针对集中式数据库中确定数据的Top-k查询研究已经取得了很多进展。但是,随着人们对客观世界认识的不断深入,不确定数据领域也受到了广泛重视。并且随着网络的发展,数
随着XML数据逐渐成为数据发布和交换的标准,对XML的高性能数据管理需要越来越迫切,但由于历史原因,关系式数据还占很大的市场份额,单纯的XML数据管理并不能满足当前的需要,采用关
随着面向对象技术和工具的发展和日益成熟,与结构化设计相比,面向对象系统设计显示了巨大的优越性。同时,传统的度量方法已经很难反映面向对象软件系统的基本特征,因此,需要
在财务管理信息化建设之初,各级预算单位按照自身的业务需求建设了相应的财务管理系统。随着财政信息化建设的不断深入,各种问题便暴露出来,其中最为突出的是这些系统之间由
度量是一种从现实或实验世界到数学世界的映射,通过这种映射人们可以更容易地理解实体的特性和实体间的关系。随着软件规模的逐渐增大,软件复杂性的不断提高,软件的所有类或
随着Web服务及BPEL的深入发展,人员参与业务流程的问题已逐步引起了人们的关注。同时随着WS-HumanTask及BPEL4People规范的发布及标准化,越来越多的传统BPEL执行引擎开始支持