基于属性模式的实体识别框架

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:CIA007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会生活的发展,企业和政府等组织机构的数据每天都在快速增长。同时数据中的问题也越来越多,极大地降低了数据的可用性。其中实体识别问题是一个很早就困扰着数据质量管理研究者的问题,实体识别在数据去重和错误修改方面研究较多,在实体查询和高质量的数据分析中也是重要课题。现行的实体识别技术主要有基于属性的基本特征和基于属性关系的方法。虽然度量属性特征的基本相似度函数已经比较完善,但属性特征信息有限,很难提供更多的线索。基于属性关系的发方法可以发现属性间的内在联系,弥补了基于属性特征的方法的不足。为了表示属性间的关系,产生了很多模型,各种模型含有很强的领域知识,很难利用到其他问题上。各类实体识别问题层出不穷,若每次出现问题都依靠专家进行分析,建立专门的模型进行解决,效率低下。通用的系统还是比较少的,现行的框架面临的主要困难有:1)缺乏领域无关的相似度计算方法;2)相似度判断阈值很难确定,且阈值附近错误率较高;3)不同属性的相似度对判断的权重很难确定。针对以上通用系统面临的挑战,本文提出了一种基于属性模式的实体识别框架。通过对属性与实体的关系特点进行分析,把属性分为了四类,按类型特点提出了通用的相似度度量方法。各属性的相似度通过向量形式组织在一起,保持了属性间的内在联系,避免了对属性的相似度的权重进行分配。判断器是相似空间的一个划分,通过统计学习形成判断所需的信息。提出了一种新的实体关系图,在图上进行实体划分。划分过程中对修改后的实体对相似度重新计算,可以发现更多的实体对。系统还增加了反馈的功能。最后通过实验证明了本文提出的基于属性模式的实体识别方法的有效性。
其他文献
动画是文化产业的重要分支,而三维动画角色作为动画的灵魂,其高效的制作方式却仍难觅获。计算机技术的发展,使得设计师对角色进行模型检索和组合建模成为了可能,而这种快速建模方
传统无线传感器网络中的sink是静态的,这使得距离sink较近的节点由于要承担大量的数据转发工作,能量消耗较快。由于传感器节点通常部署在环境恶劣的区域,且节点使用电池供电的方
手机视频被预测为下一个无线网络端的热点应用。而且,随着移动通讯技术和智能手机的普及,人们对于先进的无线视频广播技术的要求越来越迫切。那么一个问题就自然随着而来,目前存
随着网络信息技术的快速发展,人们对信息安全的需求也越来越高。多媒体信息的获取、编辑和分发越来越方便,这给人们带来便捷的同时,也给传统的信息安全带来了极大的挑战。传统的
“基于DRM的数字内容交易与分发平台研究及应用”结合目前数字出版领域的现状,重点解决数字内容交易与分发过程中的关键棘手问题,通过对相关关键技术的研究,最终建立一个版权保
随着计算机技术的迅猛发展,二维可视化技术已经不能满足人类的需求,三维世界对人类的吸引力起来越大。在三维可视化的研究中,复杂物理过程的可视化正在成为信息可视化领域的一个
在当今的信息化时代,信息的获得、处理和利用已经越来越重要了。人类所获取的信息中,视觉占了70%,因此对图像这种数据类型的获取,处理和利用十分重要。但是,由于成像设备,传输,人为
随着多媒体技术的蓬勃发展,立体图像技术应运而生。相比于二维图像,立体图像额外提供了深度信息,能够带给观测者身临其境的立体感受,因此在娱乐、军事以及工业等种种领域开始扮演
随着计算机视觉领域的不断发展,图像的处理问题越来越受到人们的关注。本课题通过对运动员的滑行数据进行分析找出与高水平运动员之间的差距,以提高运动员的水平。本课题主要分
大型公司拥有多个子公司,每个子公司一般分布在不同的地区,大型公司一般使用多数据库系统管理业务。多数据库系统的知识发现对于大型公司的管理者是一种迫切的需求。简单地将子