论文部分内容阅读
随着社会生活的发展,企业和政府等组织机构的数据每天都在快速增长。同时数据中的问题也越来越多,极大地降低了数据的可用性。其中实体识别问题是一个很早就困扰着数据质量管理研究者的问题,实体识别在数据去重和错误修改方面研究较多,在实体查询和高质量的数据分析中也是重要课题。现行的实体识别技术主要有基于属性的基本特征和基于属性关系的方法。虽然度量属性特征的基本相似度函数已经比较完善,但属性特征信息有限,很难提供更多的线索。基于属性关系的发方法可以发现属性间的内在联系,弥补了基于属性特征的方法的不足。为了表示属性间的关系,产生了很多模型,各种模型含有很强的领域知识,很难利用到其他问题上。各类实体识别问题层出不穷,若每次出现问题都依靠专家进行分析,建立专门的模型进行解决,效率低下。通用的系统还是比较少的,现行的框架面临的主要困难有:1)缺乏领域无关的相似度计算方法;2)相似度判断阈值很难确定,且阈值附近错误率较高;3)不同属性的相似度对判断的权重很难确定。针对以上通用系统面临的挑战,本文提出了一种基于属性模式的实体识别框架。通过对属性与实体的关系特点进行分析,把属性分为了四类,按类型特点提出了通用的相似度度量方法。各属性的相似度通过向量形式组织在一起,保持了属性间的内在联系,避免了对属性的相似度的权重进行分配。判断器是相似空间的一个划分,通过统计学习形成判断所需的信息。提出了一种新的实体关系图,在图上进行实体划分。划分过程中对修改后的实体对相似度重新计算,可以发现更多的实体对。系统还增加了反馈的功能。最后通过实验证明了本文提出的基于属性模式的实体识别方法的有效性。