面向结构化数据的实体识别关键技术的研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:_STLer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体识别是数据质量的一个关键方面,对于数据集成和数据挖掘都至关重要。本文将研究结构化数据的实体识别。数据集成和数据挖掘都可能涉及多个数据源,不同的数据源有不同的描述实体的方式。由于拼写错误、缩写方式不同、描述格式不同、属性值缺失、实体的某些属性值随着时间推移发生演化(比如年龄、居住地点、工作单位)等,描述同一真实世界实体的不同数据对象存在差异。实体识别是将一个或多个数据源中描述同一真实世界实体的数据对象识别出来。实体识别最早出现在人口普查和医疗卫生等社会公共服务领域,很早就受到公共机构的重视和依赖,从而促进了实体识别的研究。实体识别已经有几十年的研究历史,出现了许多有效的实体识别技术。然而,已有工作依然存在一些不足,其中包括以下四个方面:(1)已有的实体识别方法,要么需要领域专家设计匹配规则,要么需要较大量的人工标注的训练集才能学习匹配规则(也称为实体识别分类器)。(2)多类型关联数据中的实体关系可以促进实体识别,然而已有的工作无法同时地①解决数据对象属性值缺失的问题,②解决数据对象重名(主要指人名)的问题,以及③利用实体关系来提高实体识别的精确性和优化识别顺序。(3)已有的工作通常利用通用的聚类算法来解决非监督的实体识别中匹配决定的问题,由于通用的聚类算法没有考虑实体识别的特点,其精确性有限。(4)面对渐近式实体识别需求,现有的渐近式实体识别方法需要已知最优的分块键或排序键,并且无法从数据集中直接选择冗余度最高的数据。针对上述四点不足,本文的主要创新点如下:(1)针对监督的实体识别,提出一个基于遗传算法和主动学习的、监督的实体识别方法,可以用较少量的人工标注数据生成高效的实体识别分类器。该方法通过遗传进化来学习实体识别分类器,遗传进化包括种群初始化、个体选择、个体复制、基因的交叉和变异等。特别地,提出了一组特殊的交叉操作,分别针对分类器的一个特定方面:相似度函数交叉负责为不同的属性比较分别选择合适的相似度函数,阈值交叉负责为每个属性比较设定适当的阈值,聚集交叉负责将多个属性比较有效地、逻辑地组合起来。这三个特殊的交叉操作有利于生成高效的分类器。同时将利用主动学习来减少学习过程所需的人工标注数据,提升学习速度。通过在多个数据集上充分的实验,证明本文提出的方法比己有方法具有更高的精确性,并且需要更少的人工标注的训练数据。(2)针对联合式实体识别,提出一个基于图的、迭代的联合式实体识别方法,用于识别多类型的关联数据。首先,利用多类型的、关联的数据对象集合构建数据对象关系图,将基于语义路径的相似度和属性相似度结合起来判断数据对象是否匹配;然后,合并匹配成功的数据对象,并对对象图中的相应数据对象结点及其周边执行局部图收缩,这两个操作使对象图的局部语义变得更丰富,促使在局部范围内产生出新的候选匹配对象对,以待后续识别,实现相似度传递,形成一个迭代的识别过程。随着不断迭代,对象图的语义不断丰富,提高了联合式实体识别的精确性。通过实验证明本文提出的联合式实体识别方法比己有的联合式实体识别方法和基于对象关系的单类型实体识别方法具有更高的精确性。(3)针对非监督的实体识别,提出一个基于图聚类的、非监督的实体识别方法。首先,利用数据对象及其相似度构建带权重的数据对象相似图。然后,聚类的基本逻辑是,类簇迭代地吸收离它最近的结点。聚类过程中,利用相似图上重启式随机游走来动态地计算类簇与结点的相似度。提出数据对象排序方法来优化聚类的顺序,提高聚类的精确性;提出一个优化的随机游走平稳概率分布计算方法,降低聚类的开销。通过在真实数据集和合成数据集上的实验,验证了本文提出的图聚类算法在实体识别匹配决定中的有效性。(4)针对渐近式的数据管理需求,提出一个基于多路分块的渐近式实体识别方法。该方法不要求提供最优的分块或排序的键,并且可以直接找出脏数据集中冗余度最大的区域。分为两个阶段,初始化阶段和迭代阶段。在初始化阶段,初步地生成候选数据对象对,并按匹配可能性排序后加入到候选队列。在迭代阶段,每次选择候选队列队首的候选对(即最可能匹配的)来处理,并且根据实时的实体识别结果,动态地更新候选对的匹配可能性,调整候选队列。这样减少了无用的数据对象比较,使得实时的识别结果最优化,提高了实体识别的渐近性。通过在真实数据集和合成数据集上的实验对比,说明本文提出的基于多路分块的渐近式实体识别方法显著地优于己有工作。
其他文献
中国经济社会的高速发展,带动了旅游需求爆发,各类新型的旅游形式不断涌现。尤其在汽车时代到来之后,人们的出行方式与出游需求呈现出与以往不同的特征,但旅游业的供给却跟不
几乎所有油井都面临着结蜡给生产带来的不利影响,文章分析了目前常用的清防蜡工艺技术及优缺点,并与固体防蜡技术进行经济效益分析对比,借鉴了附近区块的室内实验及现场试验
海洋经济的可持续发展离不开海洋环境的监测与数据采集。近年来发展起来的无人帆船相比传统监测装备具有机动性高、监测范围大、绿色环保等诸多优点,受到广泛关注。本文将针
2010年10月16日-19日,由煤炭信息研究院举办的煤炭企业兼并重组与发展战略研讨会暨《中国煤炭》杂志2010年年会在山东省泰安市召开。30多家煤炭企业的领导、专家和代表近110
药品及保健品广告是消费者了解药品、保健品信息的重要途径,但由于民众对药品及保健品广告合法性未予以足够重视,且相关监管部门管制松懈,非法药商利用消费者的信任大肆牟利,
<正> 科学试验和生产实践证明,茶叶具有很强的氧化、吸湿特性,在贮运过程中由于水分、氧气、温度、光照等因素的影响,品质极易陈化劣变,失去原有的新鲜风味。特别是名优绿茶,
改革开放四十年来,我国经济一直保持高速和中高速增长,但粗放型的经济增长模式也造成了严重的生态破坏,广大农村地区是其中重要的一个污染区域,乡村地区的自我污染以及城市向乡村的转移污染严重掣肘乡村振兴战略,制约我国全面发展。所以,历届党中央十分注重农村环境问题,2018年的中央一号文件,将生态宜居与产业兴旺、乡风文明、治理有效、生活富裕一并作为乡村振兴战略的总要求。乡村生态宜居建设就是要使现代科学技术与
164年前,马克思和恩格斯合著了国际共产主义运动第一个纲领性文献《共产党宣言》,为全世界的无产阶级革命运动和社会建设指明了方向。沿着《共产党宣言》指引的光明前途,164
<正> 中国北欧文学学会于1989年4月25日在北京成立。北欧诸国的驻华使节、文化官员,在京的企业代表和专家,我国驻北欧诸国的前大使、参赞以及新闻、出版和文艺界的代表共一百
依照将EWIS作为飞机独立功能系统的研制理念,从型号工程实践中出发,分析明确了飞机运营中EWIS的计划和非计划维修工作任务,并在此基础上创新性地提出了针对EWIS维修性设计的