论文部分内容阅读
随着大数据时代的来临,信息知识化已成为信息管理的一个发展趋势,知识库作为一种常见的知识存储与管理工具,极大提升了计算机的智能处理能力。当前以互联网中丰富的资源作为知识获取的信息源,自动构建实体知识库,逐渐受到广泛关注,其关键技术是命名实体识别与消歧,实现网络资源中包含的实体指称项的识别,并发现指称项所指代的现实世界中的实体。然而在该类基于网络资源的应用中,对命名实体识别与消歧技术提出了新的要求,主要包括:(1)命名实体的类型更加丰富,不再局限于人名、地名和机构名等常用类型,需要克服标注资源不足的问题;(2)面对形式多样且数量庞大的网络数据,方法的性能和效率方面有待进一步改善。近年来,网络中公开语义资源的出现与发展,为命名实体识别与消歧技术的研究提供了更加丰富的语义信息,充分利用该类信息有望解决或改善传统方法在实体知识库构建等应用中存在的问题。本文研究基于网络语义资源的命名实体识别与消歧技术,包括实体分类、命名实体识别、人名聚类消歧和实体链接消歧,主要研究成果如下:(1)研究了细粒度实体分类。当前实体分类研究主要集中于英文语种,由于不同语种中命名实体的语言特性以及存在的资源往往存在较大差异,英文中的许多特性无法在其它语种中被直接利用。针对该问题,提出了一种中文维基的细粒度实体分类方法。该方法根据中文命名实体的特性并充分利用中文维基中包含的丰富信息构建了四类特征集,包括:条目内容特征、结构特征、类别特征和条目标题特征;然后,为各个特征设计不同的特征选择方法,并利用不同的策略实现不同特征的融合;最后,采用SVM分类算法实现中文维基的实体分类。实验结果表明,该方法能有效提高中文维基的实体分类性能。(2)研究了开放式命名实体识别。在实体知识库构建等应用中,实体类型随时间动态扩展而相应的标准语料存在不足,并且待处理数据涉及多个不同领域。针对该问题,提出了一种基于语料自动生成的开放式命名实体识别方法。该方法充分利用中文维基的内容和结构信息,实现包含约230万句子的大规模中文命名实体识别(NER)语料的自动生成;然后,采用一种标注语料选择方法,根据测试数据的领域选择标注句子;最后,采用CRFs训练模型并实现文本中命名实体的识别。实验结果表明,该方法生成的NER语料具有良好的质量,能有效解决开放式命名实体识别对标注语料的需求,此外通过选择标注语料能有效改善领域迁移问题,从而提高命名实体识别的性能。(3)研究了全局人名聚类消歧。在文档中往往存在一些特征对人名指称项的真实身份具有良好的指示作用,而现有方法对该类证据的识别能力存在不足。针对该问题,提出了一种基于两步聚类的人名消歧方法。该方法首先抽取直接社会关系、间接社会关系和通用描述前缀三类关键证据,对具有同指向关系的文档对进行识别,实现高准确率的人名初聚类;然后,将人名初聚类的结果作为初始类别,利用多篇文档的统计特性对各个特征进行评价,选取出具有良好指示作用的特征,并构建类别的双向量表示,在此基础上实现人名的后聚类,提高聚类的召回率。在CLP2010的中文人名消歧数据上进行实验,结果表明该方法具有良好的人名聚类消歧性能。(4)研究了增量式人名聚类消歧。现有的方法多为全局的人名聚类方法,在处理大规模数据时往往效率很低,且无法实现增量聚类。针对该问题,提出了一种基于关键证据与E~2LSH的增量式人名聚类消歧方法。首先,采用全局的人名聚类方法对初始文档集进行聚类,有效控制了全局聚类的文档规模且保证聚类的性能;然后,利用关键证据和E~2LSH算法生成候选文档集,极大降低了待计算相似度的文档规模,提高方法效率;最后,判断新文档所属的类别,实现增量式人名聚类消歧。实验结果表明,该方法能有效改善人名聚类的效率,且具有良好的性能。(5)研究了实体链接消歧。在实体消歧过程中不同证据发挥的作用存在差异,为了区分利用各个证据,提出了一种基于证据模型的弱监督实体链接消歧方法。首先,在上下文、社会关系和实体名称三类证据的基础上设计了一种实体表示,实现目标实体的结构化表示;其次,为不同类型的证据设计量化方法,实现对各个证据消歧能力的度量,以此强化具有较强消歧能力的证据发挥的作用;最后,计算指称项与候选实体之间的综合关联度,实现实体链接消歧。实验结果表明,该方法具有良好的实体链接消歧性能,并且有效降低了对训练数据的依赖,具有较强的适应性。(6)实现了实体知识库构建及其应用。在命名实体识别与消歧技术研究的基础上,设计了实体知识库的数据模型,实现中文实体知识库的自动构建。在数据结构方面,提出了基于三层数据模型的数据存储管理结构,并根据网络资源各自的特点分别抽取出不同类别的知识,实现显式知识和隐式知识的获取;进一步实现了实体目标的精准搜索以及实体关联信息的推荐。