基于网络语义资源的命名实体识别与消歧技术研究

来源 :解放军信息工程大学 | 被引量 : 1次 | 上传用户:popok12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,信息知识化已成为信息管理的一个发展趋势,知识库作为一种常见的知识存储与管理工具,极大提升了计算机的智能处理能力。当前以互联网中丰富的资源作为知识获取的信息源,自动构建实体知识库,逐渐受到广泛关注,其关键技术是命名实体识别与消歧,实现网络资源中包含的实体指称项的识别,并发现指称项所指代的现实世界中的实体。然而在该类基于网络资源的应用中,对命名实体识别与消歧技术提出了新的要求,主要包括:(1)命名实体的类型更加丰富,不再局限于人名、地名和机构名等常用类型,需要克服标注资源不足的问题;(2)面对形式多样且数量庞大的网络数据,方法的性能和效率方面有待进一步改善。近年来,网络中公开语义资源的出现与发展,为命名实体识别与消歧技术的研究提供了更加丰富的语义信息,充分利用该类信息有望解决或改善传统方法在实体知识库构建等应用中存在的问题。本文研究基于网络语义资源的命名实体识别与消歧技术,包括实体分类、命名实体识别、人名聚类消歧和实体链接消歧,主要研究成果如下:(1)研究了细粒度实体分类。当前实体分类研究主要集中于英文语种,由于不同语种中命名实体的语言特性以及存在的资源往往存在较大差异,英文中的许多特性无法在其它语种中被直接利用。针对该问题,提出了一种中文维基的细粒度实体分类方法。该方法根据中文命名实体的特性并充分利用中文维基中包含的丰富信息构建了四类特征集,包括:条目内容特征、结构特征、类别特征和条目标题特征;然后,为各个特征设计不同的特征选择方法,并利用不同的策略实现不同特征的融合;最后,采用SVM分类算法实现中文维基的实体分类。实验结果表明,该方法能有效提高中文维基的实体分类性能。(2)研究了开放式命名实体识别。在实体知识库构建等应用中,实体类型随时间动态扩展而相应的标准语料存在不足,并且待处理数据涉及多个不同领域。针对该问题,提出了一种基于语料自动生成的开放式命名实体识别方法。该方法充分利用中文维基的内容和结构信息,实现包含约230万句子的大规模中文命名实体识别(NER)语料的自动生成;然后,采用一种标注语料选择方法,根据测试数据的领域选择标注句子;最后,采用CRFs训练模型并实现文本中命名实体的识别。实验结果表明,该方法生成的NER语料具有良好的质量,能有效解决开放式命名实体识别对标注语料的需求,此外通过选择标注语料能有效改善领域迁移问题,从而提高命名实体识别的性能。(3)研究了全局人名聚类消歧。在文档中往往存在一些特征对人名指称项的真实身份具有良好的指示作用,而现有方法对该类证据的识别能力存在不足。针对该问题,提出了一种基于两步聚类的人名消歧方法。该方法首先抽取直接社会关系、间接社会关系和通用描述前缀三类关键证据,对具有同指向关系的文档对进行识别,实现高准确率的人名初聚类;然后,将人名初聚类的结果作为初始类别,利用多篇文档的统计特性对各个特征进行评价,选取出具有良好指示作用的特征,并构建类别的双向量表示,在此基础上实现人名的后聚类,提高聚类的召回率。在CLP2010的中文人名消歧数据上进行实验,结果表明该方法具有良好的人名聚类消歧性能。(4)研究了增量式人名聚类消歧。现有的方法多为全局的人名聚类方法,在处理大规模数据时往往效率很低,且无法实现增量聚类。针对该问题,提出了一种基于关键证据与E~2LSH的增量式人名聚类消歧方法。首先,采用全局的人名聚类方法对初始文档集进行聚类,有效控制了全局聚类的文档规模且保证聚类的性能;然后,利用关键证据和E~2LSH算法生成候选文档集,极大降低了待计算相似度的文档规模,提高方法效率;最后,判断新文档所属的类别,实现增量式人名聚类消歧。实验结果表明,该方法能有效改善人名聚类的效率,且具有良好的性能。(5)研究了实体链接消歧。在实体消歧过程中不同证据发挥的作用存在差异,为了区分利用各个证据,提出了一种基于证据模型的弱监督实体链接消歧方法。首先,在上下文、社会关系和实体名称三类证据的基础上设计了一种实体表示,实现目标实体的结构化表示;其次,为不同类型的证据设计量化方法,实现对各个证据消歧能力的度量,以此强化具有较强消歧能力的证据发挥的作用;最后,计算指称项与候选实体之间的综合关联度,实现实体链接消歧。实验结果表明,该方法具有良好的实体链接消歧性能,并且有效降低了对训练数据的依赖,具有较强的适应性。(6)实现了实体知识库构建及其应用。在命名实体识别与消歧技术研究的基础上,设计了实体知识库的数据模型,实现中文实体知识库的自动构建。在数据结构方面,提出了基于三层数据模型的数据存储管理结构,并根据网络资源各自的特点分别抽取出不同类别的知识,实现显式知识和隐式知识的获取;进一步实现了实体目标的精准搜索以及实体关联信息的推荐。
其他文献
<正>江苏省昆山市锦溪镇长云村农地股份专业合作社于2009年组建,共有入社农户679户,入股土地面积1943亩。近年来,长云村农地股份专业合作社充分发动党员群众,勇于探索实践,创
对酒店大堂的实用功能与装饰功能进行了详细论述,并对两者之间相辅相成的关系进行了分析,旨在发掘酒店大堂中实用功能与装饰功能对于酒店运作的作用,以提升酒店的使用价值与
现代仪器分析技术是化学化工类专业本科毕业生必须掌握的基本技能,而仪器分析实验教学对学生专业技能的提升和工程实践能力的培养至关重要。本文针对化学化工类专业特点,总结了
《京氏易传》是《易》与阴阳家相结合的产物,京房在这部书中极富创造性地建构了一系列新的易学条例.丰富了卦气说的理论体系。在此基础上,《京氏易传》将五行机制输入卦爻之中,以
石墨烯的成功剥离标志着固体材料的研究正式进入二维材料领域。随着人们的不断探索,更多的二维材料被发现,如硅烯,锗烯,磷烯,六角氮化硼,过渡金属硫化物等。二维材料的量子尺
核桃是世界重要的木本粮油植物,具较高的经济价值,是优良水土保持生态经济林树种。随着退耕还林面积的不断扩大,农林争地矛盾逐渐突出。林木生长周期长,林地早期没有收益或收
民间工艺是劳动人民智慧的结晶,与其他的艺术形式相区分,它切切实实的来源于生活,其创造主体是普普通通的大众,是广大劳动者在满足自身生活和审美的同时创造出的符合大众需求
在科技高度发达和经济不断发展的今天,人们已不再为温饱发愁了,然而丰富的物质生活条件虽然带给我们无穷的乐趣和享受,但同时也带给了我们无尽的烦恼和忧伤,高热量、高脂肪、高糖
近年来肺癌发病率和死亡率逐年增高,严重危害人类健康。化疗是肺癌的主要治疗手段。但是,目前使用的化疗药物临床疗效不理想,因此迫切需要不断地开发新的抗肺癌药物。促进细
“洛桑校友会”人才培养模式就是将校友的影响运用到人才培养的具体模式中,以良好的校友文化为高校和人才培养服务。“洛桑校友会”是高效人才培养模式,具有显著的特点,但是在运