基于Freebase的英文命名实体识别链接的研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:dongfangSS
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的不断发展,人们利用网络进行多种多样的沟通交流,网络上也出现越来越多的新闻、百科等非结构化的文本。对这些信息的处理和挖掘能够帮助人们更好的理解文本内容,掌握有价值的信息,加强人们之间有效的交流。命名实体识别和实体链接作为处理文本中实体相关的技术也因此受到国内外研究学者越来越广泛的关注。命名实体识别是识别文本中出现的人名、机构名、地名以及时间等特殊名词的一项任务。实体链接则是将这些文本中的实体链接到知识库中一个无歧义实体的过程。实体对文本内容的理解有很大的帮助,对信息抽取、自动问答、机器翻译等任务也有着重要作用。近年来,大规模知识库在自然语言处理中不断得到应用,知识图谱相关技术迅速发展,命名实体识别和实体链接技术作为构建和应用知识图谱的关键技术之一也得到不断发展。目前该任务面临的主要问题是文本中存在的实体具有多样性和歧义性。一个指称可以代表多个存在的实体,而一个实体也可以同时拥有多个名称。为了克服实体多样性和歧义性给命名实体识别和实体链接任务带来的困难,提出基于双向长短期记忆网络与条件随机场的命名实体识别方法和基于Freebase知识库的神经网络实体链接方法用于从指称的候选实体集合中选择出指称的链接实体。结合指称上下文和候选实体描述文本降低指称歧义性带来的影响。该方法在AIDA CoNLL-YAGO实体链接语料和TAC KBP-2017命名实体识别和实体链接评测语料上链接准确率分别达到88.2%和83.7%。基于长短期记忆网络和条件随机场的命名实体识别方法在CoNLL-2003语料上F1值达到0.91。对参数的可视化分析也验证方法中所应用的结构化自注意力机制和记忆网络能够从指称上下文和实体描述文本中挖掘出有利于实体链接的关键信息。论文的主要贡献如下:1.提出基于双向长短期记忆网络和条件随机场的命名实体识别方法用于识别文本中的指称。该方法利用长短期记忆网络自动发现文本中的有效特征,并结合条件随机场算法获得序列标注的最优解。2.提出基于结构化自注意力机制和记忆网络的实体链接方法。该方法利用结构化自注意力机制获取指称上下文和实体描述文本中的有效信息,并利用记忆网络获取指称与指称上下文之间以及实体与实体描述文本之间的交互信息。3.构建基于Freebase知识库的英文命名实体识别和实体链接系统,实现对文本中指称的识别,并将其链接到知识库中的特定实体上。4.在两个标准数据集中进行相关实验。实验结果表明所提方法和目前先进的神经网络实体链接方法具有可比性。通过对参数权重的可视化分析,验证方法从指称上下文和实体描述文本中挖掘出的信息具有可解释性。
其他文献
在有关经济增长理论的研究中,区域经济增长的差异问题是很引人注目的领域之一。新古典增长理论预言不同区域的人均收入和经济增长率有很强的收敛性,引发收敛性的原因在于资本
苯乙烯-马来酸酐共聚物(SMA)分子结构中含有酸酐官能团,易于化学改性得到新型功能高分子,在生物以及化学方面均表现出优异特性,而酸酐含量是影响其性能的重要因素,因此必须准确分析
随着社会对海洋文化的日益重视,海洋公园作为一种特殊形式的主题公园已进入快速发展的时期,全国各地涌现出诸多海洋主题公园。通过论述日本主要大型海洋馆的主题特色,为我国
<正>~~
会议
抑郁症是一种常见的精神疾病,目前临床上主要通过药物治疗、心理治疗、物理治疗等方式治疗抑郁症。有研究表明药物治疗与新型抗精神病药物联用也许会增加药物疗效,但目前对此
目的:本研究以跨理论取向团体治疗对物质滥用者进行心理干预,探讨该形式对滥用者的干预效果,为日后跨理论取向团体治疗在物质滥用领域的推广提供研究证据。方法:随机选取并筛选
对3.5Mt/a重油催化裂化装置烟机入口膨胀节开裂原因进行了分析,得出了膨胀节开裂的成因;提出了开裂产生的基本条件,即应力条件和介质条件;提出了整改措施和改进办法,增加电伴热,保证
利用ANSYS有限元分析软件对啮合同向双螺杆挤出机由捏合盘和螺纹元件组合而成的流道进行了三维等温非牛顿模拟分析 ,得到了组合流道的速度场和压力场。并对螺纹元件流道、捏
设计一套新型的增压预防机构,实现了监测舱门闩锁机构、增压预防、快速泄压、机构破损安全、2 psi锁定、破冰多项功能。利用Adams软件对增压预防机构进行动力学仿真,满足动力
在长江中游城市群中,武汉市现有经济体量和人口体量最大,承载的国家战略最多,武汉应该定位为长江中游城市群的中心城市。武汉的中心城市地位即核心价值可以定位于城市群的服