论文部分内容阅读
随着互联网的迅速发展,数据量逐渐变大,如何从海量的互联网数据中提取有用信息,使其化身为人类生活、工作的智能化帮手显得尤为关键。从自然文本中抽取信息属于自然语言处理问题,而实体链指便是自然语言处理中的一项关键性技术,它在人工智能问答系统、信息抽取和检索、机器翻译等方面发挥着无穷的应用潜力和作用。实体链指以辨别出被查询实体名称指代的是哪一个具体客观存在的事物为目的,它的实现分为候选实体生成和候选实体排序两部分。目前对候选实体生成关注较少,而大多着眼于如何实现候选排序。针对现有实体链指研究中存在的问题,本文提出了一种基于知识图谱的中文影评的实体链指算法,主要研究内容有:1.本文基于本体提出了知识图谱建模方法。分别对知识图谱中的基本元素,即概念、关系、规则等进行形式化定义,并以(概念,关系,规则)的三元组模式体现概念间的语义关联,形成网络图型结构的知识图谱模型。利用知识图谱进行实体链指,省略了候选实体生成的步骤。2.在知识图谱模型的基础上,本文提出了基于网络图型结构的实体链指算法。该算法改进了传统的概念相似度模型,充分考虑了知识图谱网络图型结构中各个概念节点间连接路径长短,节点深度及节点密度的影响因素,利用条件概率对概念节点间的关系边进行加权,运用改进后的模型计算概念节点间语义相似度的方法来度量待链指实体与候选实体的实体相似度大小,实体相似度最大的即为实体链指的目标实体。结合CCKS-2016年度全国知识图谱与语义大会的评测任务,本文基于知识图谱模型首先对大会给定的知识库进行预处理,然后详细叙述了中文影评在知识图谱的基础上利用网络图型结构的实体链指算法的实现过程。评测结果显示,实体链指准确率高达89.2%,效果良好,证明本文的知识图谱建模方法和基于网络图型结构的实体链指算法具备一定的有效性和较高的准确性。