论文部分内容阅读
随着大数据时代的到来,互联网每天都会产生大量的文本信息,词语作为文本的基本组成单位,对词语语义的理解是文本处理的基础工作之一。词语相似度计算,是用一个具体的数值表示两个词语的相似程度,是理解词语语义的主要方法,词语相似度问题的解决将会推动自然语言处理领域相关应用技术的发展,例如问答系统、信息检索、词义消歧和机器翻译等。在深入学习了词语相似度计算及问答系统的相关研究方法的基础上,本文提出了一种基于义原向量的词语相似度计算方法,并研究了该方法在知识库问答系统中的应用,主要研究内容包括:(1)提出了一种义原向量生成模型SIC_PageRank。在HowNet义原上下位关系构成的层次结构图中,通过义原及其子孙义原节点的深度信息计算每个义原的信息容量SIC(Sememe Information Content),利用SIC和义原结构图中的连接关系,构建PageRank转移概率矩阵,基于PageRank思想迭代生成每个义原的向量表示。(2)提出了基于义原向量的词语相似度计算方法。基于SIC_PageRank模型生成义原向量,由义原向量的余弦相似度计算义原相似度,由义原相似度计算概念相似度,进而计算词语相似度。将基于义原向量的词语相似度计算方法应用到“现代汉语语义词典”名词语义类自动识别中,实验结果表明,该方法与人工校对结果的一致率达到71.9%,优于使用基于最短路径距离的方法。(3)词语相似度计算在知识库问答系统中的应用。在知识库问答系统中,借助词语相似度来计算问句谓词和候选答案谓词之间的相似度,并结合两者的编辑距离、词共现和分类等特征,使用排序学习算法Ranking SVM对候选答案排序。本文在NLP&CC2016知识库问答系统评测任务数据集上进行实验,实验结果表明,将基于义原向量的词语相似度计算方法应用到知识库问答系统中,识别答案的精确率达到73.88%,召回率达到82.29%,平均F1值达到75.88%,在三个评价指标上均高于使用word2vec词向量的方法。