论文部分内容阅读
词对之间语义关系的相似度计算是数据挖掘、自然语言处理的一个重要研究问题,相关研究成果在语义搜索、信息抽取、类比检测、以及本体构建等方面都有着重要的应用前景。已有的语义关系相似度计算方法大致可以分为两类:基于语义资源(如WordNet等)的方法和基于大规模文本的方法(该方法以统计理论为支撑)。基于大规模文本的统计方法是根据词对在大规模文本里共现时的所对应的上下文信息来提取出相关的词法/语法模式,并统计出不同词对与不同词法/语法模式共现的词频,从而最终计算出不同词对之间的语义关系相似度。该类方法常常会受到数据稀疏性问题的影响。本论文对已有的一些经典算法所采用的处理流程和关键技术进行了分析总结,在此基础上进行了如下研究工作:首先,由于数据标准化技术对语义关系相似度计算有非常重要的作用,因此本文研究了三种不同的数据标准化技术(区间标准化、zScore标准化、基于熵信息和比例缩放的标准化)在语义相似度计算中的作用,并在ENT数据集和SAT测试题上验证了其作用。其次,针对大规模文本集下的统计方法易受数据稀疏性影响的问题,本文采用了随机游走算法的思想来求解语义关系相似度计算问题,并进行了相应的实验测试及分析。最后,传统的语义关系相似度计算大多需要提前给定词对,而缺乏自动构建词对的机制,因此本文提出了将自动术语提取技术与语义相似度计算相结合的处理流程。