论文部分内容阅读
对词语之间和词对之间的关系进行量化测度是自然语言处理的重要研究内容之一,相关研究成果在信息检索、语义消歧、机器翻译等自然语言处理领域都有广泛的应用。近年来,词语之间的语义相关度度量研究已经取得了丰硕的成果,词对之间的关系相似度度量研究成为业界研究热点。现有的词对之间的关系相似度度量方法大致分为两类:基于语义资源的方法和基于统计的方法。基于语义资源的方法利用语义词典或语义网计算词对之间的关系相似度,这种方法需要极大程度地依赖于词汇或义原间的关系体系,较难满足实际的应用需要,并且根据需求手工构建词典的成本较高。基于统计的方法属于数据驱动方式,其基本思想是从大规模的语料中(如Wikipedia)统计与词对共现的上下文信息以计算词对之间的关系相似度。这种方法具有数据稀疏问题和实验耗费时间长问题;这种方法仅仅基于词对的共现,并不能真正挖掘出词对间的语义关系;另外,基于统计的有监督的关系相似度算法需要人工标注语料,成本较高。本论文针对现有的词对间关系相似度算法的不足,首先提出了基于潜在语义检索的词对关系相似度算法(LSR),针对LSR算法实验准确率不高的缺点,进一步提出了基于语义增强的词对关系相似度算法(SSR)。本论文的主要研究成果如下:首先,对目前的英文词对关系相似度算法进行研究,分析现有英文词对关系相似度算法的优点和不足,提出一种基于潜在语义检索的词对关系相似度算法,即LSR算法,为了验证LSR算法的性能,采用经典测试集数据(即374道SAT问题)对本论文提出的LSR算法进行验证。实验结果显示LSR算法在时间性能方面具有明显的优势:实验消耗时间从原来的九天(潜在关系分析算法的实验时间)减少为现在的12小时。其次,针对LSR算法准确率不够高的不足以及基于语义资源的词语语义相关度算法准确率高的优点,设计了一种基于语义增强的词对关系相似度算法,即SSR算法,实验结果表明SSR算法在实验准确率方面有了较大的改善,从LSR算法的45.7%提高到SSR算法的52.8%。