论文部分内容阅读
在自然语言处理中,相似度的问题是一个被广泛研究和讨论的具有重要价值的研究内容。中文相似度的研究是通过将语言学、统计学、社会学和计算机科学相结合,来达到计算各种结构类型的中文文本相似度。由于在中文没有自然的分割符,所以中文相似度研究的前提是中文自动切词。经过多年的研究探索,已有效果很好的中文切词系统,如本文使用的ICTCLAS系统。目前的各类相似度研究方法大致上有:基于统计模型的算法、基于规则的算法和基于知识网络系统的算法这三类。各类算法优缺点不一,然而由于前两类没有直接的考虑相似度中关键的语义相似这一因素而不如后一类效果良好,因此本文也采用基于知识网络系统的相似度算法来对词语和语句的相似度进行研究。本文在研究总结前人的工作基础上,作了如下工作内容:1、本文首先在对语义网络《知网》及义原相似度研究的基础上,针对目前基于《知网》的语义相似度算法的问题以及重新考虑了义原的属性后,提出了新的义原相似度的计算方法。在《知网》以及对目前的词语相似度算法的研究基础上提出了新的词语相似度算法。通过对词语的共现性的研究,认为词语间的共现性也是对词语相似度的一种反映,因此将词语的共现性引入词语相似度的计算中,对本文提出的词语相似度的计算公式做了修正。2、针对《知网》无法解决的未登录词相似度计算问题,本文通过切词系统及最大匹配算法将其转化为《知网》中的登录词,进而提出了基于《知网》的未登录词相似度算法。3、在词语相似度的研究基础上以及中文切词系统下,针对目前已有的语句相似度算法,提出了连续多个具有高相似度值的词语词序列对语句的相似度贡献大于其他词语的贡献,且这种连续性在语义上具有承接的作用这一观点,给出了语义串的概念以及其定义。在语义串概念的基础上,通过衡量语义串在语句相似度中的权值,给出了语句相似度计算公式。4、在词语和语句相似度的基础上,本文使用基于空间向量模型的篇章相似度计算算法设计并实现了全文检索系统。