论文部分内容阅读
本文对基于《知网》的文本相似度进行了论述,针对本文的研究对象《知网》,对其概念、特殊文档以及结构进行了重点的分析和研究。首先,介绍了《知网》的概念,指出了其中的特有的重要文档whole和glossary,并且分析了《知网》的特有概念——“义原”,这也是本文进行深入研究的重点以及基础;其次,分析了进行文本相似度计算的过程,本文计算相似度的基本思想是从小范围内的具体的相似度逐步扩展到大的范围的相似度的计算;再次,针对各个级别已经存在的进行相似度计算的方法分析了其不足,并且在前人的基础上进行了改进;最后,根据各个层次的有针对性的实验结果,对基于《知网》的相似度计算方法的性能进行了分析,证明了本文方法的有效性。具体来说,本文在文本相似度研究的过程中,所做出的主要工作以及取得的成果如下所示:(一)深入研究了本文的研究对象《知网》的结构,指出其重要概念“义原”是以森林的结构形式存在的,尤其对“义原”的作用进行了重点分析,为下一步的词语相似度计算打下基础。(二)在义原相似度计算层面本文考虑进了义原树的深度的因素,同时在词语相似度计算层面在前人的基础上加入了主要义原对次要义原的抑制作用的因素,并且在此基础上进行了句子相似度的计算的研究,并且分析了其相对于以往的相似度计算的方法的合理性。这部分的实现主要是依靠《知网》的词语库进行分词,然后依照词性进行分类,按照句子与句子之间相同词性进行相似度计算,最后进行整合。此部分的实验相对于前人的使用较为广泛的的方法在召回率和准确率都有了大幅度的提高,借此证明了本文方法其有效性。(三)在段落或者是文本方面,是根据标点符号进行分句,在本文小范围的相似度计算的基础上进行大范围的句子相似度整体的计算,再次体现了本文的基本思想。最后部分是以本文的方法同已有的方法进行实验方面的对比,对于经典的算法和今年来的具有代表性的算法在召回率和准确率都有了1%-20%的提高。