论文部分内容阅读
针对专利文献专业术语相对较多、形式规范、语言严谨的特点,本文提出了一种基于伪LCS的句子相似度计算方法。该方法通过对传统的最长公共子串(LCS)算法进行改进,并加入了词汇语义信息、词类和术语相相似度等相关信息,使其具有模糊对齐的能力,更适合专利文献中句子相似度的计算.实验结果表明该方法在专利句子相似度计算方面取得了较好效果。