论文部分内容阅读
目前在各大高校,学生毕业必须撰写专业论文,在信息化时代,学生通过资源共享,查询资料十分便捷。但是网络带来方便的同时,也造成了不良影响,部分学生投机取巧,剽窃他人研究成果,因此论文抄袭一直困扰着整个学术界。所以论文相似度检测十分必要,并且相似度检测在专利保护、智能检索、文本分类等领域中应用也十分广泛。目前应用最广泛的论文相似度检测算法是基于向量空间模型(VSM:VectorSpace Model)的相似度算法和基于《知网》的相似度算法,然而前者没有考虑汉语词语间的语义关联;后者的大多数研究还停留在词语相似度阶段,并且没有考虑词语对论文表达的重要程度。因此研究论文相似度检测算法是有意义的。为提高相似度计算效率,本文提出了一种改进算法,并对其进行了实验验证,本文主要工作如下:1)研究相似度计算相关理论,了解国内外相似度算法发展现状及研究成果;2)研究常用论文相似度算法,重点研究基于VSM的相似度算法和基于《知网》的相似度算法,分析其优缺点,对不足之处加以改进。提出TF-IDF算法计算权重时融入特征项位置因素,弥补词频统计过于片面的问题;《知网》义原相似度计算时融入语义密度因子、语义深度因子,弥补其只考虑义原相对位置的缺陷;3)结合VSM和《知网》词语相似度算法的优点,提出VSM与《知网》语义理解相结合的相似度计算模型:把相同和相似的词语作为空间坐标的同一维度,计算相似度时融入词语语义相似度。既弥补VSM在语义层面的不足,又弥补了《知网》词语相似度算法忽略词语重要程度的缺陷。4)论文相似度算法把论文分成三层:词语、句子、段落。然后层层融合,把词语相似度融合到句子相似度,再把句子相似度融合到段落相似度,最后把段落相似度融合到论文相似度计算中。本文把《知网》词语相似度计算扩展到了论文相似度计算中。5)设计论文相似度检测系统,并进行实验对比。