向量空间模型与语义理解相结合的论文相似度算法研究

被引量 : 0次 | 上传用户:i369731392
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前在各大高校,学生毕业必须撰写专业论文,在信息化时代,学生通过资源共享,查询资料十分便捷。但是网络带来方便的同时,也造成了不良影响,部分学生投机取巧,剽窃他人研究成果,因此论文抄袭一直困扰着整个学术界。所以论文相似度检测十分必要,并且相似度检测在专利保护、智能检索、文本分类等领域中应用也十分广泛。目前应用最广泛的论文相似度检测算法是基于向量空间模型(VSM:VectorSpace Model)的相似度算法和基于《知网》的相似度算法,然而前者没有考虑汉语词语间的语义关联;后者的大多数研究还停留在词语相似度阶段,并且没有考虑词语对论文表达的重要程度。因此研究论文相似度检测算法是有意义的。为提高相似度计算效率,本文提出了一种改进算法,并对其进行了实验验证,本文主要工作如下:1)研究相似度计算相关理论,了解国内外相似度算法发展现状及研究成果;2)研究常用论文相似度算法,重点研究基于VSM的相似度算法和基于《知网》的相似度算法,分析其优缺点,对不足之处加以改进。提出TF-IDF算法计算权重时融入特征项位置因素,弥补词频统计过于片面的问题;《知网》义原相似度计算时融入语义密度因子、语义深度因子,弥补其只考虑义原相对位置的缺陷;3)结合VSM和《知网》词语相似度算法的优点,提出VSM与《知网》语义理解相结合的相似度计算模型:把相同和相似的词语作为空间坐标的同一维度,计算相似度时融入词语语义相似度。既弥补VSM在语义层面的不足,又弥补了《知网》词语相似度算法忽略词语重要程度的缺陷。4)论文相似度算法把论文分成三层:词语、句子、段落。然后层层融合,把词语相似度融合到句子相似度,再把句子相似度融合到段落相似度,最后把段落相似度融合到论文相似度计算中。本文把《知网》词语相似度计算扩展到了论文相似度计算中。5)设计论文相似度检测系统,并进行实验对比。
其他文献
目的 运用维生素B12混合溶液治疗放射性湿性皮炎,观察其临床治疗效果。方法41例接受放射治疗,出现放射性湿性皮肤损伤的恶性肿瘤;23例放射性湿性皮炎运用维生素B12混合溶液处
20世纪80年代末治理理论逐渐兴起,该理论适应了全球民主化的进程,凭借其突破传统性的思维,迅速渗透到社会的各个领域,以其强大的生命力改革着各种组织,其中包括社区基层组织
目的探讨持续质量改进在PICC培训及安全管理中的效果。方法在PICC应用过程中,运用持续质量改进方法进行管理,包括加强PICC知识与维护技能的培训、制定PICC管理流程、规范PICC
在民事诉讼法再修改和家庭暴力防治法制定过程中,借鉴域外近四十年保护令的立法和实践经验,结合我国2009年以来最高人民法院推行的人身安全保护裁定试点的成功尝试,将民事保
社会的不断发展和时代的不断进步,国家的社会治安形势不断复杂,社会治安面临问题的新状况日益突显,致当今社会治安防控遇到了十分严峻考验。同时,社会治安问题也影响着社会的
目的了解近10年来我国胃癌患者生活质量的研究现状。方法检索并分析Sinomed中国生物医学文献数据库近10年有关胃癌患者生活质量的相关文献。结果共检索出近10年的133篇相关文
本试验以西北农林科技大学眉县猕猴桃试验站的‘脐红’猕猴桃为试验材料,采用田间生物学调查和实验室分析测定相结合的方法,对‘脐红’猕猴桃的物候期、植物学特性、生长结果
由于木材资源的短缺,草类原料成为制浆造纸的重要纤维原料。众所周知,草类原料的硅含量较高,给制浆造纸碱回收工序带来了一系列严重的问题。针对麦草浆碱回收绿液硅含量高的
随着我国现代化水平的提高,机械制造业已经和各行各业联系起来,运用先进的CAD/CAM一体化技术、互换性、CAPP等工具已经实现了高效率生产的目标。