向量空间模型与语义理解相结合的论文相似度算法研究

被引量 : 0次 | 上传用户：i369731392

【摘要】

：

目前在各大高校,学生毕业必须撰写专业论文,在信息化时代,学生通过资源共享,查询资料十分便捷。但是网络带来方便的同时,也造成了不良影响,部分学生投机取巧,剽窃他人研究成

【作者】

：

严春梅

【发表日期】

：

2015年期

【关键词】

：

相似度向量空间模型语义理解算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目前在各大高校,学生毕业必须撰写专业论文,在信息化时代,学生通过资源共享,查询资料十分便捷。但是网络带来方便的同时,也造成了不良影响,部分学生投机取巧,剽窃他人研究成果,因此论文抄袭一直困扰着整个学术界。所以论文相似度检测十分必要,并且相似度检测在专利保护、智能检索、文本分类等领域中应用也十分广泛。目前应用最广泛的论文相似度检测算法是基于向量空间模型(VSM：VectorSpace Model)的相似度算法和基于《知网》的相似度算法,然而前者没有考虑汉语词语间的语义关联；后者的大多数研究还停留在词语相似度阶段,并且没有考虑词语对论文表达的重要程度。因此研究论文相似度检测算法是有意义的。为提高相似度计算效率,本文提出了一种改进算法,并对其进行了实验验证,本文主要工作如下：1)研究相似度计算相关理论,了解国内外相似度算法发展现状及研究成果；2)研究常用论文相似度算法,重点研究基于VSM的相似度算法和基于《知网》的相似度算法,分析其优缺点,对不足之处加以改进。提出TF-IDF算法计算权重时融入特征项位置因素,弥补词频统计过于片面的问题；《知网》义原相似度计算时融入语义密度因子、语义深度因子,弥补其只考虑义原相对位置的缺陷；3)结合VSM和《知网》词语相似度算法的优点,提出VSM与《知网》语义理解相结合的相似度计算模型：把相同和相似的词语作为空间坐标的同一维度,计算相似度时融入词语语义相似度。既弥补VSM在语义层面的不足,又弥补了《知网》词语相似度算法忽略词语重要程度的缺陷。4)论文相似度算法把论文分成三层：词语、句子、段落。然后层层融合,把词语相似度融合到句子相似度,再把句子相似度融合到段落相似度,最后把段落相似度融合到论文相似度计算中。本文把《知网》词语相似度计算扩展到了论文相似度计算中。5)设计论文相似度检测系统,并进行实验对比。

其他文献

维生素B12混合溶液治疗放射性湿性皮炎

目的运用维生素B12混合溶液治疗放射性湿性皮炎,观察其临床治疗效果。方法41例接受放射治疗,出现放射性湿性皮肤损伤的恶性肿瘤;23例放射性湿性皮炎运用维生素B12混合溶液处

期刊

放射性湿性皮炎维生素B12

城市社区治理中的政府角色研究

20世纪80年代末治理理论逐渐兴起,该理论适应了全球民主化的进程,凭借其突破传统性的思维,迅速渗透到社会的各个领域,以其强大的生命力改革着各种组织,其中包括社区基层组织

期刊

社区治理政府角色

持续质量改进在普外科PICC置管中的应用效果

目的探讨持续质量改进在PICC培训及安全管理中的效果。方法在PICC应用过程中,运用持续质量改进方法进行管理,包括加强PICC知识与维护技能的培训、制定PICC管理流程、规范PICC

期刊

持续质量改进PICC护理管理

民事保护令入法的必要性和可行性

在民事诉讼法再修改和家庭暴力防治法制定过程中,借鉴域外近四十年保护令的立法和实践经验,结合我国2009年以来最高人民法院推行的人身安全保护裁定试点的成功尝试,将民事保

期刊

家庭暴力民事保护令人身安全保护裁定民事诉讼特别程序

增城市社会治安防控体系优化研究

社会的不断发展和时代的不断进步,国家的社会治安形势不断复杂,社会治安面临问题的新状况日益突显,致当今社会治安防控遇到了十分严峻考验。同时,社会治安问题也影响着社会的

学位

社会治安群防群治社会治安防控体系

我国胃癌患者生活质量研究现状的文献分析

目的了解近10年来我国胃癌患者生活质量的研究现状。方法检索并分析Sinomed中国生物医学文献数据库近10年有关胃癌患者生活质量的相关文献。结果共检索出近10年的133篇相关文

期刊

胃癌生活质量文献研究中国

对男性护士护理教育的探讨

期刊

男护士护理教学

‘脐红’猕猴桃生物学特性调查与果实贮藏性研究

本试验以西北农林科技大学眉县猕猴桃试验站的‘脐红’猕猴桃为试验材料,采用田间生物学调查和实验室分析测定相结合的方法,对‘脐红’猕猴桃的物候期、植物学特性、生长结果

学位

‘脐红’猕猴桃生物学特性果实贮藏性

草浆碱回收绿液引晶法除硅工艺研究

由于木材资源的短缺,草类原料成为制浆造纸的重要纤维原料。众所周知,草类原料的硅含量较高,给制浆造纸碱回收工序带来了一系列严重的问题。针对麦草浆碱回收绿液硅含量高的

学位

麦草浆绿液引晶法除硅粒径分布沉降性能除硅率

浅析我国现代机械制造技术的发展趋势

随着我国现代化水平的提高,机械制造业已经和各行各业联系起来,运用先进的CAD/CAM一体化技术、互换性、CAPP等工具已经实现了高效率生产的目标。

期刊

中国现代机械制造发展趋势

向量空间模型与语义理解相结合的论文相似度算法研究

其他学术论文