基于《知网》义原空间的文本相似度计算研究与实现

被引量 : 0次 | 上传用户:jiaolang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似度计算是知识产权保护、文本分类、机器翻译、自然语言处理、复制检测、自动问答和信息检索等领域的核心技术。现有的文本相似度计算方法大致可以归纳为两类,第一类是基于文本特征统计的方法,第二类则是基于文本语义理解的方法。基于文本特征统计的方法在长文本等大粒度实体的相似度计算方面取得了较好的效果,其中最具代表性的就是向量空间模型(Vector Space Model,简称VSM)和广义向量空间模型(General Vector Space Model,简称GVSM)。GVSM在VSM的基础上利用文本特征项的共现信息,对VSM模型中特征项正交的假设进行了改进。基于语义理解的方法,通常以某种知识库作为依据实现词语之间或者句子之间相似度的计算。基于统计的方法简单高效,但是缺乏语义,无法处理自然语言中“一词多义”和“一义多词”的情况。而基于语义理解的方法往往计算比较复杂,不适合大规模的文本处理。本文借鉴了广义向量空间模型的思想,利用知识库《知网》中的义原,提出了一种基于《知网》义原空间的文本语义相似度计算方法(Sememe Vector SpaceModel,简称SVSM)。 SVSM把基于统计和语义理解的方法相互结合,将文本表示为义原空间中的向量,并通过计算文本义原向量之间的夹角实现文本相似度的计算。为了验证提出方法的有效性,本文通过文本聚类实验对比了SVSM与经典的VSM和GVSM模型。实验结果表明本文提出的算法在语义相似度计算方面相比VSM与GVSM有所提高。在义原文本相似度计算方法的基础上,本文基于J2EE平台设计并实现了一个文本查重系统。在该系统中将《知网》的义原、概念、词语、义原之间的相似度和词语的义原向量表示设计为数据库中的关系表。这样在进行文本相似度计算时可以直接查表取得相关信息,避免了重复计算,提高了文本相似度计算的效率。利用开源的软件工具包Lucence、ICTCLAS、hibernate Search等实现文本义原向量的构建和相似度的计算。通过将文本中实现的查重系统应用于实际的工程应用中,取得了良好的使用效果。
其他文献
德意志帝国统一初期,由普鲁士海军发展而来的帝国海军长期存在于陆军的影响之下,海军战略从属于陆军战略,主要担负着海岸防御的任务。进入19世纪90年代,蒂尔皮茨的"深海打击"
<正>近日读了刘守华先生《走进“寄死窑”》一文,因其与胶东半岛的某些传说故事及风俗有些相似,特叙述如下,不当之处,请各位先生指正。一、湖北的“斗鼠记”与胶东半岛的“六
目的:探讨腹腔镜技术在辽西地区治疗早期子宫内膜癌患者的优势和有效性。方法:回顾性分析64例子宫内膜癌患者的临床资料,随机分为腹腔镜手术组26例,开腹手术组38例,比较分析
目的:探索在儿童及妊娠、心肺功能异常人群中行悬吊式腹腔镜治疗巨大卵巢囊肿的可行性。方法:回顾性分析5年来实施的33例悬吊式腹腔镜治疗巨大卵巢囊肿患者的临床资料。结果:
随着新课程改革的逐步深入,越来越多的教师开始投入到情景创设法的研究当中来。本文主要针对如何在初中音乐课堂中践行情境创设法展开论述,希望能进一步提高初中音乐课堂的教
本文根据基金的资产配置情况选择合适的T-M模型,对2006年1月1日至2009年3月31日期间的41只样本开放式基金的择时与选股能力进行了实证研究。结果表明:样本开放式基金的超额收
东京审判期间,日本辩护律师提出了大量证据,为日本国家行为及战争责任人进行无罪辩护。这些所谓证据,有的是日本政府文件,有的是军政要人著述,有的是证人证言,有的是历史影像
<正>水仙花雕刻是一门艺术,进门容易提高难,在中国水仙的主要产地漳州,真正称得上雕刻师的屈指可数。这篇短文仅望能抛砖引玉,与广大水仙花雕刻艺术爱好者一起切磋技艺共同进
目前外贸企业转型面临着资金不足、品牌缺乏、营销渠道的建立、文化的差异等困难,是否转型,不能一概而论。外贸企业可通过提高产品附加值,逐步改变以贴牌加工为主的经营方式,
目的研究筛查对肝癌早期诊断的价值。方法将18816名肝癌高危对象随机分为筛查组与对照组。筛查组每6个月作一次AFP与实时超声检查。对照组不做主动检查。结果筛查组5年共检出肝癌86例,其中