语义分析与词频统计相结合的中文文本相似度量方法研究

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:elelyn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于统计的文本相似度量方法大多先采用TF-IDF方法将文本表示为词频向量,然后利用余弦计算文本之间的相似度。此类方法由于忽略文本中词项的语义信息,不能很好地反映文本之间的相似度。基于语义的方法虽然能够较好地弥补这一缺陷,但需要知识库来构建词语之间的语义关系。研究了以上两类文本相似度计算方法的优缺点,提出了一种新颖的文本相似度量方法,该方法首先对文本进行预处理,然后挑选TF-IDF值较高的词项作为特征项,再借助HowNet语义词典和TF-IDF方法对特征项进行语义分析和词频统计相结合的文本相似度计算,最后利用文本相似度在基准文本数据集合上进行聚类实验。实验结果表明,采用提出的方法得到的F-度量值明显优于只采用TF-IDF方法或词语语义的方法,从而证明了提出的文本相似度计算方法的有效性。
其他文献
21世纪初,Rochet和Tirole两位学者成为了研究双边市场这一领域的拓荒者,该理论在后续学者的研究下,已经成为了当前产业组织领域的热门研究范畴之一。定价问题如同其在传统的
同心拧成一股绳,改天换地铁骨铮。深入扎实开展党的群众路线教育实践活动,全省党员干部要紧紧抓住“忠实务实实干兴省、同心同苦同步小康”总载体,立赶超之志,鼓奋进之气,创
报纸
为了分析云南元谋干热河谷典型冲沟插值误差的空间分布特征,采用反距离加权(inversedistance weighting,IDW)、局部多项式(local polynomial interpolation,LPI)、张力样条(s
我国城乡居民收入差距问题已成为政府和百姓关注的焦点问题,本文将从城乡居民收入差距现状,成因和对策等方面对此问题加以阐述。
HSP70家族是成员最多、最为重要的HSPs。HSP70作为蛋白成熟过程中的分子伴侣 ,参与细胞周期调节、DNA损伤修复及细胞凋亡 ,在配子及胚胎的发育、机体衰老的过程中具有重要生
运用文献资料法、数理统计法及逻辑分析法,对高校大学生体质逐年下降、体质弱势群体不断增多的体育教育现状进行分析,为以后尽早构建和完善大学生体质弱势群体的"特殊体育教
我们将从经济的发展是否代表着文化的复兴,几千年绵延不断的中国文化是否可承载中国的现代化等问题为切入点来探讨中国文化复兴的问题,并论证二十一世纪多极增长的世界格局里
百年中国政治的黑暗和无序决定了新中国民族国家整合的合法性。新的民族国家整合包括社会整合、政权整合、经济整合、文化整合以及国际关系整合。新的民族国家整合取得了巨大
针对北斗等新一代导航卫星系统的建设和应用需求,本文设计并开发了多频多模GNSS观测数据实时仿真软件平台,实时仿真GPS、GLONASS、Galileo、BDS等多个导航星座和多种类型载体
随着我国居民生活水平不断提高,消费者的购买能力日益提升,消费者的日常购买行为越来越多地表现出非计划性和非理智,冲动性购买的现象更加频繁。自冲动性购买提出以来,有关冲