基于TF-IDF向量空间模型文本相似度算法的分析

来源 :池州学院学报 | 被引量 : 0次 | 上传用户:hawkwang2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似度算法可以计算不同字符串之间的相似程度,基于向量空间模型和基于词条空间是目前衡量文本相似度的主要方法。本文主要通过向量空间模型(VSM)文本相似度算法及TF-IDF词频统计方法,分析探讨基于TF-IDF的文本相似度算法的实现,通过实验结果验证了该算法的有效性。
其他文献
随着循环流化床锅炉的大型化,在实际运行调整中存在较多的问题,造成锅炉燃烧效率低,经济效益差.针对哈尔滨锅炉厂设计生产的220t/h循环流化床锅炉的一系列特性试验,分别从燃
消防救援队伍是按照准现役、准军事化管理的纪律队伍,在履行灭火救援等职务行为时,不仅面临着高危高压的现实危险,而且有时因当事人误解还要被迫应对被救助人的民事诉讼。经
综述了国内外变压器油中溶解气体含量在线监测技术,并进行了展望.
“绿色建筑”,就是资源有效利用的建筑,也可称作生态可持续性建筑,即在不损害基本生态环境的前提下,使建筑空间环境得以长时期满足人类健康地从事社会和经济活动的需要。绿色建筑
针对等值盐密测量不同取样地点及不同测试样品遇到的问题进行了分析,通过8年跟踪测量,找到了原有自建污秽取样点存在的弊端,将取样点设在运行中的支柱绝缘子上。
电力工程中,电流互感器的配置是否合理,参数选择是否合适,都影响到日后工程的实际运行。合理的为电力工程选择和配置电流互感器,避免出现保护误动和拒动,本文即以本人的一些经验和