一种基于熵的文本相似性计算方法

来源 :计算机应用研究 | 被引量 : 26次 | 上传用户:qq104397622
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法,在对文本间字符信息的提取基础上,建立共同子文本串度量维度,然后采用熵的方法进行相似度度量。实验表明,该方法具有更平滑的相似度曲线,从而验证了算法的有效性和准确性。
其他文献
目的 :比较研究不同社区下呼吸道感染病原菌对环丙沙星耐药性的差异。方法 :1997~ 1999年一所城市医院与乡村卫生院下呼吸道感染患者分泌物分离细菌并作环丙沙星药物敏感试验
目的 :通过对糖尿病胃轻瘫病人的治疗 ,观察西沙必利治疗效果。方法 :通过用西沙必利对 96例糖尿病性胃轻瘫病人的治疗 ,对治疗前、治疗后 2周、 4周疗效的观察 ,以及血糖变
根据国家标准中规定的常见危险化学品在存储区的临界量,提出布局优化阶段的铁路危险货物办理站环境风险评估模型.在此基础上,根据铁路决策部门与危险货物运输客户之间的主从
采用电磁场有限元方法,模拟计算隧道中瞬变电磁法预报不良地质体的视电阻率,研究视电阻率等值线图中断层、溶洞等不良地质体的瞬变电磁响应特征。研究结果表明:在不良地质体周
以C80型货车为例建立车辆动力学模型,利用FASTSIM算法计算出接触斑内蠕滑力的大小和分布,依据Pearce,Zobory,Jendel和Braghin4种磨耗模型计算轴重、速度、曲线半径和车轮硬度对车
使用呼吸机病人突出的护理问题是语言交流障碍。在临床护理48例病人中得出一套有效交流模式,护士在病人使用呼吸机前训练病人应用肢体语言表达需求;使用呼吸机后指导病人应用肢
社会大物流系统是一个无标度网络,存在明显的集群现象。铁路货运系统作为另一个群体嵌入社会大物流系统,需要在优化网络结构的同时,考虑群体之间的连接和群体内部的连接。基于Ba
目的:灵活运用麻醉机达到吸入10%低浓度氧放射治疗的效果。方法:采用国产麻醉机使其笑气通路与氧气连接,氧气通路与纯氮气连接,开启并调节流量开关在Datex Capnomao呼吸监护仪监测下使病人吸气体
急性脑梗塞是一种常见病,其高致残率严重威胁人类健康,迄今为止,缩小梗死范围、改善神经系统功能的治疗措施仍未取得明显进展。近年来,脑缺血后白细胞浸润所致的炎性反应造成的脑