基于马尔科夫模型的文本相似度研究

被引量 : 0次 | 上传用户:YWNDZDYWNDZD
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息处理中,文本相似度的计算广泛应用于信息检索、分类、聚类以及其他与知识管理相关的领域,是一个非常基础而重要的问题,长期以来一直是人们研究的热点。目前的文本相似度研究多利用统计学原理来进行研究,投入了较多的精力去关注词频,而忽视了一个同样重要的因素——词序(词语在文本中出现的次序)。为了更好的将词序应用到文本相似度计算领域,本文利用马尔科夫模型的状态转移矩阵、两两文本的最长公共子序列以及它们的所有公共子串信息来记录和使用词序,同时考虑到词频在文本相似度计算中的重要性,采用了传统的向量空间模型中的TF-IDF方法来对词频信息加以利用。本文首先使用一种高效的算法来对文本做预处理,然后快速的生成TF-IDF方法所需要的TF项和IDF项(使用边建树边搜索树的方法可以提高其效率)。再根据源文本集合生成马尔科夫模型的状态转移矩阵(本文把单个词语作为马尔科夫模型中的一个状态来看待)。随后在文本相似度计算中,使用一种将最长公共子序列、马尔科夫状态转移矩阵和TF-IDF相结合的算法得到初步结果。然后再根据这个初步结果与阈值相比较来决定是否利用两个文本的公共子串信息。在初步结果大于阈值的情况下,使用一种基于序差的算法来求取两个文本的所有公共子串,再利用所有公共子串的长度以及个数来对初步结果进行相应调整,这样有效的提高了计算结果对数据集的分离度。最后使用人工标注的详细的分类信息来作为判断标准来对实验结果进行评估(试验结果的评估算法采用目前较为常用的KNN方法)。本文使用英文TREC-9的部分数据集对基于马尔科夫模型的文本相似度计算方法进行了测试,试验结果表明:在同等分词及评估条件下,基于马尔科夫模型的文本相似度计算结果要比单纯采用传统的基于向量空间模型的TF-IDF方法提高5%—15%。
其他文献
中药浸膏粉体通常吸湿性强,对中药制剂的成型影响较大,是长期困扰中药药剂生产的难题。本文通过文献研究,结合研究工作实践,分析中药浸膏粉体吸湿的过程与吸湿机制,以及相关
存货,是用以满足企业正常的生产和销售的需要而自己持有的流动性的资产,对企业的连续性、稳定性生产有着重要作用。在企业的全部资本中,存货占有相当大的比重。存货管理的优
介绍了高校无纸化办公的原则和构成,通过分析办公自动化系统的功能论述了高校无纸化办公的运作方式,并结合相关理论提出了高校无纸化办公的评价方法,为后文提出促进高校无纸
造纸服务业是专门为造纸工业提供设备、维修、技术支持和服务的传统产业,对造纸工业的发展起着举足轻重的作用。“十五”期间,中国的造纸工业经过国家政策的宏观调控,得以迅速发
改革开放以来,我国国民经济的发展取得了巨大的成就。到2006年,我国人均国民生产总值已达2000美元,尽管仍处在低收入国家行列,但已经超过了国际最低人均标准。与此同时,我国的药品
随着时代的发展,数字图像数据的采集和处理在科学研究、工农业生产、医疗卫生和公共安全等领域得到了越来越广泛的应用,而这些工作都需要一套高速的数字图像采集系统来完成。
随着经济社会的高速发展,人类对自然资源的索取越来越多,而地球的资源是有限的,经过无止境的开采利用已趋于枯竭。同时,在不断的生产和消费过程中,产生了大量的废弃物和返品,
二十一世纪,在全球经济一体化浪潮冲击下,中国房地产业的发展将进入一个前所未有、充满巨变的时代。目前,我国城市建设步伐加快,高档住宅商品房已成为持续的消费热点,越来越多的开
企业会计核算已经成为事关企业发展正常运营,实现企业健康成长的重要因素。财务管理工作保质保量的完成,在很大程度上需要企业会计核算的支撑。因此,企业会计核算在企业发展
水利是国民经济的基础产业,对水利工程的投入及其效益情况应该进行深入的探讨;本文通过对目前水利工程资金来源渠道情况的分析,提出了一些扩大水利工程资金来源的渠道,以积极开展