一种结合语义和TF-IDF模型的文本相似度量方法

来源 :2010年中国计算机大会 | 被引量 : 0次 | 上传用户:kkk00011123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类大多采用TF-IDF方法把文本建模为词频向量,利用余弦等相似度量方法计算文本之间的相似度,以此进行文本聚类.这些方法忽略了文本中词的语义信息,改进的基于语义的文本聚类方法则缺少文本之间相似度的定义,无法反映两篇文本之间的相似程度,聚类效果局限于某些特定领域.本文在TF-IDF模型基础上分析文本中重要词汇的语义信息,提出了一种新的文本相似度量方法.该方法首先应用自然语言处理技术对文本进行预处理,然后利用TF-IDF方法寻找文本中具有较高IF-IDF值的重要词项. 借助外部词典分析词项之间的语义相似度,结合文中提出的词项相似度加权树计算两篇文本之间的相似度,最后利用文本相似度进行聚类.实验时比了TF-IDF方法以及另一种基于语义相似性的文本相似度,实验结果表明该方法在基于F-度量值标准上能够提升文本聚类的查准率和查全率.
其他文献
关系数据库关键字查询由于其简便易用性,已经成为当今应用非常广泛的一项技术.而目前已有的技术还存在着时间复杂度高,查询准确率低等问题.针对这些系统存在的问题,本文提出了一
提出自认知描述逻辑ALCO@K的一种类命题动态逻辑扩展D-ALCO@K,实现Web开放环境下支持局部闭世界假设的动态推理。它基于自认知逻辑,具有良好的理论基础;同时与语义Web领域基于
会议
牵手宁夏内陆开放型经济试验区,对于“如意”,是谋势而动的“如意算盘”,对于宁夏,也是进一步推动内陆开放型经济试验区建设的战略需要它,拥有11个国内高端制造工业园、12个
在我们中国人眼里,土地早已经超出了它的物质形态意义,而成为中国人意识的一部分,文化的一部分,中国情结是什么,“土地”早已经渗入中国人的基因“没有谁强大到不可挑战,没有
吾辈身居斗室然心忧天下,亦当肩负使命,心存大爱!21世纪的中国光明在前,路在脚下!于我只有目标,没有困难!誓死捍卫正义、良知的尊严与价值!物格而后知至,知至而后意诚,意诚而
在数据集成中,如何准确高效的解决数据冲突是关系集成数据质量的关键问题,这个问题也成为数据集成领域中最新的研究热点之一.现有的数据冲突解决方法由于考虑的影响因素比较单
会议
《上瘾五百年》作者:[美]戴维·考特莱特译者:薛绚出版社:中信出版社出版时间:2014年每天早上,到了办公室,我会很自然地喝一杯咖啡.而在家呢!就沏上一杯龙井.一些男同事(也包
向威胁祖国权益者开火    李肇星幽默风趣,但并不代表他不严肃。当祖国和人民的权益受到威胁时,他变得义正言辞,仿佛一个燃烧着的火球,向外国的敌对势力开火。然而,铁汊也有柔情的一面,当他表达对他人、对人民的爱时,同样像一个燃烧的火球,温暖着他人的心。  在2009年的两会上,在回答中新社记者关于“圆明园兔首鼠首铜像拍卖”提问时,李肇星引用中国古话“君子爱财,取之有道”,而法国把抢夺来的文物拍卖,不能
多年来,沙湖以游客为根本,秉承“低碳、环保、生态”的可持续发展战略,以“七字要诀”作为景区内部建设及文化创新方向,极大的丰富了游客的旅游体验,收获了游客的好口碑处偏
在分析了多核集群性能和应用需求关系的基础上,提出了一个基于性能预测,计算连接权重的并行调度算法“信息素动态加权法”,该算法通过对任务按其对资源请求不同进行分类,在处理任
会议