XML文档聚类中基于语义的特征词权重计算方法

来源 :长沙理工大学学报:自然科学版 | 被引量 : 0次 | 上传用户:gxhwx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在XML文档检索中,结果聚类是一种改善检索效果的有效方法,其文档距离度量是影响聚类质量的关键因素。针对XML文档检索结果聚类中TF×IDF方法的频率因子和长度因子处理上的不合理和不能突显重要词条的缺点,提出了一种基于“频率因子”和“长度因子”的新权重方案。并在建立向量空间模型时引入LSI理论,在词条之间搭建了语义关系,减少了原词-文档矩阵中包含的噪声,聚类速度和精度都有所提高。在IEEE无类别信息数据集上试验表明,与同类相似度计算方法和聚类方法相比,本研究方法在聚类速度和效果上都有所提高和改善。
其他文献
摘 要:剪纸动画在汲取中国民间优秀文化的基础上传承和发展起来的具有中国特色的电影形式。在其产生和发展的过程中,散发着中国民族独特的艺术魅力。  关键词:剪纸艺术;动画;民间艺术  第一章 中国剪纸动画的概述  第一节 什么是剪纸动画  剪纸动画是在中国传统民间剪纸艺术、皮影艺术、戏曲艺术、国画等优秀文化的造型基础上传承并发展起来的具有中国特色的一种美术电影形式。动画中人物造型多是采用剪纸的造型方法