一种基于改进相似度计算的文本聚类方法

来源 :河南大学学报(自然科学版) | 被引量 : 0次 | 上传用户:lawyerhw
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对文本在聚类或分类时,由于数据高维稀疏导致相似度值低的问题,提出一种基于改进文本相似度计算的聚类方法.首先,利用向量空间模型VSM表示文本,采用余弦函数计算文本之间的相似度;然后,基于网络中节点的相似性传播原理,通过设置阈值找到与各个文本相似度较大的文本集合,进而使用Jaccard系数将两个文本之间相似度计算转化为两个文本集合之间的相似度计算;最后根据得到的文本相似度矩阵,利用谱聚类算法对文本进行聚类.在WebKB上的实验结果表明,与传统的K-means、谱聚类方法相比,该方法提高了聚类的准确度,召回率与F值.
其他文献
籍贯:湖北黄梅rn民族:汉rn文化程度:大专rn行当:小生rn业师:王祖泉 董学勤rn业余爱好:还是唱戏rn星座:射手座rn常说的一句话:只要勤奋努力,门外汉也可以成为专业人才rn代表剧
期刊
在池栽条件下 ,用 32 P2 O5同位素示踪技术研究了高产小麦生育后期的群体根系活性及其垂直分布状况。结果表明 ,伴随着植株的衰老 ,高产小麦生育后期群体根系活性 (单位土体
意象是中国古代重要的美学范畴,从“象”的范畴发展而来。墨分五色,以玄色代替天下万物之色的表现方式,是中国画本身就含有意象性特色的物质基础。集诗、书、画、印于一体,并
京艳是我们1997年以京秀作母本、香妃作父本杂交育成的葡萄鲜食早熟红色新品种。果穗圆锥形,有副穗,平均穗重420.0 g;葡萄粒椭圆形,单粒重6.5~7.8 g,最大单粒重10.5 g;玫瑰红
智能化居住小区是集建筑、结构、楼字设备、环境、信息工程、自动控制、物业管理等综合技术的“汇总”。《住宅小区多媒体应用和物业管理研究》为上海市科委于1999年度下达的
昆阳磷矿是大型露天矿,矿体走向长,排土距离远,排土场容量小,尤其一采区为后期纵深开采、排土量大,又是重车上坡,排土成本较高。 1982、1983年试行采空区排土,仅二采区共排
一、前言海洋矿物被认为是地球上最后的资源,海洋矿物资源储存量大。例如仅就太平洋的锰结核而言,以世界每年的消耗量来计算,估计海洋矿物储存量可开采的年限约为Cu 670年、
综述了近年来国内外有关VA菌根在蔬菜上的生长发育 ,矿质营养吸收 (氮、磷及微量元素 ) ,抗逆性 (干旱、盐害、低温 )及抗病性 4个方面的研究现状 ,并展望了VA菌根在蔬菜上应
又一次重要的国情国力调查——R&D(科学研究与试验发展)资源清查工作已在全国开始启动。 这次R&D资源清查是继1985年全 Another important national strength survey - R &
目的探讨原发性十二指肠恶性肿瘤(PDMT)手术方式的选择及疗效。方法 2008年7月—2015年6月新疆维吾尔自治区人民医院胃肠外科诊断和手术治疗PDMT患者65例,对其临床资料进行回