一种用于文本聚类的改进的K均值算法

来源 :计算机应用 | 被引量 : 18次 | 上传用户:loveherway110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K均值算法是聚类分析中使用最为广泛的算法之一。针对文本聚类所面临的维数灾难,稀疏向量以及标准K均值算法初始中心点选择的随机性等问题,提出了一种面向文本聚类的改进的K均值算法,通过运用特征选择及降维、稀疏向量筛除、基于密度及散布的初始中心点搜索等方法进行改进。实验结果表明,改进后的算法无论在聚类精度还是在稳定性等方面,都明显优于标准的K均值算法。
其他文献
产品特点:1.匹配名优6缸发动机,动力强筋。2.进口独立操纵双作用离合器,扭矩储备系数大,传递能力强。
研究了2-羟基萘-1-亚甲基若丹宁(HNR)与铅的显色反应。在pH4.5的盐酸-六次甲基四胺缓冲介质中,吐温-80存在下,HNR与铅反应生成组成比为2:1的稳定络合物,该络合物可被Waters Sep-PakC
农机流通环境的巨变,尤其是农机化的加速发展、农机工业结构的调整、农机消费主体(农机合作组织和大户)以及消费模式的改变,将深刻影响农机流通行业的发展,引发农机流通行业深
2月6日,农业部办公厅下发紧急通知,要求各地加快农机购置补贴实施进度,将水泵、喷灌机械设备等抗旱急需机具纳入农机购置补贴范围,加大节水灌溉机具设备的补贴力度,优先满足抗旱保
本刊讯8月11日,潍坊市坊子区的240名余名农机手走进了福田雷沃重工"阳光工程农机培训"的课堂。
为了探索水泥窑共处置危险废物过程中重金属流向分布规律,研究了不同温度条件下Cr、As、Pb在煅烧熟料、颗粒物和尾气中的残留率。在900、1 000、1 100、1 200、1 300和1 450
分析了噪音污染的类型及对人体的危害,并从室外和室内声环境等多方面提出了降低噪音对居民影响的措施,以改善居住区的声环境,提高环境质量。
官人疑策爱也,秘之。误:喜欢正:吝啬译文:过路的官人怀疑陈策舍不得骡子,便把它藏了起来。2.有功故出反囚,罪当诛,请按之。误:按照正:审理译文:徐有功特意开脱谋反的人,论罪应当处死,请审
随着2011年的临近,拖拉机市场当下如何以及今后的走势,成了大家关心的事。从农业部发布的消息来看,截至2010年10月31日,中央财政155亿元农机购置补贴资金全部实施到位,共补贴
在传统的指纹识别系统中,一般使用指纹细化图对指纹信息进行描述。尝试使用主曲线代替指纹细化图,并对主曲线的主图形算法进行了较大改进,使其能够得到更好的指纹骨架。实验结果表明,主曲线骨架比细化图有着光滑性强、准确性高、抗噪音和信息量大的优点;而改进的主图形算法在指纹骨架提取的效率和效果上比原算法也都有一定提高。