一种用于文本聚类的改进的K均值算法

来源 :计算机应用 | 被引量 : 18次 | 上传用户：loveherway110

【摘要】

：

K均值算法是聚类分析中使用最为广泛的算法之一。针对文本聚类所面临的维数灾难,稀疏向量以及标准K均值算法初始中心点选择的随机性等问题,提出了一种面向文本聚类的改进的K均值算法,通过运用特征选择及降维、稀疏向量筛除、基于密度及散布的初始中心点搜索等方法进行改进。实验结果表明,改进后的算法无论在聚类精度还是在稳定性等方面,都明显优于标准的K均值算法。

【作者】

：

任江涛孙婧昊施潇潇黄焕宇印鉴

【机构】

：

中山大学计算机科学系

【出处】

：

计算机应用

【发表日期】

：

2006年S1期

【关键词】

：

文本聚类特征选择初始化

【基金项目】

：

国家自然科学基金（60573097）,广东省自然科学基金（04300462,05200302）

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

雷沃欧豹TG1454型拖拉机

产品特点：1．匹配名优6缸发动机，动力强筋。2．进口独立操纵双作用离合器，扭矩储备系数大，传递能力强。

期刊

拖拉机产品特点发动机离合器

2-羟基萘-1-亚甲基若丹宁固相萃取光度法测定环境样品中铅

研究了2-羟基萘-1-亚甲基若丹宁（HNR）与铅的显色反应。在pH4．5的盐酸-六次甲基四胺缓冲介质中，吐温-80存在下，HNR与铅反应生成组成比为2：1的稳定络合物，该络合物可被Waters Sep-PakC

期刊

2-羟基萘-1-亚甲基若丹宁铅固相萃取光度法环境样品2-hydroxynaphthal-l-methylenerodanine lead solid p

农机流通将往何处去？

农机流通环境的巨变,尤其是农机化的加速发展、农机工业结构的调整、农机消费主体（农机合作组织和大户）以及消费模式的改变,将深刻影响农机流通行业的发展,引发农机流通行业深

期刊

农机流通行业农机合作组织经营规模品种多样化流通环境加速发展工业结构消费模式

抗旱机具纳入农机购置补贴

2月6日，农业部办公厅下发紧急通知，要求各地加快农机购置补贴实施进度，将水泵、喷灌机械设备等抗旱急需机具纳入农机购置补贴范围，加大节水灌溉机具设备的补贴力度，优先满足抗旱保

期刊

农机购置补贴机具抗旱农业部办公厅机械设备补贴范围节水灌溉销售价

雷沃重工“阳光工程”讲堂开讲

本刊讯8月11日,潍坊市坊子区的240名余名农机手走进了福田雷沃重工＂阳光工程农机培训＂的课堂。

期刊

“阳光工程”讲堂福田雷沃重工农机培训农机手坊子区潍坊市

水泥窑共处置废物过程中重金属的流向分布

为了探索水泥窑共处置危险废物过程中重金属流向分布规律,研究了不同温度条件下Cr、As、Pb在煅烧熟料、颗粒物和尾气中的残留率。在900、1 000、1 100、1 200、1 300和1 450

期刊

水泥窑共处置重金属温度带流向分布

健康住宅声环境探讨

分析了噪音污染的类型及对人体的危害,并从室外和室内声环境等多方面提出了降低噪音对居民影响的措施,以改善居住区的声环境,提高环境质量。

期刊

健康住宅声环境噪音声屏障health residence acoustical environment noise noise barrier

易错文言实词30例

官人疑策爱也，秘之。误：喜欢正：吝啬译文：过路的官人怀疑陈策舍不得骡子，便把它藏了起来。2.有功故出反囚，罪当诛，请按之。误：按照正：审理译文：徐有功特意开脱谋反的人，论罪应当处死，请审

期刊

译文有功审理

2011年：拖拉机量稳、价升是主调

随着2011年的临近,拖拉机市场当下如何以及今后的走势,成了大家关心的事。从农业部发布的消息来看,截至2010年10月31日,中央财政155亿元农机购置补贴资金全部实施到位，共补贴

期刊

拖拉机市场2010年主调补贴资金同比增长国家统计局大型拖拉机中型拖拉机

利用改进的主图形算法提取指纹骨架

在传统的指纹识别系统中,一般使用指纹细化图对指纹信息进行描述。尝试使用主曲线代替指纹细化图,并对主曲线的主图形算法进行了较大改进,使其能够得到更好的指纹骨架。实验结果表明,主曲线骨架比细化图有着光滑性强、准确性高、抗噪音和信息量大的优点;而改进的主图形算法在指纹骨架提取的效率和效果上比原算法也都有一定提高。

期刊

主曲线指纹细化骨架principal curve fingerprint thinning skeletonization

一种用于文本聚类的改进的K均值算法

与本文相关的学术论文