一种中文文本聚类方法的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:sjzafei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪90年代以来,随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取和存储大量数据。数据大多以文本形式存在。如何从大规模的文本中快速获取所需要的信息昵?文本挖掘就是加工和处理这些文本,从而为人类提供更多的信息。作为文本挖掘的重要分支,文本聚类技术的研究有着重要的意义。本文主要是针对文本聚类中的经典算法k-means算法给出两点改进,使k-means算法能够适合大规模文本聚类。首先,本文针对k-means算法中初始点的选择问题进行深入的研究,同时指出:初始点的选择对k-means算法的影响较大。本文结合文本矩阵的特点,给出一种应用CURE算法来改进初始点选择的算法,通过去掉增长较慢的样本点和小类的方式,减少孤立点对聚类中心形成的影响。其次,对文本聚类中的特征选择也给出改进算法。改进后的算法将动态和局部PCA思想引入了k-means算法。在聚类开始时,保留更多的文本信息——特征词语。在迭代过程中,利用PCA算法选出能标明具体类的特征词语,从而动态地利用这些特征词语进行聚类,加速迭代的收敛。改进后的算法在一定程度上提高了k-means算法的精度。最后,本文通过实验对改进后的算法进行验证,并对实验结果进行分析,说明了算法的优点和不足。
其他文献
汉代许慎所著《说文》,以小篆及当时所能见到的古文字为研究对象,分析汉字的形体构造,说解造字时代的字义。作为自源性文字的汉字,其形体构造及表意方式,反映了造字时的社会
<正>若谈到俄罗斯艺术收藏,就不得不提及山美术馆、山艺术基金会的创办人林明哲。林明哲收藏俄罗斯艺术已超过15年。至今,山艺术基金会的董事们藏有的俄罗斯艺术品共约1500件
中小型企业是推动台湾经济起飞的推手,而台湾的企业也以中小型企业为主。随着大陆经济改革力度不断加深加大,各地区和国家纷纷来华投资。台资企业基于同属于中华民族之血脉,
在有机化学品储运过程中,泄漏等污染事故难免会发生,导致大量有毒有机污染物进入土壤造成污染事件,如何在事故现场及时快速降解污染物、消除毒害性是防止隐患进一步扩大的关
冷战结束以来,传统的以地缘政治和意识形态划分的国际战略格局发生了深刻的变化。随着全球公民社会的兴起及宗教在世界范围的复兴,宗教越来越成为影响国际关系的重要变量之一
高中物理教学是一种以追求物理教学合理性为目的,在教学过程中不断发现、思考、解决问题,对教学行为和教学活动进行有意识的、批判性的分析与再认识的过程。
预应力的施加使得钢筋混凝土构件裂缝推迟或根本不出现,这就是预应力混凝土构件的全新理念。这样,构件在设计和使用时,预应力的大小就成为人们关注的焦点。自预应力施加的那
甲烷化炉催化剂使用已达17a,床层压差不断上升,成为装置高负荷运行的瓶颈。分析甲烷化炉压差上升原因,并提出处理方法。
第十届全国美术作品展览艺术设计作品展于2004年8月19日至9月14日在上海 美术馆举办。四千余件作品参加了初评,最后确定了500件入选作品并评选出约一百件 获奖提名作品。展览
期刊
1975年8月,中共贵州省委作出《关于开展计划生育工作的决定》,标志着贵州全面开展计划生育工作的开始,30年来全省累计少生人口1500多万,为家庭和社会节省抚育费8000多亿元。