基于聚类特性的大规模文本聚类算法研究

来源 :计算机科学 | 被引量 : 0次 | 上传用户:leimu438
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
<正> 一、引言随着Internet的飞速发展,人们能从网上得到更多的信息,但过多的信息常常会导致信息迷失。将信息进行分类是帮助信息利用的有效方法,聚类则是文本类别划分时常用的技术,其特点是不需训练集即可从给定的文本集合中找到聚类划分。已有的聚类方法大多是针对小规模数据的,当计算资源和时间受到限制时,原有的大部分方法已不能满足要求,需要能够处理大规模数据的算法。标准k均值方法是比较基本也是很常用的一种聚类方法,其计算复杂度与模式数量成线性关系,这使其具有处理大规模数据的可能。k均值方法本质上是一种选代的方法,当数据不能一次全部读入内存时,则需和磁盘进行多次数据交换,并且这种交换相应于迭代次数要反复多次,这无疑需要花费大量的I/O时间。
其他文献
微课已逐步走进小学信息技术的课堂教学之中,然而,微课经常出现气氛沉闷,缺乏互动等问题。本文主要从"思"、"趣"、"活"、"来"四个维度,提出"巧借问题,引发思考";"妙用方法,激
目的研究阻塞性睡眠呼吸暂停综合征患者的肺功能异常。方法对比性分析健康人群、不同程度的OSAHS患者各方面数据。结果阻塞性睡眠呼吸暂停综合征(OSAHS)患者与普通打鼾者相比
以壳聚糖和海藻酸钠为壁材,古龙香精为芯材,在高速乳化条件下,通过复凝聚方法制备了纳米香精胶囊。研究了预交联剂种类、交联剂种类以及交联固化温度对香精胶囊的形状、尺寸
根据咸阳地区地震活动趋势和中心城区发展建设需要,利用相关指标,确定城区疏散场所空间位置和等级;通过建立疏散场所评价指标体系,采用层次分析方法,并以覆盖半径为依据,对城
SQLServe数据库如今已经被广泛应用与各个领域,本文以SQLserver数据库为例,针对数据库应用,讨论了数据库的几种使用上的安全问题,如:审计功能、访问控制、身份验证、数据库加
回顾总结14例冠状动脉介入治疗发生血管迷走反应患者的护理,认为积极补液、紧急阿托品、多巴胺治疗是处理血管迷走反射的有效手段[1];术中、术后、拔鞘管时、拔鞘管后严密监
王某(男)与徐某(女)于1983年2月登记结婚,1995年4月购买房产一处,所有权登记在王某名下。2007年3月登记离婚书面约定,王某名下房产归女方徐某所有,之后涉案房屋由徐某及婚生女居住,但
报纸
情趣教学作为一种以情感为基础、以兴趣为手段、以快乐为宗旨、以高效为目标的新型教学模式,能够有效缓解当前信息技术教学中存在的主要问题,是一种非常适合信息技术教学发展
新的赔偿法虽然对国家赔偿的归责原则和刑事赔偿的归责原则作了较大幅度的修改,原来与《刑法》、《刑事诉讼法》相脱节而造成的问题也作了明确的规定,使法律本身以及与相关法
公务员报考热现象在山西持续多年,其成因既涉及到宏观社会环境的因素,也有微观个体选择的影响。为了深入探析山西公务员报考热现象的根源,本文选取部分山西考生为研究对象,综