数据挖掘中增量聚类算法的研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:TeaTempTea
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术领域中一项重要的数据分析技术——聚类分析技术在许多重要方面都得到了广泛的应用,近年来得到了广泛的研究,并取得了较快的发展。其实,聚类问题实质上是把待处理的原始样本数据对象通过某种相似性准则函数被分为若干类,想要达到的结果就是同一组相似性尽可能高,不同组之间差异性尽可能大,然后在这些不同组之间寻找联系,进行进一步的操作。目前研究的聚类分析大致可以分为:划分聚类(Partitioning clustering)、层次聚类(Hierarchical clustering)、网格聚类(Grid-based clustering)、密度聚类(Density clustering)、模糊聚类(Fuzzy Clustering Algorithm)、模型聚类(Model clustering)等。聚类K-means方法是一种基于分割的聚类算法,由于其易于实现,易于操作,简单高效,被广大研究学者广泛用于研究。但也有一些缺陷,K-means方法在选取初始中心进行聚类时采取的是随机选取的形式,这就使得聚类结果将遵循初始中心选择变化,因此,本文在K-means方法的基础之上,针对K-means方法存在的不足之处进行了钻研与应用,主要的钻研有以下几个方面:1.对于传统的K-means方法进行了探讨,针对传统K-means聚类算法初始聚类中心随机选取的缺陷进行改进,本文根据KD-树这种高效的数据结构对K-means方法进行改进提出了优化中心选取的新方法。该方法引入KD-树这种数据结构,将数据集建立KD-树,通过对KD-树中矩形单元的分割、计算、排序等操作,选取出能够表示样本数据分布形态的k个非噪声点的初始聚类中心;根据上述提出的算法,结合优化选取的k个代表样本数据空间分布形态的初始聚类中心和增量数据建立新的KD-树,通过近邻搜索将增量数据划分到对应的类中,完成增量数据的动态聚类过程。2.传统协同过滤算法应用的样本数据空间都会转化为用户-项目评分矩阵,但是矩阵中会出现“0”值或是空值,使得转化后的评分矩阵数据稀疏,本文中提出的算法机制是结合了聚类分析的技术和协同过滤的技术同时产生商品推荐。其中主要是在聚类分析算法中选择了K-means方法进行了研究与使用,K-means方法存在一个最典型的缺陷就是聚类初始阶段随机选取中心点,本文的新方法先是利用Kruskal最小生成树算法改进K-means的不足,提出了一种Kruskal改进的K-means聚类方法—KrusK-means算法。接下来在协同过滤推荐机制中同时利用KrusK-means算法对项目数据矩阵和用户数据矩阵进行聚类;最后,在推荐机制中采用两次预测产生推荐,初始预测时是基于项目的聚类结果,最终预测时是基于用户的聚类结果,将这两个预测结果结合起来产生推荐集推荐给用户,完成推荐过程。
其他文献
目的:研究关节镜下双膝关节前交叉韧带(ACL)断裂继发膝关节软骨损伤的特点。方法:2010年1月至2014年12月共有24例双膝关节ACL先后断裂的患者行关节镜下双膝ACL同期重建,根据
在小学数学教材中,分数应用题是重要的组成部分。要做好分数应用题教学,需要教师重点指导分数乘、除法意义的认识,培养学生解题策略,学会对结果合理性验证,激发学生积极主动
地下岩溶发育改变了岩体的结构和强度,对工程场地地基稳定性构成了潜在威胁。文中以某岩溶工程场地为研究对象,在应用物探、钻探等联合勘察手段查明场地内溶洞分布范围、发育
目的提高住院患者跌倒预防的实效。方法建立住院患者跌倒评估表、预防措施表、宣教单、警示标识和使用流程,共同组成住院患者跌倒普防方案予以临床运用;在普防的基础上结合专
【正】在网络这一人际交流空间里,形成了独特的网络流行语。它是"伴随现实社会新闻事件的发生,与网络几近同步产生、迅速流行于网络内外、短时间内生命力极其强大但并不长久
针对现有波浪浮标监测系统体积大、重量大,布放和维护费用高等不足,提出一种微型实时波浪浮标监测系统。该系统主要由直径0.25 m的微型浮标体、波浪传感器、供电系统、通讯系统及锚泊系统组成,具有波高、波向等多参数实时测量、传输功能,并且体积小、重量轻,便于快速运输、布放与回收,还可用于抛弃式测量及特殊隐蔽性测量中。文中对其关键技术进行了研究,海上实验结果表明,系统波高测量范围0.1~10 m,准确度优
期刊
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的比较2011和2016年中国西部被调查地区12~35月龄儿童乙肝疫苗全程及时接种率及其不公平程度,为促进西部地区儿童乙肝疫苗接种的及时性提供参考。方法采用多阶段按容量比例
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield