基于可变网格的聚类算法研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:l040685
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘中的聚类分析是一项重要的数据挖掘技术。随着我国经济的迅速发展带动了互联网、金融、电商等多个行业的快速发展,聚类分析在各个行业得到了非常广泛的研究与应用。根据规则把数据集划分成子集的过程就是聚类。由于k-means方法的原理理解简单,明白易懂,计算速度快等优点,它已经被国内外很多学者广泛地进行了研究。但是k-means方法也有很多不足的地方:需要先确定k的个数;如果选入噪声和离群点,会对它们非常的敏感;只能发现凸状球状的簇或者区别非常大的簇。针对k-means聚类的缺点进行改进,本文提出了可变网格优化的k-means聚类新方法。该方法通过对数据集进行可变网格划分,解决了初始中心点选取比较敏感的问题,同时能有效地发现非凸形状的簇,有效提高了聚类质量。并且对最大网格密度不唯一的情况进行了解决。要人为指定聚类簇的个数对k-means算法来说是很大的不足,在基于可变网格优化的k-means聚类新方法基础之上,结合有效性指标,得出最佳聚类数k;对于在聚类中无法有效地处理动态增量数据这一不足,提出了基于可变网格的动态增量k-means聚类,该方法有较好的伸缩性和较高的效率。针对传统协同过滤在为目标用户推荐项目时需要考虑所有用户历史反馈信息对项目相似度的影响,导致推荐质量低的问题,本文提出的算法把可变网格聚类的特点和协同过滤特点相结合对商品进行推荐,提出了一种基于可变网格聚类的协同过滤推荐算法,使得推荐系统的质量有了进一步的提高。
其他文献
随着移动通信技术的快速发展,手机媒体作为“第五媒体”受到越来越多企业和组织的重视,手机广告市场份额飞速增长,其形式也从最初的短信广告发展到现在的APP广告、二维码广告
团队建设是创新创业教育实践中的一项重要内容。高效能的团队有利于锻炼学生的能力。本文以高校创新创业教育为背景,分析了团队成员间具备良好协作关系的特征,并利用模糊相似
本文在中介语理论的指导下,采用问卷调查,针对突尼斯学生学习汉语的一般规律及特点,结合调查结果,对突尼斯学生学习汉语介词做了偏误分析研究。在偏误分析的基础上,总结出了
本试验通过体外培养法,研究在不同精粗比饲粮中添加维生素B12对体外瘤胃发酵和微生物酶活力的影响。试验采用3×3双因子试验设计,即3个底物精粗比(玉米∶羊草=35∶65、50∶50
普契尼是19世纪末与20世纪初意大利歌剧作曲家,他的歌剧作品既有真实主义歌剧的特点,又有超越于真实主义的浪漫色彩。普契尼创作的歌剧作品,大多以塑造各类性格鲜明的女性形
2004年,《南方人物周刊》创刊。创刊十年来,它在人物报道上形成了自己相对独特而稳定的风格。本文通过对《南方人物周刊》封面人物的分析,探讨这份以“记录我们的命运”为宗
2012年十八大召开后,提出“科技创新是提高社会生产力和综合国力的战略支撑,必须摆在国家发展全局的核心位置”。去年6月,时任国家主席习近平主席发表了重要讲话,习近平主席
目的:本课题通过观察李士懋名老中医用发汗法治疗寒凝证型膝骨关节炎的临床效果,探究李老“发汗法”的理论渊源及学术创新,为丰富和发展名老中医群体特色治则治法提供临床研
工业副产石膏是指工业生产中由化学反应生成的以硫酸钙(含零至两个结晶水)为主要成分的副产品,其大量堆存在占用土地、污染环境的同时,造成了其中钙硫资源的严重浪费。本论文
基于对外汉语专业学生小语种学习的意向,通过对该专业的学生发放问卷,对学生小语种学习现状、对开设小语种课程的态度、学习目的的认识、可能存在的学习问题及学习望期等情况