动态增量聚类算法的研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:woshishouhushen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
K均值聚类算法是一种划分算法,因此存在一些缺陷,为了解决此问题,模糊C均值算法引入了隶属度U,解决了“硬”划分问题,但是模糊C均值不能初始化聚类中心和聚类个数。近邻传播算法算法是一种新型聚类算法,在效率方面比传统的算法有优势,但是面对非球状数据集的时候,不能产生好的聚类结果,基于以上问题,提出以下几个研究方面:针对模糊C均值不能初始化聚类中心和聚类数的缺陷,本文首先使用Init-cluster选择初始聚类中心和聚类个数,当这些参数确定之后采用基于核函数的模糊C均值算法聚类。为了避免异常值对聚类结果产生影响,本文提出了一种基于角度的异常点检测算法,可以有效地检测异常值,该算法能有效的排除影响聚类结果的异常值,提高算法整体的抗噪性和准确性。面对在低维空间中高维数据集的线性不可分的问题,本文引入全局核函数和局部核函数相结合的方法,由于不同类型的核函数具有不同的效果,所以构造出的新型核函数的具备两种类型核函数优点。近邻传播算法是基于欧式距离来构造相似度矩阵,所以对流形数据集的聚类效果并不理想,本文提出基于图的相似性度量,重新定义了相似度,放大元素之间的细微差别,让我们不仅能处理正常数据而且对非球状数据也能处理。面对不断增加的数据,如何基于现有的聚类结果进行动态增量聚类变得非常重要,传统的聚类算法只能聚类静态数据点。本文从元素之间的夹角出发,另辟蹊径,提出基于角度的增量聚类算法,避免了大量的重复计算。本文在KFCM聚类结果的基础上,提出类与类之间的相异度,根据相异度的大小直接把数据分配到对应类别中,解决了传统聚类算法无法聚类动态数据集的缺陷。实验表明,这可以节约时间,提高了效率。
其他文献
我国环境民事公益诉讼原告主体资格制度框架已基本成型,今后应从进一步放宽社会组织提起环境民事公益诉讼的条件、明确检察机关在环境民事公益诉讼中的地位、依法确认省级政
目的观察冠心病患者血清多种细胞因子的变化及相互关系,以探索血清细胞因子谱在冠心病诊断中的应用价值。方法观察76例确诊的冠心病患者及26名健康查体者血清细胞因子水平,利
本文认为,公孙龙是逻辑正名理论的开拓者,其《名实论》是一篇以“正名”为旗帜的文章,《白马论》是对《名实论》逻辑正名思想的补充和发挥。公孙龙第一次从理论的高度提出“唯乎
各个民族的语言各有其特点,如何将包含异国文化的词语翻译成为维吾尔族儿童读者所能理解和接受的维吾尔语,从而达到民族交流、文化传播的目的便成为了翻译研究的一个重要课题
在大力发展区域环境经济的背景下,实现区域环境经济指标体系的科学构建很有必要。基于这种认识,本文对区域环境经济指标体系的构建原则展开了分析,然后从区域环境经济规模、
针对传统眼底照相机检查不到视网膜边缘的缺陷,提出一种基于Volk角膜接触透镜的免散瞳广域视网膜成像系统。照明充分时,Volk镜头能够达到130°以上的视场。在传统眼底相机的
我国民营企业成本控制与管理对企业成长有着重要的意义。但是,目前民营企业成本控制与管理的现状堪忧:大部分民营企业成本管理者的综合素质偏低;成本控制观念落后;成本管理模
研究糖尿病变,定期的眼底筛查清晰病变图像,是发现和治疗病变的重要手段。图像清晰度评价函数的选择是自动对焦技术的关键。为了保证对焦的精度,提出了以血管边缘的清晰度作
随着社会经济发展和医疗体制变革,国内三级医院数量和规模迅速发展,整体规模过大,带来一系列问题。分析了国内三级医院规模不断扩张的原因,并针对性提出政策建议。国内三级医
据统计,燃煤排放到大气的烟尘和二氧化硫量占全国总排放量的70%和90%以上,也是雾霾形成的主要原因,特别是城乡结合部及农村的'燃煤取暖'排放量惊人,大于工业排放,环