大规模数据聚类分析方法研究

来源 :哈尔滨工程大学 | 被引量 : 4次 | 上传用户:leezero555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是数据挖掘与模式识别等领域的一个重要的研究课题。随着IT技术的迅猛发展,人们应用的数据库的规模和应用的范围不断地扩大,数据采集技术不断更新,人们快速产生和收集数据的能力不断增强,大规模数据集受到了整个社会的广泛关注。大规模数据集的出现给数据聚类分析的许多算法带来了极大的挑战,许多算法变得不能很好地、甚至不能对大规模的数据集进行有效地聚类分析。如何使这些算法能够有效地处理大规模数据集已经成为数据挖掘领域的一大研究热点。本文在对现有数据聚类算法的相关研究进行总结的基础之上,以一些真实和人造的大规模数据集为应用背景,深入研究了大规模数据集数据聚类分析算法中的如下几个关键问题。(1)针对大规模数据集k-means算法因为容易收敛于局部最优解而产生的聚类结果的质量不高、对初始聚类中心点敏感的问题,提出了基于最大三角形法则的k-means聚类算法和基于最大三角形法则的半监督k-means聚类算法,通过利用最大三角形法则选取初始聚类中心和借鉴半监督聚类的思想,提高了算法处理大规模数据集的聚类结果的质量和稳定性。(2)针对谱聚类算法在处理大规模数据集时计算复杂度高的问题,提出了一种基于Nystr?m方法的快速谱聚类算法。该算法利用有约束的抽样模型和Nystr?m方法降低了谱聚类算法的计算复杂度,提高了聚类结果的质量。(3)针对最小距离分类法和最近邻分类法在训练样本很少或训练样本偏离类中心较远时,分类效果较差的问题,提出了基于均值更新(MU)的分类模型和基于均值更新的最小距离(MU-MD)分类模型,通过纠正MU分类过程中的错分,提高分类效果。在此分类模型的基础上,针对常用聚类方法在大规模数据处理上的不足,提出了一种划分聚类新方法。该方法采用了大规模数据集的抽样技术,对多次抽取的规模足够大的样本进行聚类以确定自然簇质心的初始位置,在此基础上采用抽样后剩余数据样本对质心的初始位置进行更新,以便校正偏离理想位置的初始质心。实验结果表明本文提出的新聚类算法不仅能得到比常用聚类算法更理想的结果,而且运行速度快,适合处理大规模数据的聚类任务。(4)针对常用谱聚类算法在对大规模彩色图像数据进行分割处理时计算复杂度高和分割效果较差的问题,提出了基于mean shift和谱聚类集成算法的彩色图像分割算法。该算法利用了mean shift和谱聚类集成算法的优点,并综合考虑了局部区域像素的亮度和细节信息。在多幅大规模彩色图像数据上的分割实验验证了本文算法的优越性。
其他文献
我国港口,随着开放政策的实现,将呈现出一个发展的大趋势。港口发展必将触动所在城市的飞跃。传统的着眼于港口单一职能和自身合理配置的旧观念,将在我国港口发展中被冲破;新
目的探讨男性不育患者体内精子顶体酶活性的变化情况。方法通过对本院2007年1月~2011年2月男科门诊就诊的男性不育患者483例为观察组,设置同期健康体检者270例为对照组,采用精
近年来,人们的安全意识逐渐提高,更加关注生活质量问题,企业社会责任问题引起了人们的高度重视。企业社会责任与企业联系密切,虽然社会责任短期内不能直接为企业带来经济效益
目的观察高危人乳头瘤病毒(HPV)感染的宫颈上皮内瘤变(CIN)患者阴道局部组织的免疫状态,探讨凤香洗液对其的干预作用。方法选取伴高危HPV感染的CIN患者60例,其中CINI患者30例
目的:研究长时程连续心电监控房颤对急性缺血性卒中(发病〈5d)入住院患者的卒中后复发情况。方法:将筛选的103例急性缺血性脑卒中且STAF评分5分的患者,按是否进行10d长时程或者短
保证精密铸造中铸件的几何尺寸精度是RT工艺中十分关键的技术环节。论述了铸造凝固过程分析中的非线性及热力耦合问题,采用热力耦合分析的方法对典型件凝固过程的尺寸精度进行了
在建项目财务核算工作开展,需要具备较高的财务核算管控优势,但是在财务核算管控中,因为不能具备较高的财务核算管控优势,在实际的财务核算工作开展中,存在较多的隐患问题,导
组成:倒叩草30克,鱼腥草15克,半枝莲15克,益母草15克,车前草15克,白茅根30克,灯草1克。用法:每日1剂,水煎分服。功能:清热解毒、利尿渗湿、活血降压。
为实现广西动物防疫物资的信息化管理,适时掌握广西动物防疫物资的流转状况,广西壮族自治区动物疫病预防控制中心开发了“广西壮族自治区动物防疫物资信息管理系统”。该系统
给出了一种新的计算弯曲矩形介质波导因弯曲引起的辐射损耗系数的方法-固定扰动修正的有效折射率法.利用这种方法,分析计算了弯曲矩形介质波导的弯曲损耗系数与介质波导宽度