聚类学习的理论分析与高效算法研究

被引量 : 25次 | 上传用户:zyr1234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类学习是机器学习的一个重要研究内容,被广泛应用于金融欺诈、医疗诊断、图像处理、信息检索和生物信息学等领域.目前,不同类型的聚类模型和算法已被广泛地提出和发展.然而,随着信息技术和采样技术不断地发展,需要处理的数据不断呈现出属性类型的多样性、高维性、规模的海量性、分布的不均匀性、时空特征的动态性等复杂结构.由于聚类分析是数据驱动的,不同的数据特征往往导致不同的聚类模型及算法,没有适合于所有特征的聚类学习方法.因此,当复杂数据成为现代社会中数据资源的主体时,如何从它们中发现隐藏的类结构已成为聚类学习的一个重要研究内容,并引起了广泛地关注.本文将以复杂数据为研究对象,构建符合其相应特征的聚类模型,并对相关理论与高效算法进行了深入的研究.本文的主要研究成果有:(1)提出了一种面向高维分类数据的属性双加权优化聚类算法.在该算法中,一种新的属性加权模式被提出,并将其应用于聚类过程中形成新的聚类优化问题.严格地获得了该算法的划分矩阵、类中心集和属性权值在迭代过程中的更新规则,从而保证了算法能够在有限次迭代中获得局部最优解.证明了该算法的收敛性.实验结果表明新提出的算法既继承了Chan等人提出的属性加权算法的简单性,又有效地克服了它们在面对高维分类数据时的加权失效问题.(2)提出了一种针对快速全局K-Means聚类算法(FGKM)的加速机制.在该机制中,利用数据点的局部几何信息在保证FGKM聚类结果的同时减少其大量不必要的距离计算,从而使得FGKM聚类算法能够有效地处理大规模数据.分析了基于提出的加速机制的FGKM算法的空间和时间复杂度.实验结果表明加速后的FGKM算法相比原始的FGKM和其它改进的FGKM算法需要更少的聚类时间和距离计算次数.值得注意的是,新算法的有效性随着数据的维数和聚类数目的增加而变得更加明显.(3)揭示了非平衡数据对模糊K-Means聚类算法的表现影响以及聚类结果的“均匀效应”产生的原因.理论分析表明了模糊K-Means聚类算法相比K-Means聚类算法在聚类非平衡数据时更倾向于产生“均匀效应”,并且随着模糊因子α值的增加而变得严重.为了避免聚类结果受到“均匀效应”的影响,提出了一种基于多类中心的模糊K-Means聚类算法.在该算法中,首先应用了全局模糊K-Means聚类算法产生可信赖的类中心.进一步,基于模糊因子α和所产生的类中心之间的最大最小距离,提供了一种确定聚类数目的方法.最后,将提出的一个分离测度应用于组织多类中心去代表每个类.实验结果表明该多类中心聚类算法能够有效地聚类非平衡数据.(4)提出了一种新的面向动态分类数据流的聚类框架.在该框架中,首先提出了一种新的融合类内和类间信息的类特征描述方式以及基于它的数据类别标记方法.该方法弱化了滑动窗口中的类尺度对标记结果的影响.接着,定义了一个有效性函数,并将其应用于去评测新窗口中对象标记结果的有效性.基于该函数,概念漂移检测问题被转化为一个凸规划问题.利用该问题的最优解来帮助人们去发现漂移的概念,从而使得检测结果能够独立于数据类别标记结果.实验结果表明新的聚类框架相比其它框架不仅能够有效地标记新窗口的对象而且能准确地发现漂移的概念.(5)提出了一个泛化的聚类有效性函数,并在此基础上,分析了K-Modes目标函数、分类效用函数和信息熵函数之间的关系.分析结果表明分类效用函数在评测聚类结果的有效性上等效于信息熵函数,且优于K-Modes目标函数.由于泛化的有效性函数仅仅基于类内信息,因此,进一步回答了仅用类内信息也能够有效地评测聚类结果的问题.最后分析了聚类有效性函数的归一化在评测同一算法在不同数据集上的表现时的重要性,并给出了泛化的有效性函数在一些情况下的归一化方法.本文的研究成果进一步丰富了面向复杂数据的聚类学习研究,为生物信息数据、Web数据、客户交易数据等相关领域的数据挖掘与知识发现提供了新的技术支撑.
其他文献
为研究溧阳水电站地下洞室开挖围岩稳定性,以地下厂房开挖时提供的地质条件和勘察资料为基础,结合完整岩块的强度试验成果,采用颗粒流数值模拟方法研究厂房在破碎岩体中开挖
我国《反垄断法》规定:反垄断委员会的首要职责是“研究拟定有关竞争政策”。然而,长期以来我国虽有竞争政策的实践,却无竞争政策的理念。更由于“竞争政策”是在《反垄断法》中
改革开放以来,我国出口贸易结构不断优化,但从更细的工业制成品出口贸易结构看,我国对环境造成污染的的化学品及有关产品比重一直呈下降趋势,资源密集型产品比重在2003年之后出现
我国全面实施营改增已两年有余,各单位的增值税申报工作也在稳步推进。本文以高校为例,系统分析了营改增对其涉税业务的影响,为高校增值税纳税申报、筹划、核算等工作提供有
本文运用委托代理理论和信息经济学相关理论,采用规范研究与分析研究相结合的研究方法,对自愿性信息披露的最优合约进行设计。通过理论推导,设计出了低未来盈利能力公司和高
新闻是信息传播的文体,不同的新闻载体表现的形式不一样。传统新闻是以广播、电视、报纸等为载体进行传播的。随着互联网技术的发展,新闻传播的载体变得多样化,互联网传播也
影视人类学作为一门新兴的学科,它独特的研究方法使人类文化的研究变得色彩缤纷,声色并茂。影视人类学所具有的功能和特点,使其在民族文化的研究和保护中起到了重要的作用,成
新能源汽车代表了未来全球能源危机形势下的汽车行业发展的方向与希望。新能源汽车是一个高投入、高技术、高风险的科技项目。目前几乎所有的汽车企业巨头都开始了实质性的开
鸡大肠杆菌病是严重危害养鸡业的一种重要的细菌性传染病,规模养鸡场细菌性疫病的发生以大肠杆菌居首位。为此由于其血清型复杂,耐药菌株不断增加,给防治工作带来了巨大困难。首
整合分析(meta-analysis)是对同一主题下多个独立实验结果进行综合的统计学方法,被认为是到目前为止最好的数量综合方法。在进行整合分析时,首选应提出统计假设,根据似设的不同可