大规模复杂数据聚类算法研究

来源 :山西大学 | 被引量 : 6次 | 上传用户:zbblyd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种重要的无监督机器学习方法和典型的数据挖掘技术,聚类分析已得到学术界和企业界的广泛关注.近年来,根据不同应用领域的需求,研究者已经发展了一系列聚类模型和算法,并在图像处理、信息检索、社交网络和生物信息学等领域的数据分析中扮演着重要角色.然而,随着大数据、物联网等一系列新兴技术的快速发展与广泛应用,社会活动、科学研究、移动互联网等诸多领域积累了大量复杂数据.需要处理的这些数据呈现出样本规模的海量性、特征规模的高维性、特征表示的混合性、内在结构的复杂性等特点.无论从模型、算法还是应用层面,均给聚类分析提出了严峻挑战.因此,如何从大规模复杂数据中挖掘隐含的类结构成为了一个富有挑战性的研究课题.本文针对数据的大规模性、高维性、混合性、复杂性等特点,采用抽样、子空间聚类、聚类集成、图压缩等技术系统地开展了聚类分析模型与算法的研究.具体地,本文的主要研究内容及取得的研究成果如下:(1)针对大规模数据聚类算法面临的计算效率低下的问题,提出了一个基于分层抽样的聚类算法框架.与其他大多数基于抽样的聚类算法相比,提出的框架在抽样过程中考虑了数据集的分布信息.一个包含大量数据对象或方差较大的数据层应该被抽取更多的数据对象来代表原始数据,这种差异有利于产生更具代表性的样本子集和更好的部分聚类结果.大量实验验证了提出算法的有效性和高效性.(2)针对高维混合数据聚类的有效性问题,提出了一种高维混合数据软子空间聚类算法.首先,为了更加准确客观地度量对象与类之间的差异性,设计了一种针对混合数据的扩展欧氏距离;其次,通过融合不同类型信息熵,实现了对类结构的类内、类间的不确定性度量,并基于此给出了针对各个类的特征加权方法.在真实数据上,验证了提出算法的有效性.(3)针对聚类集成中基聚类质量以及他们之间的差异性问题,提出了一种基于信息熵的混合数据序列化基聚类生成算法.该算法针对数值型数据和分类型数据分别利用微分熵和互补熵建立了统一的聚类结果有效性评价准则.基于该准则和归一化互信息,能够有效生成聚类质量高、差异性强的基聚类成员.系列实验验证了该算法的有效性.(4)针对聚类集成算法集成过程中基聚类贡献不同的问题,提出了一种分类型数据的聚类集成选择算法.该算法利用5种常用的分类型数据内部有效性评价指标和归一化互信息分别度量基聚类成员的质量和差异性.通过迭代式地选择聚类质量高且差异性强的基聚类参与集成获得了更加准确的聚类结果,在多个真实数据集上通过实验验证了提出算法的有效性和鲁棒性.(5)针对大规模复杂网络聚类分析计算效率低下问题,提出了一种基于图压缩的大规模社交网络聚类算法.根据社交网络中节点具有幂律分布的特点,该算法通过压缩度数较低的节点获得规模较小的压缩图,基于压缩图进行聚类分析,最后将部分聚类结果传播到整个社交网络.该算法在保证聚类质量的前提下,提高了计算效率.进一步将该算法应用到社会化推荐中,有效地提高了推荐算法的计算效率.本文取得的研究成果不仅丰富了聚类分析的研究内容,而且可为社交网络和生物信息学等领域中的数据分析提供技术支持。
其他文献
近年来随着电动汽车(EV)的普及,锂离子电池的使用率也迅速提升。纯LiNiO2正极材料应用于锂离子电池正极时,其电化学性能和储存性能都较差,而对其结构中掺杂一定比例的Co元素和A
背景自从“脂质肾毒性假说”提出以来,许多学者在这一领域进行了大量研究。本文通过研究普通人群中高脂血症与慢性肾脏病(chronic kidney disease,CKD),旨在探讨血脂水平变化
“居者有其屋”是中华民族秉持传统价值观的重要内容之一,也是世界大多数国家政府的施政理念。住房是关系国计民生的重大经济问题和社会问题。尤其是在当前我国构建社会主义
2015年高考全国卷作文以“任务驱动型写作”命题,该作文类型广泛出现在高考、中考的命题与课堂教学之中。任务驱动型写作的出现较好地解决了作文宿构和套作的问题,但目前对于
20世纪20年代以后,中国天主教在本土化建设方面做了许多积极尝试。河南天主教本土化建设在1933年取得了重要成就,成立了由中国神职任主教、神父的国籍教区,教区得到了迅速、
天主教主教府已经使用80余年,为保护性建筑.本文介绍了在保持原貌和确保正常使用的前提下,对其进行的检测鉴定和加固设计.此工程为如何对保护性建筑进行检测及加固改造积累了
住房抵押贷款证券化是过去30多年中金融领域里最重要的创新。它发端于美国,随后在发达国家迅速发展,并逐渐成为全球趋势。随着我国经济的发展和住房制度改革的不断深化,居民
飞机编队的干扰效能和抗干扰阵地的探测效能在作战过程中彼此制约,此消彼长。本文根据双方作战特征,建立了基于概率转移的飞机干扰效能评估模型,并提出能体现干扰效能的定量
本文选取了沪深两市2006年到2014年宣告股份回购的61家企业,并且对样本企业进行配对,主要是根据一些财务指标选取同行业中盈利能力、规模等较为接近的未进行股票回购的企业,
本文通过大样本回顾分析血浆置换治疗重型病毒性肝炎的疗效及影响因素.方法:1999年至2004年用血浆置换治疗重型病毒性肝炎患者411例,回顾性分析了患者临床特点、血浆置换疗效