面向大规模数据的聚类算法研究及应用

被引量 : 22次 | 上传用户：kaifeng_chen

【摘要】

：

聚类分析是一种重要的无监督学习方法，作为数据分析的工具，其重要性在模式识别、图像处理等各个领域都得到了广泛的认可。聚类分析的目的是寻找隐藏在数据中的结构，并按照某种相

【作者】

：

金冉

【发表日期】

：

2015年01期

【关键词】

：

大规模数据聚类算法 MapReduce 社区发现聚类集成图像分割双聚类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

聚类分析是一种重要的无监督学习方法，作为数据分析的工具，其重要性在模式识别、图像处理等各个领域都得到了广泛的认可。聚类分析的目的是寻找隐藏在数据中的结构，并按照某种相似性度量，尽可能地使具有相同性质的数据归于同一类。近年来，各类数据及其信息量以指数形式增长，面对大规模数据，由于受到时间、内存、CPU等资源的限制，传统的聚类算法处理能力不再“高效”，而普遍存在着单位时间内处理量小、面对大规模数据时处理时间较长、难以达到预期效果等缺陷。如何对大规模数据进行有效聚类，得到了广大学者的关注，也已成为国际数据挖掘领域的重点。针对现有聚类算法不能有效处理大规模数据的问题，本文分成二大部分开展了研究：第一部分，面向大规模复杂数据，结合并行计算及云计算技术，针对划分聚类算法和谱聚类算法，设计了两种并行聚类算法，分别是基于MapReduce的抽样划分聚类算法和云环境下高效并行谱聚类算法；第二部分，面向复杂网络、生物基因、图像分割等特定领域中的大规模数据，分别设计了聚类集成发现复杂社区算法F-DC、加权半监督聚类图像分割算法WSSC和基因差异共表达双聚类算法DCECluster。本文的主要研究成果如下：(1)提出了一个基于抽样划分聚类算法的通用框架，并为其设计了MapReduce实现。具体而言，我们先采用改进的抽样技术去处理大规模数据集的表示；而后提出了一种抽样划分聚类算法的通用框架，并通过实现k-means和k-medoids算法来验证框架的有效性；此外，在此基础上，我们使用MapReduce编程模型实现了提出的框架。实验显示，针对大规模数据集，本文提出的方法是有效的。(2)提出了高效的并行谱聚类算法。并行化谱聚类算法的策略是：改进了距离矩阵和相似度矩阵，引入kd树技术，用于对相似度矩阵进行稀疏化处理；在计算特征向量时，把拉普拉斯矩阵存储于Hadoop文件系统上，通过分布式Lanczos运算获得特征向量；最后使用高效的并行k-means聚类对特征向量的转置矩阵进行处理获得聚类结果。通过对算法的每一步采用不同的并行策略，使得整个算法在速度上获得线性增长。实验表明，随着处理数据规模的扩大，聚类速度达到差不多线性的增长，提出的并行谱聚类算法适合海量数据挖掘。(3)提出了高效的社区发现聚类集成算法F-DC。算法的具体做法是：先提出了时间演变网络模型，并对每个聚类进行了统一描述；针对真实网络随时间进化演变特征，提出了基于聚类分割的网络快照产生聚类成员的方法；考虑到每个聚类成员的聚类中心分布和实际分布的差异，提出了基于最大似然法集成聚类结果的方法。通过大量实验的评估，验证了面向时间演变网络社区发现的聚类集成算法有效性。(4)提出了一种面向彩色图像分割的加权半监督聚类算法WSSC。算法首先提出了在传统半监督聚类算法中权重的概念并给出了计算公式。在此基础上，通过优化可能性矩阵获得了类标签。对于每一副图像，都可以表示成一个d维随机向量，每个像素点可由混合密度独立获取。利用WSSC算法，图像分割结果可以通过混合组件类标签获得。通过在二组图像数据上的一系列实验结果证明，提出的算法WSSC效率较高，特别是针对大规模彩色图像优势明显。(5)提出了一种新的基于粗糙集的多值样本属性离散化方法，进而提出了一种基于基因差异共表达样本权值图和搜索剪枝策略的最大双聚类挖掘算法DCECluster。算法首先把离散化的数据集构建成基因差异样本关系权值图，有效去除了无关的基因，通过基因差异共表达关系，定义了新的差异支持度概念，最后使用有效的搜索策略和剪枝策略对产生的候选双聚类进行剪枝。通过对4种不同差异共表达双聚类算法在有效性和效率方面的实验验证，显示出所提出的算法具有运行速度快、挖掘的有效双聚类数目多、节省内存等优点。大规模数据，作为信息化社会无形的生产资料，在智慧城市建设中呈现爆发式增长态势，它就像血液一样遍布智慧交通、智慧医疗、智慧生活等智慧城市建设的各个方面，对大规模数据进行复杂的分析、挖掘，可得出一系列规律以供决策与服务。本文取得的研究成果可以为智慧城市建设提供很好的支持。

其他文献

当代职员职业成功观的初步探索

21世纪，是一个人人都追逐职业成功的时代。且随着知识经济的到来，职业成功的标准不再单纯以薪资福利等客观评价标准来衡量，因此，职业成功的标准也呈多元化趋势。尤其是在中国这样

学位

职业成功职业生涯满意度主观客观自我认知他人认知

浅议城商行信用卡客户分层管理

信用卡客户结构优化关系到信用卡业务的长期发展,因此对城市商业银行信用卡客户的分层管理研究迎合了当前信用卡业务发展的需要,本文以城市商业银行信用卡客户分层管理为研究

期刊

城市商业银行信用卡客户分层

妇人启门图试探——以宣化辽墓壁画为中心

启门图是宋辽金元墓葬中常见的壁画题材,对其来源、性质及功能诸题的探讨,将有助于我们理解特定社会情境中特定图像题材背后的观念及社会历史意义。本文以河北宣化辽墓壁画为

期刊

宣化辽墓壁画妇人启门胡汉文化

萨满和萨满祭祀文化——访宁安兰岗镇东升村杨氏家族大萨满杨学勤有感

萨满是萨满祭祀文化传承与研究的关键要素,萨满在萨满祭祀文化中发挥着不可替代的作用,直接关乎人们对萨满祭祀文化思想内涵的解读,关乎原生态萨满祭祀文化的保护与传承,关乎

期刊

萨满祭祀文化

《城乡规划法》视角下的小城镇总体规划

《城乡规划法》的实施对小城镇总体规划的编制提出了新要求,文章从小城镇总体规划编制的现状问题出发,对规划理念的转变、规划内容的完善进行了阐述,提出小城镇总体规划的编

期刊

《城乡规划法》小城镇总体规划

一次成型轻量化车身的关键技术研究

以开发轻量化车身为目的,应用车身优化设计方法及理论设计了整体一次成型的塑料车身.有限元分析结果显示,该车身的振动频率偏低,为此从结构、材料等方面提出了一系列改进措施

期刊

轻量化车身一次成型有限元分析滚塑

社会组织在推进社会管理创新中的现状、作用和对策研究——基于湖南岳阳市社会组织发展现状之视角

要切实重视社会组织的作用,把社会组织培育壮大成为社会管理的主体力量,解决社会组织的"定性"问题;适应社会管理创新的需要,加大力度转移政府职能,形成政府与社会组织的良性

期刊

社会组织社会管理创新政府职能转移

基于产品生命周期理论的系统化产品研发策略研究

采用分析产品全生命周期和企业发展历程的研究方法,对公司产品设计与研发的各种系统化策略进行了研究.结果表明:在公司不同的发展阶段,企业要推行相对稳定的跟随型、收缩战略

期刊

产品生命周期产品研发研发策略系统化

满族文化遗产的基本特征及其旅游深度开发

我国满族文化遗产资源丰富完整,民族特色鲜明,地域文化浓厚,同时又兼具开放、包容等显著的特征,具有很高的旅游价值。针对目前满族文化遗产旅游主题不突出,形式单一等问题,本

期刊

满族文化遗产基本特征旅游价值深度开发

中国上市公司定向增发公告效应的影响因素研究

自股权分置改革取得阶段性成果以来,我国上市公司定向增发热情空前高涨。定向增发已然成为我国证券市场主要的融资手段,上市公司定向增发的公告效应,既影响了投资者投资选择,

期刊

定向增发股价效应超常收益率回归分析

面向大规模数据的聚类算法研究及应用

与本文相关的学术论文