基于“90-10”规则的并行层次聚类算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:hongxing35
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,信息数据越来越多,如何从海量数据中提取对人们有价值的信息已经成为一个非常迫切的问题。由此产生了数据挖掘技术,它是一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。聚类分析是数据挖掘中的一个重要研究领域。它在图像处理、入侵检测和生物信息学等方面有着极为重要的应用。由于聚类对象在高维特征空间分布的复杂性,聚类效果评价的不确定性和灵活性,以及聚类作为一个优化问题求解的高计算复杂性,聚类算法仍然面临着众多的问题和挑战。本文首先提出了一种新的基于“90-10”规则的并行数据预处理算法,该算法对现有基于“90-10”规则的预处理方法进行了改进,以减少最小生成树构建时的结点数目,它可使原始输入数据的规模最多减少为原来的1/10,而不致改变聚类效果;针对目前基于SIMD模型的并行分层聚类算法存在的无法解决存储冲突问题,应用预处理算法,提出一种基于SIMD-EREW共享存储模型的并行分层聚类算法。算法使用O(p)个并行处理单元,在O((λn)2/p)的时间内对n个输入数据点进行聚类,其中0.1≤λ≤0.3。将提出算法与现有文献结论进行的理论性能分析表明:本算法明显改进了现有文献的研究结果,是一种自适应无存储冲突的并行分层聚类算法。为了验证本文算法的性能,利用基准测试数据集在学校高性能计算中心的IBM P690机器上进行了计算实验。实验结果证明了本文算法在计算时间和空间上的比较优势,以及对大规模数据集所具有的高可扩展性。
其他文献
在计算机网络中存在着大量空闲的存储资源,例如台式机、服务器、工作站等,虽然这些节点的计算与存储能力各异,但都可以向其他节点提供一定的共享存储空间,并且这些节点也可能成为
随着计算机网络技术的迅速发展,计算机网络无所不在地影响着社会的政治、经济、文化、军事等各个方面。大多数的企业、政府部门与机构都在充分利用网络,组建和发展自己的网站来
计算机的广泛应用和Web技术的快速发展使人们进入了互联网时代,为人们的生产生活提供了极大的便利。与此同时,J2EE Web技术的广泛应用,推动厂互联网技术的进步。人们在享受We
随着计算机技术的发展和网络带宽的提高,Web上图像资源变的越来越丰富,它们被大量的内嵌在网页中,构成了一个庞大的“Web图像数据库”。Web图像检索致力于解决从纷繁复杂的Web上
计算机蠕虫这种自传播的恶意程序近来对Internet产生了巨大的威胁,同时它们的传播和感染能力还在不断地提升。在这种频繁攻击的环境下,仅仅使用传统人工补丁的方法来保护系统
随着Internet的高速发展,互联网上的信息越来越多,呈现爆炸式增长,以互联网信息为数据基础的云计算和大数据分析技术随之兴起。然而,在互联网上所有的网页不仅含有重要信息,
World Wide Web(简称WWW,或Web网)自20世纪90年代发明以来就一直呈现蓬勃发展之势,到今天为止其蕴含着海量的丰富资源,包罗万象,是人类一笔宝贵的知识财产。Web网按其分布状
随着信息技术的高速发展和计算机网络技术的广泛应用,信息安全问题越来越重要,已经成为国内外计算机和网络应用领域普遍关注的热门研究课题。密钥协商是密码学中的基本要素,
为提高流媒体视频传输的传输效果和视频质量,缓解实时视频传输面临的若干问题,特别是网络带宽不稳定问题,本文对流媒体视频传输中的可分级编码和码率控制技术进行了深入的研
进化算法是借鉴生物自然选择和遗传机制而产生的随机搜索算法,主要包括遗传算法、进化规划、进化策略、遗传编程。本文着重对遗传算法和前馈神经网络算法相关理论及其融合问题