基于网格密度峰值的数据流聚类算法及应用研究

来源 :河北工业大学 | 被引量 : 0次 | 上传用户:lpy2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,数据流这一新的数据形式日益普及。传统聚类算法无法处理持续、海量的数据流,因此针对数据流的新聚类技术应运而生。在数据流聚类算法中,基于网格的数据流聚类算法在处理大规模数据时有着较高的效率。但这类算法存在着聚类边界丢失和易将相邻类合并的问题。论文采用双重网格划分和基于改进密度峰聚类(DPC)的网格合并解决上述问题,提出了基于网格密度峰值的数据流聚类算法(GDP-Stream),并将该算法应用于雷达信号分选领域。论文主要研究内容如下:(1)针对聚类边界丢失的问题,提出了双重网格划分。该划分方式将动态网格划分和静态网格划分结合。其中,动态网格有效处理聚类边界;静态网格过滤孤立点,并记录动态网格的相对位置信息,从而提高了相交动态网格求解速度。实验结果表明,该划分方式可以处理复杂形状的类,此外使聚类边界丢失的问题得到了明显缓解。(2)针对传统网格合并方式容易将相邻类合并的问题,提出了基于改进DPC的网格合并。该合并方式将密度峰聚类(DPC)的思想融入网格合并,把密度峰网格作为聚类中心,增强对数据空间的整体考量。同时针对DPC算法本身存在效率低的问题,采用基于密度极值的速度优化策略,减少了密度峰网格挖掘和非密度峰网格归类的时间。针对原始DPC易将复杂形状类或分布相对均匀的类被划分为多个类的问题,采用网格簇相似度对聚类结果进行优化。实验结果表明,该合并方法可以快速有效地区分相邻类。(3)提出了基于网格密度峰值的数据流聚类算法(GDP-Stream),使双重网格划分和基于改进DPC的网格合并可以动态地处理数据流。该算法分为两个阶段,在线阶段采用滑动窗口模型维护概要信息;离线阶段根据概要信息进行基于改进DPC的网格合并,快速聚类。实验结果表明,在KDD_CUP99数据集上,GDP-Stream算法较D-Stream算法、Ex CC算法以及DP-Stream算法有着更高的精度和效率。(4)将GDP-Stream算法应用在雷达信号分选中。首先,通过对雷达信号特征参数的分析,采用更加稳定的特征参数进行主要的分选工作,增强复杂电磁环境中的分选能力。其次,增加PRI混合检测步骤,充分利用已知数据,进一步优化分选结果。实验结果表明,基于GDP-Stream的雷达信号分选算法在雷达特征参数严重重叠的情况下,仍可以准确的完成分选任务。并且,PRI混合检测可以有效地识别信号混合的情况。
其他文献
近几年随着计算机视觉技术在国内计算机应用方面越来越被广泛地关注,目标检测作为最基本的工作也越来越受到关注。由于行人检测属于图像处理和计算机视觉分析领域中较为困难
土壤微生物碳利用效率与土壤受扰动强度有关,土壤扰动强度增强会导致土壤微生物碳利用效率升高。三峡库区消落带受三峡大坝每年定期的拦蓄和泄洪或季节性水位消涨影响,地表周期性裸露,土壤扰动增强,土壤理化特性发生显著变化,可能将对土壤微生物碳利用效率产生影响。本研究以三峡库区童庄河段消落带3个不同淹没持续时间的土壤为研究对象,以从未水淹样地为对照,研究不同水位梯度土壤碳氮磷、微生物量、酶活性和微生物碳利用效
锂硫电池具有理论能量密度高、硫价格低廉和毒性低等优点,已成为最具发展潜力的二次电池体系之一。但是,锂硫电池的规模化应用面临着面积比容量较低、循环性能较差等挑战,这
随着社会经济的不断发展,高速公路通车里程的日益增加,高速公路交通事故的发生率也随之上升。其中,由于大雾等恶劣气候条件导致的高速公路交通事故率占有较大的比重,雾天高速公路交通事故往往更为严重。为降低雾天高速公路事故发生率,本文围绕雾天条件下高速公路交通安全预警和速度管理进行研究。首先,对国内外研究现状、高速公路交通事故特点及影响因素以及雾的形成机理等相关文献和理论进行梳理,并分析雾天条件下高速公路交
盈余管理一直是公司治理研究的热点话题。近年来,学者们逐渐加强了对消极盈余管理的影响因素及防范策略的研究,以期将理论研究与实践相结合。公司高管是盈余管理行为的主要实
开发人员对代码段的复制和更改形成克隆代码。现有研究表明克隆代码具有双重作用,一方面克隆代码为开发人员带来便利,能够减少开发时间提高工作效率,有积极作用;另一方面克隆
本篇论文主要论述青海省海东市乐都区境内的一处藏传佛教寺庙——瞿昙寺各殿宇及廊庑的内檐彩画1。笔者在文献查阅和多次实地调研的基础上,结合图像学的研究方法,首先对寺内的内檐彩画做一个系统、完整的整理和归类,以期作为一份完整的基础资料方便研究人员的查阅。同时公布出一些新的资料,如瞿昙殿的脊枋彩画、藻井彩画、天花梁及内檐额枋彩画,大钟楼、大鼓楼、小钟楼、小鼓楼及金刚殿的脊檩包袱心旋子彩画,隆国殿大持金刚佛
Android已经成为市场占有率最高的移动端系统,Android应用的数量也快速增长,Android应用自动化测试技术成为当下研究热点。目前商业应用业务场景不断增加,其GUI也随之变得愈
光伏发电作为一种清洁、可再生的发电方式,正在迅速成为可持续发展和能源战略的重要组成部分。近年来中国光伏发电发展速度惊人,光伏装机容量快速增长。装机容量的大幅增加也给光伏发电系统的运行维护带来了更大的挑战。当代的光伏电站都以实际运行过程中产生的数据为核心开展运维工作,因此高质量、高可靠性的光伏运行数据是光伏运维工作开展的必要前提。然而在光伏系统实际运行过程中存在大量的异常值,产生这些异常值的原因包括
食用玫瑰广泛应用于食品、保健品、化工及其他领域,具有较大的开发利用价值。现有关于昆明食用玫瑰产业发展路径种植、加工、销售的研究成果,较为零散,三者间呈离散状态,针对性不强。昆明作为云南食用玫瑰产业主产区,产业解决了一定的农村劳动力就业和带动了农村经济的发展。基于食用玫瑰具有较大的开发利用价值和广阔的前景,而对昆明食用玫瑰产业发展路径又缺乏系统的研究。本研究综合运用了问卷调查、SWOT模型分析、PE